El Departamento de la Vicepresidencia y de Políticas Digitales y Territorio y la Barcelona Supercomputing Centre impulsan el proyecto AINA con una campaña de captación de voces para que la tecnología entienda y hable el catalán.

AINA es una iniciativa basada en inteligencia artificial (IA) que impulsaron el Departamento de Vicepresidencia y de Políticas Digitales y Territorio y el Barcelona Supercomputing Center (BSC-CNS) en 2020 para conseguir en 2022 que las máquinas entiendan, hablen el catalán y puedan mantener una conversación fluida y natural con las personas. Se destinarán tres millones de euros al proyecto y se potenciará la recaudación de voces por el corpus de Common Voice de la Fundación Mozilla , que recientemente ha superado las 1.500 horas registradas en catalán y se espera llegar a las 2.000 horas antes de que acabe el año.

A pesar del corpus textual del catalán supera ya los 10 GB y el de voz los 25 GB, las cifras todavía se encuentran lejos de lenguas como el inglés, el corpus más extenso con más de 825 GB de datos. Además, existe una carencia de variedad , con un 76% de las voces de Common Voice que corresponden al dialecto central del catalán y hay falta de presencia femenina dado que un 63% de ellas corresponden a hombres.

¿Cómo participar?

Con el fin de conseguir que la ciudadanía se sume al proyecto, el Govern ha iniciado la campaña "Nuestra lengua es tu voz" y se llevarán a cabo acciones concretas en el territorio para conseguir la participación de las variantes con menos muestras. Se puede colaborar con el proyecto AINA validando los cortes de voz , escribiendo las frases que se incorporarán al corpus o validando frases escritas . Encontrarás más información en este enlace .

En este vídeo encontrará la presentación pública del proyecto: