Investigadores de la UNAM crean Axolotl, potente repositorio para traducción del náhuatl

Contiene cerca de un millón de palabras y su potencial es convertirse en un traductor automático español-náhuatl

Con el fin de relacionar el lenguaje natural y la computación para que se desarrollen y apliquen sistemas informáticos que lo procesen, analicen y sinteticen, ingenieros de la UNAM crearon y pusieron en marcha Axolotl, el primer corpus o repositorio digital con 38 libros y cerca de un millón de palabras en español-náhuatl, único hasta ahora recurso para la generación de un traductor automático.

El náhuatl tiene un millón 586 mil 884 hablantes en México, convirtiéndolo en la segunda lengua materna más hablada en el país, por ello Ximena Gutiérrez Vasques, coordinadora del proyecto, detalló que entre las ventajas del corpus listo para consultarse destacan la facilidad de acceso gratuito y para cualquier persona interesada.

Además de la cómoda obtención de la información, el corpus captura la variedad de la lengua, ya que contiene palabras con variación dialectal y diacrónica, es decir la diversidad del náhuatl y la época en que fueron escritos.

“Por ejemplo, si alguien quiere saber cómo se dice cerro, ingresa al corpus, busca la palabra o frase y le aparecerá una serie de fragmentos de los textos donde el sistema encontró el vocablo cerro, así como el fragmento asociado en la lengua náhuatl, no se desplegará propiamente la traducción de la palabra, sino que mostrará la oración donde la localizó”.

Al ser el primer repositorio de conocimiento en su tipo, se busca impulsar desde la Universidad Nacional la generación de tecnologías para las lenguas mexicanas.

29011792073_58644320c6_z

Antecedentes de la integración

Gutiérrez Vasques, también profesora de la Facultad de Ingeniería, agregó que el proyecto surgió como parte de su doctorado con el fin de que se tuviera acceso a una colección de traducciones digitales español-náhuatl. “El problema al que me enfrenté es que es una lengua que no tiene norma ortográfica y muchos de los libros son antiguos y sin digitalizarse.

El primer paso fue buscar y recopilar los textos, los digitalizamos y conformamos el repositorio con temáticas diversas que van desde religiosos, históricos, didácticos, hasta musicales, recetarios o cuentos. Además, incluyen diversas variaciones dialectales. Lo llamamos Axolotl porque ese es el nombre original del ajolote en náhuatl”.

Se debe tener en cuenta la colaboración del Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas (IIMAS) y el Instituto de Ingeniería (II), ambas de la máxima casa de estudios.

Actualmente el corpus está listo para consultarse; sin embargo, se mantiene en actualización, ya que la ingeniera Ximena Gutiérrez haría uso de él para constituir un diccionario bilingüe español-náhuatl.

“Nuestro compromiso es con la enorme diversidad lingüística de México, nuestra aportación constituye un primer paso para la creación de tecnologías que no existían para esta lengua mexicana”, finalizó. (Agencia ID)