¿Un 'Google Traductor' en náhuatl?

Israel.Ayala - 11 de agosto de 2017 - 17:17

¿Un 'Google Traductor' en náhuatl?

Un buscador de palabras permite traducir del español a una lengua nativa de México.

Ciudad de México (CCM) — Un proyecto de lingüística computacional en México busca sentar las bases para desarrollar un traductor español-náhuatl. Se trata de "Axolotl", el primer buscador en línea de palabras en náhuatl.

En México hay más de 300 variantes lingüísticas, pero no se ha creado una tecnología para alguna de estas lenguas. "Lo que estamos haciendo es empezar a generar tecnologías del lenguaje para las lenguas indígenas del territorio mexicano", le dice a CCM la maestra en Ciencias de la Computación, Ximena Gutiérrez, pionera en el desarrollo del cuerpo paralelo del náhuatl, la lengua autóctona más hablada en México. En un futuro, permitiría traducir palabras del español al náhuatl, tal y como lo hace el traductor automático de Google o Linguee, el popular diccionario multilingüe.

Un buscador con un millón de palabras

El primer buscador español-náhuatl es de libre acceso desde la web. Para crear Axolotl (ajolote, en español), el equipo de Ximena realizó una búsqueda exhaustiva de libros en náhuatl y en español, que después digitalizaron. Los documentos pasaron por un software de reconocimiento que, a priori, permitiría reconocer los caracteres en lengua náhuatl. Sin embargo, el programa hacía traducciones falsas. "Fue todo un reto porque había que entrenar al sistema, acostumbrado a reconocer idiomas como el inglés", explica Gutiérrez. En total, en el buscador existen alrededor de 33 libros digitalizados y más de un millón de palabras combinadas entre las dos lenguas.

Finalmente, el buscador es un corpus paralelo, es decir, contiene la materia prima con la que se desarrollan los traductores. Este recurso lingüístico consiste en reunir una colección de documentos que estén disponibles tanto en el idioma que se va a traducir como en el que se quiere traducir: una especie de biblia que ayudará a encontrar la terminología en un idioma u otro. Algo muy similar al funcionamiento de una plataforma como Linguee, que permite la comparación de frases o palabras en varios idiomas.

El objetivo de tener un corpus paralelo como Axolotl es poder buscar frases o palabras. Aunque no es propiamente un traductor. "Un corpus paralelo sirve para contextualizar el lenguaje. Eso es lo que es Axolotl", comenta Ximena. El ajolote es, justamente, un anfibio extremadamente raro que habita en las aguas de la Ciudad de México. También se le conoce como salamandra mexicana que, asimismo, es un animal mitológico de la cultura náhuatl.

Un traductor automático, una tarea compleja

Cuando se tiene un cuerpo paralelo, es posible crear un traductor como Google Translator. "Para hacer un traductor se necesitan millones de millones de palabras. Sin esta cantidad de datos, el sistema será malo, ya que su calidad depende del número de datos que se tiene. Para el náhuatl, en Axolotl apenas hay un millón de palabras, por eso la traducción no puede ser muy precisa". La extracción del léxico bilingüe español-náhuatl es una tarea compleja, por lo que el traductor tiene una precisión del 70 %. La mayor dificultad es que el náhuatl no tiene una norma ortográfica. Para las computadoras es muy difícil hacer modelos estadísticos con esto", señala Ximena.

Sin embargo, el buscador encuentra las diferentes grafías de las palabras en distintas regiones de México. Por ejemplo, al investigar la palabra "mujer", el buscador ofrece las variaciones del náhuatl cihuatzin y nsowatl. La misma palabra dicha de dos maneras distintas en dos regiones de México.

"El obstáculo es más bien de investigación, recursos y ciertas características del náhuatl; por ejemplo, cada quien lo escribe como sea", explica Gutiérrez. "Para las computadoras, es algo muy difícil". Es por eso que el buscador está todavía disponible en versión beta.

"Esperamos que la gente lo use, sobre todo para estudios lingüísticos", declara la investigadora. "Nos encantaría colaborar con Google, que podría desarrollar esto más fácilmente, o trabajar con cualquier otra empresa. Nuestro corpus está abierto. Aquí, lo importante no es quién lo haga", finaliza la maestra en Ciencias de la Computación.

Foto: © natchapohn - 123RF.com
Deja tu comentario

Comentarios

Tu opinión