Facebook mejora su sistema de traducción a través de IA, pero ¿esto es relevante?

0

Facebook ha realizado un gran esfuerzo destinado a la traducción entre idiomas que carezcan de ejemplos de traducción. Por ejemplo, un caso sería del urdu al inglés. De hecho Neural Machine Translation (NMT) es el campo vinculado con el uso de la Inteligencia Artificial (IA) para traducir entre cualquier idioma. En 2015, en el Instituto de Algoritmo de Aprendizaje de Montreal se desarrollaron nuevas técnicas de IA que permitieron que las traducciones generadas por maquinas finalmente funcionaran.

Este fue un paso significativo, no obstante se requerían pares de oraciones en ambos idiomas que funcionen de referencia base. Sin embargo, para traducciones entre idiomas como el urdu y el inglés, sin muchos de estos pares, los sistemas de traducción sufrieron una falta derrota. Desde entonces, los investigadores han estado trabajando arduamente en construir un sistema que pueda traducir sin emparejamiento de oraciones, llamada “traducción automática neuronal no supervisada” (UNMT).

En este caso, Facebook AI Research (FAIR), publicó un documento que mostraba los importantes avances que han obtenido en la traducción de idiomas como el urdu al inglés. Expresan que “para dar una idea del avance, una mejora de 1 punto BLEU (métrica común para juzgar la precisión de calidad del texto que ha sido traducido) se considera un logro notable en el campo, nuestro método mostró una mejora de más de 10 puntos BLEU”.

La investigación abarca todo espectro de temas relacionados con la IA, y derivar conocimiento de los datos: teoría, algoritmos, aplicaciones, infraestructura de software y de hardware.

“Los objetivos a largo plazo de comprender la inteligencia y construir máquinas inteligentes son audaces y ambiciosos, y sabemos que hacer un progreso significativo hacia la IA no se puede hacer de forma aislada”, dicen los investigadores de FAIR.

Facebook ha estado realizando grandes inversiones en tecnología de inteligencia artificial, en mayo anunció la próxima versión de su marco de código abierto IA para desarrolladores.

¿Por qué esto sería relevante?


Con una mirada hacia las ciencias sociales, esta nueva innovación nos permitiría traducir documento escritos en idiomas perdidos, o incluso permitir dispositivos que puedan traducir entre idiomas poco conocimos en tiempo real, por ejemplo, swahili y bielorruso.

También podríamos imaginarnos abstrayendo esta idea para traducir entre dominios arbitrarios. Por ejemplo, “traducir” entre la actividad neuronal en el cerebro a videos en una pantalla, o el rendimiento de una acción dada un evento de noticias, al rendimiento proyectado de otra acción dado un evento de noticias similar.

¿Cómo funciona?


El sistema de Facebook identifica y combina 3 componentes centrales desarrollados en investigaciones previas:

  1. Codificaciones de par de Bytes: consiste en que alimentan al sistema con palabras en partes, en lugar se ser completas.
  2. Modelo de lenguaje: Entrenan otras redes neuronales para aprender a generar oraciones que “suenan bien” en el idioma. Por ejemplo, esta red neuronal podría cambiar la frase “cómo está” por “cómo estás”.
  3. Back-translation: este es un truco donde otra red neuronal aprende a traducir hacia atrás. Por ejemplo, si quiere traducir del español al inglés, se le enseña a una red neuronal a traducir del inglés al español y lo es usada para generar datos sintéticos, lo que aumenta la cantidad de datos que obtienen

El resto del sistema combina las técnicas anteriores a través de dos enfoques, un sistema basado en redes neuronales (NMT) y un sistema basado en frases (PBSMT). Si bien ambos enfoques mejoran las cualidades de traducción, el uso de ambos crea los nuevos resultados impresionantes.

La versión que han utilizado de PBSMT fue desarrollada previamente por FAIR. Este sistema es capaz de aprender una distribución de probabilidad para las frases de cada idioma y enseña a otro sistema a rotar los puntos de datos en el segundo conjunto para que coincida con el de la primera.