Meta AI creó un modelo único de inteligencia artificial, NLLB-200, que es el primero capaz de traducir 200 idiomas diferentes con calidad de primer nivel validada a través de evaluaciones exhaustivas en cada uno de ellos.
También creamos un nuevo conjunto de datos de evaluación, FLORES-200, y medimos el rendimiento de NLLB-200 en cada idioma a fin de confirmar la alta calidad de las traducciones. NLLB-200 supera la calidad anterior de primer nivel en un promedio del 44%.
Actualmente, estamos aplicando las técnicas de modelado y los aprendizajes obtenidos del proyecto para mejorar las traducciones y ampliar su uso en Facebook, Instagram y Wikipedia.
Ofreceremos de manera abierta el código del modelo NLLB-200 y del conjunto de datos FLORES-200, el código de entrenamiento del modelo y el código para recrear el conjunto de datos de entrenamiento a fin de ayudar a otros equipos de investigación a mejorar sus herramientas de traducción y aprovechar nuestro trabajo.
El idioma es nuestra cultura, nuestra identidad y nuestro nexo con el mundo. Sin embargo, como hay cientos de idiomas que no cuentan con herramientas de traducción de alta calidad, en la actualidad, miles de millones de personas no pueden acceder al contenido digital ni participar plenamente en conversaciones y comunidades online en sus lenguas maternas o sus idiomas de preferencia. Esto cobra especial relevancia en el caso de los cientos de millones de personas que hablan los numerosos idiomas de África y Asia.
Para ayudar a las personas a conectarse mejor en la actualidad y a formar parte del metaverso del futuro, el equipo de investigación de Meta AI creó No Language Left Behind (NLLB), una iniciativa para el desarrollo de funciones de traducción automática de alta calidad que incluye la mayoría de los idiomas del mundo. Hoy anunciamos un importante avance en NLLB: desarrollamos un modelo único de IA llamado NLLB-200, que traduce 200 idiomas diferentes con resultados de primer nivel. Muchos de estos idiomas, como el kamba y el lao, no se admitían adecuadamente o no se admitían en lo absoluto ni en las mejores herramientas de traducción de la actualidad. Hoy en día, menos de 25 idiomas africanos se admiten en las herramientas de traducción más utilizadas, muchas de las cuales son de baja calidad. En cambio, NLLB-200 admite 55 idiomas africanos con resultados de excelente calidad. Este modelo único puede proporcionar traducciones de alta calidad en idiomas hablados por miles de millones de personas en todo el mundo. En total, las puntuaciones BLEU de NLLB-200 mejoran la calidad avanzada anterior en un promedio del 44% en las 10.000 direcciones del punto de referencia FLORES-101. En el caso de algunos idiomas africanos e indios, el aumento es superior al 70% con respecto a los sistemas de traducción recientes.
Ofreceremos de manera abierta el código del modelo NLLB-200 y publicaremos una serie de herramientas de investigación para que otros investigadores puedan incluir más idiomas en este trabajo y crear tecnologías más inclusivas. Meta AI también proporcionará hasta 200.000 USD en subvenciones a organizaciones sin fines de lucro para usos reales del modelo NLLB-200.
Los avances en la investigación de NLLB ayudarán a que se proporcionen más de 25.000 millones de traducciones todos los días en la sección de noticias de Facebook, Instagram y el resto de nuestras plataformas. Imagina que visitas tu grupo favorito de Facebook, te encuentras con una publicación en igbo o luganda, y puedes entenderla en tu propio idioma con solo hacer clic en un botón. Con la ayuda de traducciones bien precisas en más idiomas, se podría detectar contenido dañino e información errónea, proteger la integridad de las elecciones y poner un freno a los casos de explotación sexual y trata de personas online. Las técnicas de modelado y los aprendizajes de nuestra investigación de NLLB ahora también se están aplicando a los sistemas de traducción que utilizan los editores de Wikipedia.
La traducción es una de las áreas más fascinantes de la IA por su impacto en la vida cotidiana de las personas. El objetivo de NLLB es mucho más que brindar a las personas un mejor acceso al contenido de internet. Facilitará que las personas hagan contribuciones y compartan información en distintos idiomas. Tenemos más trabajo por hacer, pero nos entusiasma el progreso reciente y cómo nos acerca a cumplir la misión de Meta.
Aquí puedes explorar una demostración de NLLB-200, que muestra cómo el modelo puede traducir historias de todo el mundo. También puedes leer el documento de la investigación aquí.
Nos asociamos con Wikimedia Foundation, la organización sin fines de lucro que alberga Wikipedia y otros proyectos de conocimiento abierto, para ayudar a mejorar los sistemas de traducción en Wikipedia. Hay versiones de Wikipedia en más de 300 idiomas, pero la mayoría tienen muchos menos artículos que los más de 6 millones disponibles en inglés. Esta disparidad es más grande entre los idiomas que se hablan principalmente fuera de Europa y América del Norte. Por ejemplo, hay unos 3.260 artículos de Wikipedia en lingala, un idioma que hablan 45 millones de personas en la República Democrática del Congo, la República del Congo, la República Centroafricana y Sudán del Sur. Si lo comparamos con un idioma como el sueco, veremos que este tiene 10 millones de hablantes en Suecia y Finlandia, y más de 2,5 millones de artículos.
Actualmente, los editores de Wikipedia usan la tecnología de NLLB-200 a través de la herramienta de traducción de contenido de Wikimedia Foundation para traducir artículos en más de 20 idiomas con recursos escasos (aquellos que no cuentan con amplios conjuntos de datos para entrenar los sistemas de IA), incluidos 10 que anteriormente no se admitían en ninguna herramienta de traducción automática de la plataforma.
Los sistemas de traducción automática, como todos los modelos de IA, se entrenan con datos. En el caso de los sistemas de traducción de textos, esto suele consistir en millones de frases en diferentes idiomas y cuidadosamente emparejadas. Pero no existen grandes volúmenes de frases paralelas entre, por ejemplo, el inglés y el fula. Los modelos de traducción actuales intentan solucionar esta situación recopilando datos de internet. Sin embargo, los resultados suelen ser de baja calidad porque el texto de origen es diferente según el idioma. Además, a menudo, hay muchos errores o incoherencias en cuanto a la ortografía, y faltan tildes u otros signos diacríticos.
Otro desafío importante es optimizar un único modelo para que funcione en cientos de idiomas sin comprometer el rendimiento ni la calidad de la traducción. Tradicionalmente, la mejor calidad de traducción se logró usando un modelo distinto para cada dirección lingüística. Pero es difícil ampliar este enfoque, ya que el rendimiento y la calidad de la traducción se ven perjudicados a medida que se agregan más idiomas.
Los modelos de traducción también generan errores que pueden ser difíciles de detectar. Estos sistemas se basan en las redes neuronales utilizadas para la generación de textos, por lo que, naturalmente, pueden producir errores, como alucinaciones (afirmar algo con seguridad, aunque no sea verdad), afirmaciones erróneas y contenido no seguro. En general, lo que sucede es que hay menos puntos de referencia y conjuntos de datos en los idiomas con recursos escasos, lo cual hace mucho más difícil probar y mejorar los modelos.
En los últimos años, avanzamos de forma constante para superar los desafíos descritos anteriormente. En 2020, anunciamos nuestro modelo de traducción de 100 idiomas M2M-100, que utilizó nuevos métodos para adquirir datos de entrenamiento, nuevas estructuras para ampliar el tamaño del modelo sin comprometer su rendimiento y nuevas formas de evaluar y mejorar los resultados. Realizamos nuevos avances en estas tres áreas para incluir otros 100 idiomas.
Para recopilar textos paralelos bien precisos en más idiomas, mejoramos LASER, nuestro kit de herramientas que se encarga del aprendizaje por transferencia sin ejemplos previos en el procesamiento del lenguaje natural (NLP). En lugar de LSTM, la nueva versión, LASER3, utiliza un modelo de transformación que se entrena de forma autosupervisada con un objetivo de modelado de lenguaje enmascarado. Además, para mejorar el rendimiento, utilizamos un procedimiento de entrenamiento de docente-estudiante y creamos codificadores específicos para cada grupo lingüístico, lo que nos permitió ampliar la capacidad lingüística de LASER3 y producir cantidades masivas de pares de frases, incluso en los idiomas con recursos escasos. Ofreceremos de manera abierta el código del método de inserción multilingüe LASER3 para ponerlo a disposición de otros equipos de investigación y también pondremos a disposición miles de millones de frases paralelas en diferentes pares de idiomas, que se recopilaron y depuraron mediante las técnicas descritas aquí.
Ya que ampliamos la red para obtener ejemplos de entrenamiento en más idiomas, era importante garantizar que la calidad de los ejemplos siguiera siendo alta. Revisamos por completo nuestro proceso de depuración de datos para incluir 200 idiomas y agregamos pasos importantes de filtrado que incluyeron el uso de nuestros modelos LID-200 para filtrar los datos y eliminar el ruido de los corpus a escala de internet con un grado elevado de confianza. Desarrollamos listas de toxicidad en el conjunto completo de 200 idiomas y, luego, utilizamos esas listas para evaluar y filtrar cualquier posible toxicidad por alucinaciones. Estos pasos permitieron garantizar que tuviéramos conjuntos de datos más depurados y menos tóxicos con idiomas identificados correctamente. Esto es importante para mejorar la calidad de la traducción y reducir el riesgo de lo que se conoce como toxicidad por alucinaciones, es decir, que el sistema introduzca contenido tóxico por error durante el proceso de traducción.
Los sistemas de traducción multilingüe ofrecen dos grandes ventajas. Permiten que idiomas similares (como el asamés y el bengalí, que se escriben en alfabeto bengalí) compartan datos durante el entrenamiento. Esto ayuda a mejorar considerablemente la calidad de la traducción de los idiomas con recursos escasos cuando se entrenan junto con idiomas similares que tienen gran cantidad de recursos. Además, es mucho más sencillo para los equipos de investigación realizar iteraciones, ampliaciones y experimentos con un único modelo multilingüe que con cientos o incluso miles de modelos bilingües diferentes.
Sin embargo, la ampliación de un modelo de 100 a 200 idiomas sigue generando importantes desafíos. Al contar con un mayor número de pares de idiomas con recursos escasos en los datos de entrenamiento, comienza a haber un sobreajuste de los sistemas multilingües a medida que entrenamos los modelos por más tiempo. Abordamos estas cuestiones a través de la innovación en tres ámbitos: la regularización y el aprendizaje curricular, el aprendizaje autosupervisado y la diversificación de la traducción inversa.
Primero, desarrollamos redes de mezcla de expertos que cuentan con una capacidad compartida y especializada, de modo que los idiomas con recursos escasos y sin muchos datos pudieran enviarse automáticamente a la capacidad compartida. Todo esto, cuando se combina con mejores sistemas de regularización, evita el sobreajuste. Además, seguimos un enfoque de aprendizaje curricular en dos pasos, en el que primero entrenamos los idiomas con gran cantidad de recursos durante un período breve antes de introducir los pares de idiomas con recursos escasos, lo que también redujo el problema del sobreajuste. Luego, debido a la poca cantidad de datos paralelos de bitextos en los idiomas con recursos escasos, aprovechamos el aprendizaje autosupervisado en datos monolingües tanto para los idiomas con recursos escasos como para los idiomas similares con gran cantidad de recursos a fin de mejorar el rendimiento general del modelo.
Por último, analizamos la mejor manera de generar datos de traducción inversa y descubrimos que mezclar datos de traducción inversa generados a partir de modelos de traducción automática estadística bilingüe y de traducción automática neuronal multilingüe ayudaba a mejorar el rendimiento en el caso de los idiomas con recursos escasos debido a la mayor diversidad de los datos sintéticos generados. Para entrenar el modelo NLLB-200, que tiene 54.000 millones de parámetros, utilizamos nuestra supercomputadora de IA recién construida, Research SuperCluster (RSC), que se encuentra entre las más rápidas del mundo.
Para evaluar y mejorar el modelo NLLB-200, desarrollamos FLORES-200, un conjunto de datos de evaluación único de muchos a muchos que permite a los equipos de investigación evaluar el rendimiento en 40.000 direcciones lingüísticas diferentes. Ofreceremos de manera abierta el código de este nuevo conjunto de datos para ayudar a otros equipos de investigación a probar y mejorar rápidamente sus modelos de traducción. FLORES-200 puede utilizarse para evaluar sistemas de traducción en una amplia gama de casos, como folletos de salud, películas, libros y contenido online en países o regiones donde se hablan varios idiomas con recursos escasos.
La ampliación a 200 idiomas implicó abordar los riesgos de generar contenido tóxico, lo que puede ser difícil de administrar en un sistema de traducción multidireccional. Para ello, elaboramos listas de toxicidad de todos los idiomas admitidos para poder detectar y filtrar las groserías y otro contenido potencialmente ofensivo. Publicaremos listas de evaluación de la toxicidad y puntos de referencia para los 200 idiomas con el fin de brindar a otros equipos de investigación las herramientas para reducir los riesgos en sus modelos.
Además, para garantizar que ampliemos nuestros esfuerzos de manera responsable, trabajamos con un equipo interdisciplinario que incluye lingüistas, sociólogos y especialistas en ética para aprender más sobre los idiomas que analizamos.
Las herramientas de traducción de alta calidad pueden ser transformadoras. La realidad actual es que unos pocos idiomas (como el inglés, el mandarín, el español y el árabe) dominan internet. Los hablantes nativos de estos idiomas de uso tan extendido pueden perder la noción de lo valioso que es leer algo en su lengua materna. Creemos que NLLB ayudará a preservar el idioma tal y como fue creado para comunicarse en lugar de necesitar siempre un idioma intermedio que, con frecuencia, no logra transmitir el sentimiento o el contenido correctamente.
También puede ayudar a avanzar en otras tareas del NLP, más allá de la traducción. Esto podría incluir la creación de asistentes que funcionen bien en idiomas como el javanés y el uzbeko, o la creación de sistemas que agreguen subtítulos precisos en suajili u oromo en películas de Bollywood. A medida que el metaverso empiece a tomar forma, la capacidad de crear tecnologías que funcionen bien en cientos o incluso miles de idiomas ayudará realmente a democratizar el acceso a nuevas experiencias envolventes en los mundos virtuales.
Hace apenas unos años, la traducción automática de alta calidad solo funcionaba en unos pocos idiomas. Con NLLB-200, estamos más cerca de contar algún día con sistemas que permitan a las personas comunicarse con quien quieran. Nos entusiasma lo que esto permite en el presente y lo que podría significar en el futuro a medida que sigamos ampliando los límites de las traducciones automáticas.
Este trabajo lo está llevando a cabo un equipo multidisciplinario de Meta AI que incluye a Bapi Akula, Pierre Andrews, Necip Fazil Ayan, Loic Barrault, Shruti Bhosale, Marta Ruiz Costa-jussa, James Cross, Onur Çelebi, Sergey Edunov, Maha Elbayad, Angela Fan, Cynthia Gao, Gabriel Mejia Gonzalez, Vedanuj Goswami, Francisco Guzmán, Prangthip Hansanti, Kennet Heafield, Kevin Heffernan, John Hoffman, Semarley Jarrett, Elahe Kalbassi, Philipp Koehn, Janice Lam, Daniel Licht, Jean Maillard, Alexandre Mourachko, Christophe Ropers, Kaushik Ram Sadagopan, Safiyyah Saleem, Holger Schwenk, Shannon Spruit, Anna Sun, Chau Tran, Skyler Wang, Guillaume Wenzek, Jeff Wang y Al Youngblood.
Foundational models
Latest news
Foundational models