No Language Left Behind (NLLB) es un proyecto de IA innovador y sin precedentes, que proporciona modelos de código abierto que permiten realizar traducciones evaluadas de alta calidad directamente entre 200 idiomas, incluidos los de pocos recursos, como el asturiano, el luganda y el urdu, entre otros. El objetivo es brindar a las personas la oportunidad de acceder a contenido web en sus lenguas maternas y compartirlo, además de comunicarse con quien quieran, donde sea que estén, independientemente de sus preferencias idiomáticas.
No Language Left Behind (NLLB) es un proyecto de IA innovador y sin precedentes, que proporciona modelos de código abierto que permiten realizar traducciones evaluadas de alta calidad directamente entre 200 idiomas, incluidos los de pocos recursos, como el asturiano, el luganda y el urdu, entre otros. El objetivo es brindar a las personas la oportunidad de acceder a contenido web en sus lenguas maternas y compartirlo, además de comunicarse con quien quieran, donde sea que estén, independientemente de sus preferencias idiomáticas.
Tenemos el compromiso de unir a las personas. Por eso, usamos técnicas de modelado y aprendizajes de nuestra investigación de NLLB para mejorar las traducciones de idiomas con pocos recursos en Facebook e Instagram. Al aplicar esas técnicas y aprendizajes a nuestros sistemas de producción de traducciones, las personas podrán entablar conexiones mucho más auténticas y significativas en sus idiomas nativos o de preferencia. En el futuro, esperamos poder aplicar los aprendizajes de NLLB a más apps de Meta.
A medida que desarrollamos los distintos aspectos del metaverso, integrar la traducción de textos de AR/VR en tiempo real en cientos de idiomas es una prioridad. Nuestro objetivo es fijar un nuevo estándar en materia de inclusión, en el que algún día todas las personas puedan tener acceso a los contenidos, dispositivos y experiencias del mundo virtual, y puedan comunicarse con cualquier persona, en cualquier idioma en el metaverso. Con el tiempo, el objetivo es unir a las personas a una escala global.
La tecnología detrás del modelo NLLB-200, ahora disponible mediante la herramienta de traducción de contenido de Wikimedia Foundation, ayuda a los editores de Wikipedia a traducir la información a sus idiomas nativos y de preferencia. Los editores de Wikipedia utilizan la tecnología para traducir y editar con mayor eficacia artículos redactados en otros idiomas con escasa representación, como el luganda y el islandés. Eso contribuye a que los lectores de Wikipedia de todo el mundo puedan acceder a más conocimientos en más idiomas. El modelo NLLB-200 de código abierto también permitirá que los investigadores y las comunidades de editores de Wikipedia aprovechen nuestro trabajo.
Conoce todos los beneficios de la traducción con inteligencia artificial por medio de "Historias contadas gracias a la traducción", nuestra demo que usa las últimas tecnologías de inteligencia artificial que surgieron con el proyecto "No Language Left Behind". Esta demo toma libros en su idioma de origen (como indonesio, somalí o birmano) y los traduce a otros idiomas para que otros lectores puedan disfrutarlos. En los próximos meses, estarán disponibles en más idiomas. Con esta iniciativa, NLLB-200 será el primer modelo de inteligencia artificial capaz de traducir literatura a esta escala.
Los datos para el entrenamiento se recopilan con oraciones en el idioma de origen y en el idioma de destino.
Después de crear datos de entrenamiento alineados para miles de direcciones de entrenamiento, se introducen dichos datos en el proceso de entrenamiento de modelos. Los modelos se componen de dos partes: el codificador, que convierte la oración de origen en una representación vectorial interna; y el decodificador, que toma esa representación vectorial interna y genera la oración de destino con precisión. Al entrenarse con millones de traducciones de ejemplo, los modelos aprenden a generar traducciones más precisas.
Por último, para evaluar el modelo, lo comparamos con un conjunto de traducciones realizadas por humanos con el fin de confirmar que estamos conformes con la calidad de la traducción. Eso incluye detectar y filtrar groserías y otro tipo de contenido ofensivo por medio de listas de toxicidad que elaboramos para todos los idiomas admitidos. Como resultado, se obtiene un modelo bien entrenado que puede traducir un idioma directamente.
Los datos para el entrenamiento se recopilan con oraciones en el idioma de origen y en el idioma de destino.
Después de crear datos de entrenamiento alineados para miles de direcciones de entrenamiento, se introducen dichos datos en el proceso de entrenamiento de modelos. Los modelos se componen de dos partes: el codificador, que convierte la oración de origen en una representación vectorial interna; y el decodificador, que toma esa representación vectorial interna y genera la oración de destino con precisión. Al entrenarse con millones de traducciones de ejemplo, los modelos aprenden a generar traducciones más precisas.
Por último, para evaluar el modelo, lo comparamos con un conjunto de traducciones realizadas por humanos con el fin de confirmar que estamos conformes con la calidad de la traducción. Eso incluye detectar y filtrar groserías y otro tipo de contenido ofensivo por medio de listas de toxicidad que elaboramos para todos los idiomas admitidos. Como resultado, se obtiene un modelo bien entrenado que puede traducir un idioma directamente.
La traducción automática es una tarea de aprendizaje supervisado, lo que significa que el modelo necesita datos de los cuales aprender. A menudo, se utilizan traducciones a modo de ejemplo que provienen de colecciones de datos de código abierto. Nuestra solución consiste en generar automáticamente pares de traducciones emparejando oraciones de diferentes colecciones de documentos monolingües.
Los modelos LASER que se utilizan en este proceso de creación de conjuntos de datos son compatibles principalmente con los idiomas con recursos medios y altos. Por ese motivo, resulta inviable producir pares de traducciones precisos para los idiomas con recursos bajos.
Los sistemas de traducción automática multilingües mejoraron en comparación con los sistemas bilingües. Esto se debe a que permiten la "transferencia" de pares de idiomas con muchos datos de entrenamiento a otros idiomas con menos recursos de entrenamiento.
El entrenamiento en conjunto de cientos de pares de idiomas tiene sus dificultades, ya que el mismo modelo debe representar un número cada vez mayor de idiomas con el mismo número de parámetros. Esto representa un problema cuando el tamaño de los conjuntos de datos es desequilibrado, ya que puede provocar un ajuste excesivo.
Para determinar si una traducción realizada por nuestro modelo cumple con nuestros estándares de calidad, debemos evaluarla.
Los modelos de traducción automática suelen evaluarse comparando las oraciones traducidas automáticamente con traducciones humanas. Sin embargo, para muchos idiomas no hay datos de traducción confiables. Por lo tanto, no se pueden realizar evaluaciones precisas.
Obtén más información sobre la ciencia detrás de NLLB en nuestro informe técnico y en el blog. Además, descarga el modelo para ayudarnos a llevar este proyecto adelante.
Conoce los hitos del modelo según el número de idiomas publicados
La primera exploración exitosa de representaciones de oraciones multilingües a gran escala que se compartió de manera pública con la comunidad de NLP. El codificador crea incrustaciones a fin de emparejar automáticamente oraciones que comparten el mismo significado en 50 idiomas.
Los modelos de IA de Facebook tuvieron el mejor rendimiento de entre todos los demás modelos en la WMT 2019, ya que utilizaron la traducción inversa con muestras a gran escala, modelos de canales ruidosos y técnicas de limpieza de datos para ayudar a crear un sistema eficiente.
Un conjunto de datos de referencia para la traducción automática entre el inglés e idiomas con pocos recursos que introduce un proceso de evaluación justo y riguroso para dos idiomas inicialmente.
La mayor extracción de oraciones en paralelo en varios idiomas: extracción de un corpus paralelo compuesto por 135 millones de oraciones de Wikipedia en 1.620 pares de idiomas para desarrollar mejores modelos de traducción.
El primer modelo único de traducción automática multilingüe que traduce directamente cualquier par de 100 idiomas sin depender de los datos en inglés. Está entrenado en 2.200 direcciones de idiomas, 10 veces más que los modelos multilingües anteriores.
El conjunto más grande de datos de corpus paralelos de alta calidad y basado en la web para generar mejores modelos de traducción que funcionen con más idiomas, sobre todo con idiomas con pocos recursos: 4.500 millones de oraciones en paralelo en 576 pares de idiomas.
Crea incrustaciones a fin de emparejar automáticamente oraciones que comparten el mismo significado en 100 idiomas.
Por primera vez, un solo modelo multilingüe superó a los mejores modelos bilingües entrenados especialmente en 10 de los 14 pares de idiomas y ganó la WMT 2021, con las mejores traducciones para los idiomas con pocos y muchos recursos.
FLORES-101 es el primer conjunto de datos de evaluación de varios a varios idiomas que permite a los investigadores evaluar y mejorar rápidamente los modelos de traducción multilingüe como M2M-100.
El modelo NLLB traduce 200 idiomas.
Ampliación del conjunto de datos de evaluación FLORES, que actualmente incluye 200 idiomas.
Generación y publicación de datos de entrenamiento para 200 idiomas.
Crea incrustaciones a fin de emparejar automáticamente frases que comparten el mismo significado en 200 idiomas.
< 50 idiomas
50-100 idiomas
100 idiomas
200 idiomas
La primera exploración exitosa de representaciones de oraciones multilingües a gran escala que se compartió de manera pública con la comunidad de NLP. El codificador crea incrustaciones a fin de emparejar automáticamente oraciones que comparten el mismo significado en 50 idiomas.
Los modelos de IA de Facebook superaron a todos los demás modelos en la WMT 2019, ya que utilizaron la traducción inversa con muestras a gran escala, modelos de canales ruidosos y técnicas de limpieza de datos para ayudar a crear un sistema eficiente.
Un conjunto de datos de referencia para la traducción automática entre el inglés e idiomas con pocos recursos que introduce un proceso de evaluación justo y riguroso de dos idiomas inicialmente.
La mayor extracción de oraciones en paralelo en varios idiomas: extracción de un corpus paralelo compuesto por 135 millones de oraciones de Wikipedia en 1.620 pares de idiomas para desarrollar mejores modelos de traducción.
El primer modelo único de traducción automática multilingüe que traduce directamente cualquier par de 100 idiomas sin depender de los datos en inglés. Está entrenado en 2.200 direcciones de idiomas, 10 veces más que los modelos multilingües anteriores.
El conjunto más grande basado en la web de datos de corpus paralelos de alta calidad para generar mejores modelos de traducción que funcionen con más idiomas, sobre todo, con idiomas con pocos recursos: 4.500 millones de oraciones en paralelo en 576 pares de idiomas.
Crea incrustaciones a fin de emparejar automáticamente oraciones que comparten el mismo significado en 100 idiomas.
Por primera vez, un solo modelo multilingüe superó a los mejores modelos bilingües entrenados especialmente en 10 de los 14 pares de idiomas y ganó la WMT 2021, con las mejores traducciones para los idiomas con pocos y muchos recursos.
FLORES-101 es el primer conjunto de datos de evaluación de varios a varios idiomas que cubre 101 idiomas y permite a los investigadores evaluar y mejorar rápidamente los modelos de traducción multilingüe como M2M-100.
El modelo NLLB traduce 200 idiomas.
Ampliación del conjunto de datos de evaluación FLORES, que actualmente incluye 200 idiomas.
Generación y publicación de datos de entrenamiento para 200 idiomas.
Crea incrustaciones a fin de emparejar automáticamente frases que comparten el mismo significado en 200 idiomas.
Acehnese (Latin script)
Arabic (Iraqi/Mesopotamian)
Arabic (Yemen)
Arabic (Tunisia)
Afrikaans
Arabic (Jordan)
Akan
Amharic
Arabic (Lebanon)
Arabic (MSA)
Arabic (Modern Standard Arabic)
Arabic (Saudi Arabia)
Arabic (Morocco)
Arabic (Egypt)
Assamese
Asturian
Awadhi
Aymara
Crimean Tatar
Welsh
Danish
German
French
Friulian
Fulfulde
Dinka(Rek)
Dyula
Dzongkha
Greek
English
Esperanto
Estonian
Basque
Ewe
Faroese
Iranian Persian
Icelandic
Italian
Javanese
Japanese
Kabyle
Kachin | Jinghpo
Kamba
Kannada
Kashmiri (Arabic script)
Kashmiri (Devanagari script)
Georgian
Kanuri (Arabic script)
Kanuri (Latin script)
Kazakh
Kabiye
Thai
Khmer
Kikuyu
South Azerbaijani
North Azerbaijani
Bashkir
Bambara
Balinese
Belarusian
Bemba
Bengali
Bhojpuri
Banjar (Latin script)
Tibetan
Bosnian
Buginese
Bulgarian
Catalan
Cebuano
Czech
Chokwe
Central Kurdish
Fijian
Finnish
Fon
Scottish Gaelic
Irish
Galician
Guarani
Gujarati
Haitian Creole
Hausa
Hebrew
Hindi
Chhattisgarhi
Croatian
Hugarian
Armenian
Igobo
IIocano
Indonesian
Kinyarwanda
Kyrgyz
Kimbundu
Konga
Korean
Kurdish (Kurmanji)
Lao
Latvian (Standard)
Ligurian
Limburgish
Lingala
Lithuanian
Lombard
Latgalian
Luxembourgish
Luba-Kasai
Ganda
Dholuo
Mizo
Foundational models
Latest news
Foundational models