No Language Left Behind (NLLB) (Ningún idioma se queda atrás) es un proyecto de inteligencia artificial único y revolucionario que utiliza modelos de código abierto capaces de entregar directamente traducciones evaluadas de alta calidad entre 200 idiomas, entre los que se incluyen idiomas con pocos recursos, como el asturiano, el luganda y el urdu, entre otros muchos. Su objetivo es dar a las personas la oportunidad de acceder a contenido web y poder compartirlo en su lengua materna, así como de comunicarse con cualquier otra persona en cualquier lugar, independientemente de sus preferencias idiomáticas.
No Language Left Behind (NLLB) (Ningún idioma se queda atrás) es un proyecto de inteligencia artificial único y revolucionario que utiliza modelos de código abierto capaces de entregar directamente traducciones evaluadas de alta calidad entre 200 idiomas, entre los que se incluyen idiomas con pocos recursos, como el asturiano, el luganda y el urdu, entre otros muchos. Su objetivo es dar a las personas la oportunidad de acceder a contenido web y poder compartirlo en su lengua materna, así como de comunicarse con cualquier otra persona en cualquier lugar, independientemente de sus preferencias idiomáticas.
Estamos muy comprometidos con unir a la gente. Por ello, estamos usando técnicas de modelos y aprendizajes extraídos de nuestra investigación NLLB para mejorar las traducciones de los idiomas con menos recursos en Facebook e Instagram. Mediante su aplicación a nuestros sistemas de producción de traducciones, las personas podrán conectar de forma más auténtica y significativa en sus lenguas maternas o preferidas. En un futuro, esperamos poder aplicar nuestros conocimientos extraídos de las tecnologías NLLB a más aplicaciones de Meta.
A medida que creamos contenido para el metaverso, damos prioridad a la integración de traducciones de textos de realidad aumentada y virtual en tiempo real en cientos de idiomas. Nuestro objetivo es definir un nuevo estándar de inclusión en el que, algún día, todo el mundo pueda tener acceso a experiencias, dispositivos y contenido del mundo virtual, con la capacidad de comunicarse con cualquier persona y en cualquier idioma en el metaverso. Con el tiempo, acercaremos a las personas a nivel global.
La tecnología que se esconde tras el modelo NLLB-200, disponible ahora mediante la herramienta de traducción de contenido de Wikimedia Foundation, ayuda a los editores de Wikipedia a traducir la información en sus lenguas maternas y preferidas. Los editores de Wikipedia usan la tecnología para traducir y editar los artículos de manera más eficiente y redactarlos en otros idiomas con poca representación, como el luganda y el islandés. Esto hace que el conocimiento esté disponible en más idiomas para los lectores de Wikipedia de todo el mundo. El modelo de código abierto NLLB-200 también ayudará a que los investigadores y las comunidades de editores de Wikipedia interesadas contribuyan a nuestra labor.
Experimenta el poder de la traducción mediante IA con Historias contadas a través de la traducción, nuestra demostración que usa los últimos avances en IA del proyecto No Language Left Behind (Ningún idioma se queda atrás). Esta demostración traduce libros desde sus idiomas de origen, como el indonesio, el somalí y el birmano, a otros idiomas para llegar a más lectores, con cientos de títulos disponibles en los próximos meses. Gracias a esta iniciativa, el NLLB-200 será el primer modelo de IA que pueda traducir literatura a esta escala.
Se recopilan los datos de entrenamiento, que constan de oraciones en el idioma de origen y en el idioma de destino deseado.
Tras conseguir los datos de entrenamiento alineados en miles de direcciones distintas, estos se introducen en el flujo de aprendizaje del modelo. Estos modelos están compuestos por dos partes: el codificador, que convierte la oración de origen en una representación vectorial interna, y el decodificador, que toma esta representación y genera con exactitud la oración de destino. Gracias al entrenamiento con millones de traducciones de ejemplo, los modelos aprenden a generar traducciones más precisas.
Por último, evaluamos el modelo comparándolo con un conjunto de traducciones realizadas por traductores humanos, con el fin de comprobar que presentan una calidad satisfactoria. Esta evaluación incluye detectar y filtrar el lenguaje malsonante y otros contenidos de carácter ofensivo mediante el uso de listas de toxicidad creadas para todos los idiomas admitidos. El resultado es un modelo bien entrenado que puede traducir el contenido directamente a un idioma.
Se recopilan los datos de entrenamiento, que constan de oraciones en el idioma de origen y en el idioma de destino deseado.
Tras conseguir los datos de entrenamiento alineados en miles de direcciones distintas, estos se introducen en el flujo de aprendizaje del modelo. Estos modelos están compuestos por dos partes: el codificador, que convierte la oración de origen en una representación vectorial interna, y el decodificador, que toma esta representación y genera con exactitud la oración de destino. Gracias al entrenamiento con millones de traducciones de ejemplo, los modelos aprenden a generar traducciones más precisas.
Por último, evaluamos el modelo comparándolo con un conjunto de traducciones realizadas por traductores humanos, con el fin de comprobar que presentan una calidad satisfactoria. Esta evaluación incluye detectar y filtrar el lenguaje malsonante y otros contenidos de carácter ofensivo mediante el uso de listas de toxicidad creadas para todos los idiomas admitidos. El resultado es un modelo bien entrenado que puede traducir el contenido directamente a un idioma.
La traducción automática es una tarea de aprendizaje supervisada, lo que significa que el modelo necesita datos de los que aprender. Con frecuencia se usan traducciones de ejemplo obtenidas de colecciones de datos de código abierto. Nuestra solución es emparejar oraciones de diferentes colecciones de documentos monolingües para crear pares de traducciones automáticamente.
Los modelos LASER que se han usado para este proceso de creación de conjuntos de datos admiten principalmente idiomas con recursos medios y altos, lo que hace imposible que se produzcan pares de traducción precisos para los idiomas con pocos recursos.
Los sistemas multilingües de traducción automática se han mejorado con respecto a los sistemas bilingües. Esto se debe a su capacidad para permitir la “transferencia” de pares de idiomas con una gran cantidad de datos de aprendizaje a otros idiomas con menos recursos de aprendizaje.
Entrenar conjuntamente cientos de pares de idiomas tiene sus desventajas, ya que el mismo modelo debe representar cada vez más idiomas con el mismo número de parámetros. Esto es un problema cuando los tamaños de los conjuntos de datos no están equilibrados, ya que se puede producir un sobreajuste.
Para saber si una traducción producida por nuestro modelo cumple nuestros estándares de calidad, debemos evaluarla.
Normalmente, los modelos de traducción automática se evalúan comparando oraciones traducidas por la máquina con traducciones realizadas por humanos. No obstante, para muchos idiomas no hay datos de traducción fiables, por lo que resulta imposible evaluar de forma precisa.
Consulta los hitos del modelo en función del número de idiomas publicados
La primera exploración de éxito de representaciones masivas de oraciones multilingües que se ha compartido públicamente con la comunidad del procesamiento del lenguaje natural. El codificador crea inserciones para emparejar automáticamente las oraciones que compartan el mismo significado en 50 idiomas.
Los modelos de inteligencia artificial de Facebook superaron a todos los demás modelos en el WMT 2019 gracias al uso de la traducción inversa de muestra a gran escala, así como técnicas de limpieza de datos y modelos de canal ruidoso con el fin de crear un sistema potente.
Un conjunto de datos comparativo para la traducción automática entre el inglés e idiomas con pocos recursos, que introduce un proceso de evaluación estricto y justo, empezando con dos idiomas.
La extracción más grande de oraciones paralelas en diferentes idiomas: extracción de un corpus paralelo de 135 millones de oraciones de Wikipedia en 1620 pares de idiomas para crear mejores modelos de traducción.
El primer y único modelo de traducción automática multilingüe en traducir directamente entre cualquier par de 100 idiomas sin depender de los datos del inglés. Formado en 2200 direcciones de idiomas, es decir, diez veces más que modelos multilingües anteriores.
El conjunto de datos de corpus paralelos de alta calidad extraídos de sitios web más grande para crear mejores modelos de traducción. Trabaja con más idiomas, sobre todo con aquellos con pocos recursos: 4500 millones de oraciones paralelas en 576 pares de idiomas.
Crea inserciones para emparejar automáticamente las oraciones que compartan el mismo significado en 100 idiomas.
Por primera vez, un único modelo multilingüe ha superado a los modelos bilingües mejor entrenados en 10 de 14 pares de idiomas y ha ganado el WMT 2021, al proporcionar las mejores traducciones de idiomas con pocos y muchos recursos.
FLORES-101 es el primer conjunto de datos de evaluación de varios a varios en cubrir 101 idiomas, lo que permite a los investigadores probar y mejorar rápidamente los modelos de traducción bilingües como el M2M-100.
El modelo NLLB traduce 200 idiomas.
La expansión del conjunto de datos de evaluación FLORES cubre ahora 200 idiomas.
Datos de aprendizaje creados y publicados para 200 idiomas.
Crea inserciones para emparejar automáticamente las oraciones que compartan el mismo significado en 200 idiomas.
<50 idiomas
50-100 idiomas
100 idiomas
200 idiomas
La primera exploración de éxito de representaciones masivas de oraciones multilingües que se ha compartido públicamente con la comunidad del procesamiento del lenguaje natural. El codificador crea inserciones para emparejar automáticamente las oraciones que compartan el mismo significado en 50 idiomas.
Los modelos de inteligencia artificial de Facebook superaron a todos los demás modelos en el WMT 019 gracias al uso de la traducción inversa de muestra a gran escala, así como técnicas de limpieza de datos y modelos de canal ruidoso con el fin de crear un sistema potente.
Un conjunto de datos comparativo para la traducción automática entre el inglés e idiomas con pocos recursos, que introduce un proceso de evaluación estricto y justo, empezando con dos idiomas.
La extracción más grande de oraciones paralelas en diferentes idiomas: extracción de un corpus paralelo de 135 millones de oraciones de Wikipedia en 1620 pares de idiomas para crear mejores modelos de traducción.
El primer y único modelo de traducción automática multilingüe en traducir directamente entre cualquier par de 100 idiomas sin depender de los datos del inglés. Formado en 2200 direcciones de idiomas, es decir, diez veces más que modelos multilingües anteriores.
El conjunto de datos de corpus paralelos de alta calidad extraídos de sitios web más grande para crear mejores modelos de traducción. Trabaja con más idiomas, sobre todo con aquellos con pocos recursos: 4500 millones de oraciones paralelas en 576 pares de idiomas.
Crea inserciones para emparejar automáticamente las oraciones que compartan el mismo significado en 100 idiomas.
Por primera vez, un único modelo multilingüe ha superado a los modelos bilingües mejor entrenados en 10 de 14 pares de idiomas y ha ganado el WMT 2021, al proporcionar las mejores traducciones de idiomas con pocos y muchos recursos.
FLORES-101 es el primer conjunto de datos de evaluación de varios a varios en cubrir 101 idiomas, lo que permite a los investigadores probar y mejorar rápidamente los modelos de traducción bilingües como el M2M-100.
El modelo NLLB traduce 200 idiomas.
La expansión del conjunto de datos de evaluación FLORES cubre ahora 200 idiomas.
Datos de aprendizaje creados y publicados para 200 idiomas.
Crea inserciones para emparejar automáticamente las oraciones que compartan el mismo significado en 200 idiomas.
Acehnese (Latin script)
Arabic (Iraqi/Mesopotamian)
Arabic (Yemen)
Arabic (Tunisia)
Afrikaans
Arabic (Jordan)
Akan
Amharic
Arabic (Lebanon)
Arabic (MSA)
Arabic (Modern Standard Arabic)
Arabic (Saudi Arabia)
Arabic (Morocco)
Arabic (Egypt)
Assamese
Asturian
Awadhi
Aymara
Crimean Tatar
Welsh
Danish
German
French
Friulian
Fulfulde
Dinka(Rek)
Dyula
Dzongkha
Greek
English
Esperanto
Estonian
Basque
Ewe
Faroese
Iranian Persian
Icelandic
Italian
Javanese
Japanese
Kabyle
Kachin | Jinghpo
Kamba
Kannada
Kashmiri (Arabic script)
Kashmiri (Devanagari script)
Georgian
Kanuri (Arabic script)
Kanuri (Latin script)
Kazakh
Kabiye
Thai
Khmer
Kikuyu
South Azerbaijani
North Azerbaijani
Bashkir
Bambara
Balinese
Belarusian
Bemba
Bengali
Bhojpuri
Banjar (Latin script)
Tibetan
Bosnian
Buginese
Bulgarian
Catalan
Cebuano
Czech
Chokwe
Central Kurdish
Fijian
Finnish
Fon
Scottish Gaelic
Irish
Galician
Guarani
Gujarati
Haitian Creole
Hausa
Hebrew
Hindi
Chhattisgarhi
Croatian
Hugarian
Armenian
Igobo
IIocano
Indonesian
Kinyarwanda
Kyrgyz
Kimbundu
Konga
Korean
Kurdish (Kurmanji)
Lao
Latvian (Standard)
Ligurian
Limburgish
Lingala
Lithuanian
Lombard
Latgalian
Luxembourgish
Luba-Kasai
Ganda
Dholuo
Mizo
Foundational models
Latest news
Foundational models