No Language Left Behind (Ningún idioma se queda atrás)

No Language Left Behind (Ningún idioma se queda atrás)

Fomentamos la inclusión gracias a las traducciones con ayuda de la inteligencia artificial

Fomentamos la inclusión gracias a las traducciones con ayuda de la inteligencia artificial

Mira el vídeo
Mira el vídeo

Información sobre No Language

Left Behind

No Language Left Behind (NLLB) (Ningún idioma se queda atrás) es un proyecto de inteligencia artificial único y revolucionario que utiliza modelos de código abierto capaces de entregar directamente traducciones evaluadas de alta calidad entre 200 idiomas, entre los que se incluyen idiomas con pocos recursos, como el asturiano, el luganda y el urdu, entre otros muchos. Su objetivo es dar a las personas la oportunidad de acceder a contenido web y poder compartirlo en su lengua materna, así como de comunicarse con cualquier otra persona en cualquier lugar, independientemente de sus preferencias idiomáticas.

Información sobre No Language Left Behind

No Language Left Behind (NLLB) (Ningún idioma se queda atrás) es un proyecto de inteligencia artificial único y revolucionario que utiliza modelos de código abierto capaces de entregar directamente traducciones evaluadas de alta calidad entre 200 idiomas, entre los que se incluyen idiomas con pocos recursos, como el asturiano, el luganda y el urdu, entre otros muchos. Su objetivo es dar a las personas la oportunidad de acceder a contenido web y poder compartirlo en su lengua materna, así como de comunicarse con cualquier otra persona en cualquier lugar, independientemente de sus preferencias idiomáticas.

Investigación en IA para aplicaciones en el mundo real

Aplicación de las tecnologías de IA en Facebook e Instagram para traducir idiomas con pocos recursos

Estamos muy comprometidos con unir a la gente. Por ello, estamos usando técnicas de modelos y aprendizajes extraídos de nuestra investigación NLLB para mejorar las traducciones de los idiomas con menos recursos en Facebook e Instagram. Mediante su aplicación a nuestros sistemas de producción de traducciones, las personas podrán conectar de forma más auténtica y significativa en sus lenguas maternas o preferidas. En un futuro, esperamos poder aplicar nuestros conocimientos extraídos de las tecnologías NLLB a más aplicaciones de Meta.

APLICACIONES DEL MUNDO REAL

Creamos un metaverso inclusivo

Un metaverso traducido: acercamos a las personas a nivel global

A medida que creamos contenido para el metaverso, damos prioridad a la integración de traducciones de textos de realidad aumentada y virtual en tiempo real en cientos de idiomas. Nuestro objetivo es definir un nuevo estándar de inclusión en el que, algún día, todo el mundo pueda tener acceso a experiencias, dispositivos y contenido del mundo virtual, con la capacidad de comunicarse con cualquier persona y en cualquier idioma en el metaverso. Con el tiempo, acercaremos a las personas a nivel global.

APLICACIONES DEL MUNDO REAL

Traducimos Wikipedia para todo el mundo

Ayudamos a los editores voluntarios a hacer que la información esté disponible en más idiomas

La tecnología que se esconde tras el modelo NLLB-200, disponible ahora mediante la herramienta de traducción de contenido de Wikimedia Foundation, ayuda a los editores de Wikipedia a traducir la información en sus lenguas maternas y preferidas. Los editores de Wikipedia usan la tecnología para traducir y editar los artículos de manera más eficiente y redactarlos en otros idiomas con poca representación, como el luganda y el islandés. Esto hace que el conocimiento esté disponible en más idiomas para los lectores de Wikipedia de todo el mundo. El modelo de código abierto NLLB-200 también ayudará a que los investigadores y las comunidades de editores de Wikipedia interesadas contribuyan a nuestra labor.

Vive la tecnología

Historias contadas a través de la traducción:

libros de todo el mundo traducidos a cientos de idiomas

Historias contadas a través de la traducción:

libros de todo el mundo traducidos a cientos de idiomas

Experimenta el poder de la traducción mediante IA con Historias contadas a través de la traducción, nuestra demostración que usa los últimos avances en IA del proyecto No Language Left Behind (Ningún idioma se queda atrás). Esta demostración traduce libros desde sus idiomas de origen, como el indonesio, el somalí y el birmano, a otros idiomas para llegar a más lectores, con cientos de títulos disponibles en los próximos meses. Gracias a esta iniciativa, el NLLB-200 será el primer modelo de IA que pueda traducir literatura a esta escala.

La tecnología

La traducción automática al detalle

¿Cómo puede el modelo de código abierto NLLB traducir 200 idiomas directamente?

FASE 1

Creación automática del conjunto de datos

Fase 1: creación automática del conjunto de datos

Se recopilan los datos de entrenamiento, que constan de oraciones en el idioma de origen y en el idioma de destino deseado.

Se ha producido un error
Tenemos problemas para reproducir este vídeo.

FASE 2

Aprendizaje

Fase 2: aprendizaje

Tras conseguir los datos de entrenamiento alineados en miles de direcciones distintas, estos se introducen en el flujo de aprendizaje del modelo. Estos modelos están compuestos por dos partes: el codificador, que convierte la oración de origen en una representación vectorial interna, y el decodificador, que toma esta representación y genera con exactitud la oración de destino. Gracias al entrenamiento con millones de traducciones de ejemplo, los modelos aprenden a generar traducciones más precisas.

Se ha producido un error
Tenemos problemas para reproducir este vídeo.

FASE 3

Evaluación

Fase 3: evaluación

Por último, evaluamos el modelo comparándolo con un conjunto de traducciones realizadas por traductores humanos, con el fin de comprobar que presentan una calidad satisfactoria. Esta evaluación incluye detectar y filtrar el lenguaje soez y otros contenidos de carácter ofensivo mediante el uso de listas de toxicidad creadas para todos los idiomas admitidos. El resultado es un modelo bien entrenado que puede traducir el contenido directamente a un idioma.

Se ha producido un error
Tenemos problemas para reproducir este vídeo.

FASE 1

Creación automática del conjunto de datos

FASE 2

Aprendizaje

FASE 3

Evaluación

Fase 1: creación automática del conjunto de datos

Se recopilan los datos de entrenamiento, que constan de oraciones en el idioma de origen y en el idioma de destino deseado.

Se ha producido un error
Tenemos problemas para reproducir este vídeo.

Fase 2: aprendizaje

Tras conseguir los datos de entrenamiento alineados en miles de direcciones distintas, estos se introducen en el flujo de aprendizaje del modelo. Estos modelos están compuestos por dos partes: el codificador, que convierte la oración de origen en una representación vectorial interna, y el decodificador, que toma esta representación y genera con exactitud la oración de destino. Gracias al entrenamiento con millones de traducciones de ejemplo, los modelos aprenden a generar traducciones más precisas.

Se ha producido un error
Tenemos problemas para reproducir este vídeo.

Fase 3: evaluación

Por último, evaluamos el modelo comparándolo con un conjunto de traducciones realizadas por traductores humanos, con el fin de comprobar que presentan una calidad satisfactoria. Esta evaluación incluye detectar y filtrar el lenguaje soez y otros contenidos de carácter ofensivo mediante el uso de listas de toxicidad creadas para todos los idiomas admitidos. El resultado es un modelo bien entrenado que puede traducir el contenido directamente a un idioma.

Se ha producido un error
Tenemos problemas para reproducir este vídeo.

Las innovaciones

La ciencia tras la innovación

La mayoría de los modelos de traducción automática actuales funcionan para idiomas con recursos medios y altos, y dejan atrás a aquellos con menos recursos. Los investigadores de inteligencia artificial de Meta están haciendo frente a este problema con tres innovaciones significativas de inteligencia artificial.

Creación de conjuntos de datos automáticos para los idiomas con pocos recursos

El contexto

La traducción automática es una tarea de aprendizaje supervisada, lo que significa que el modelo necesita datos de los que aprender. Con frecuencia se usan traducciones de ejemplo obtenidas de colecciones de datos de código abierto. Nuestra solución es emparejar oraciones de diferentes colecciones de documentos monolingües para crear pares de traducciones automáticamente.

El reto

Los modelos LASER que se han usado para este proceso de creación de conjuntos de datos admiten principalmente idiomas con recursos medios y altos, lo que hace imposible que se produzcan pares de traducción precisos para los idiomas con pocos recursos.

La innovación

Lo hemos solucionado invirtiendo en un procedimiento de aprendizaje profesor-alumno, lo que hace posible que (1) ampliemos la cobertura de idiomas de LASER a 200 idiomas, y (2) produzcamos una cantidad masiva de datos, incluso para los idiomas con pocos recursos.

Modelos de 200 idiomas

El contexto

Los sistemas multilingües de traducción automática se han mejorado con respecto a los sistemas bilingües. Esto se debe a su capacidad para permitir la “transferencia” de pares de idiomas con una gran cantidad de datos de aprendizaje a otros idiomas con menos recursos de aprendizaje.

El reto

Entrenar conjuntamente cientos de pares de idiomas tiene sus desventajas, ya que el mismo modelo debe representar cada vez más idiomas con el mismo número de parámetros. Esto es un problema cuando los tamaños de los conjuntos de datos no están equilibrados, ya que se puede producir un sobreajuste.

La innovación

Hemos desarrollado un modelo de mezcla de expertos disperso que cuenta con una capacidad compartida y especializada, para que los idiomas con pocos recursos que no tienen muchos datos se dirijan automáticamente a la capacidad compartida. Cuando se combinan con mejores sistemas de regularización, se evita el sobreajuste. Además, hemos usado el aprendizaje autosupervisado y la mejora de datos a gran escala a través de diferentes tipos de traducción inversa.

Evaluamos la calidad de las traducciones

El contexto

Para saber si una traducción producida por nuestro modelo cumple nuestros estándares de calidad, debemos evaluarla.

El reto

Normalmente, los modelos de traducción automática se evalúan comparando oraciones traducidas por la máquina con traducciones realizadas por humanos. No obstante, para muchos idiomas no hay datos de traducción fiables, por lo que resulta imposible evaluar de forma precisa.

La innovación

Hemos doblado la cobertura de FLORES, un punto de referencia para la evaluación con traducción humana, que ahora funciona con 200 idiomas. A través de métricas automáticas y la ayuda de la evaluación humana, podemos cuantificar la calidad de nuestras traducciones de forma intensiva.
Lee nuestro informe y nuestro blogpara obtener más información sobre la ciencia que se esconde tras el NLLB, y descarga el modelo para ayudarnos a impulsar este proyecto.

Lee nuestro informe y nuestro blog para obtener más información sobre la ciencia que se esconde tras el NLLB, y descarga el modelo para ayudarnos a impulsar este proyecto.

El recorrido

Hitos de la investigación
Hitos de la investigación

La inteligencia artificial de Meta ha impulsado la tecnología de la traducción automática, además de superar con éxito los numerosos desafíos del sector durante el proceso, como la falta de disponibilidad de datos en el caso de los idiomas con pocos recursos o la calidad y la precisión de las traducciones. Nuestro recorrido continúa a medida que aumentamos la inclusión gracias a la eficacia de la traducción mediante inteligencia artificial.

La inteligencia artificial de Meta ha impulsado la tecnología de la traducción automática, además de superar con éxito los numerosos desafíos del sector durante el proceso, como la falta de disponibilidad de datos en el caso de los idiomas con pocos recursos o la calidad y la precisión de las traducciones. Nuestro recorrido continúa a medida que aumentamos la inclusión gracias a la eficacia de la traducción mediante inteligencia artificial.

Consulta los hitos del modelo en función del número de idiomas publicados

<50 idiomas

50-99 idiomas

100 idiomas

200 idiomas

LASER (Representaciones de oraciones agnósticas del lenguaje)

2018

La primera exploración de éxito de representaciones masivas de oraciones multilingües que se ha compartido públicamente con la comunidad del procesamiento del lenguaje natural. El codificador crea inserciones para emparejar automáticamente las oraciones que compartan el mismo significado en 50 idiomas.

Codificadores de datos

WMT-19

2019

Los modelos de inteligencia artificial de Facebook superaron a todos los demás modelos en el WMT 2019 gracias al uso de la traducción inversa de muestra a gran escala, así como técnicas de limpieza de datos y modelos de canal ruidoso con el fin de crear un sistema potente.

Modelo

Flores V1

2019

Un conjunto de datos comparativo para la traducción automática entre el inglés e idiomas con pocos recursos, que introduce un proceso de evaluación estricto y justo, empezando con dos idiomas.

Conjunto de datos de evaluación

WikiMatrix

2019

La extracción más grande de oraciones paralelas en diferentes idiomas: extracción de un corpus paralelo de 135 millones de oraciones de Wikipedia en 1620 pares de idiomas para crear mejores modelos de traducción.

Creación de datos

M2M-100

2020

El primer y único modelo de traducción automática multilingüe en traducir directamente entre cualquier par de 100 idiomas sin depender de los datos del inglés. Formado en 2200 direcciones de idiomas, es decir, diez veces más que modelos multilingües anteriores.

Modelo

CCMatrix

2020

El conjunto de datos de corpus paralelos de alta calidad extraídos de sitios web más grande para crear mejores modelos de traducción. Trabaja con más idiomas, sobre todo con aquellos con pocos recursos: 4500 millones de oraciones paralelas en 576 pares de idiomas.

Creación de datos

LASER 2

2020

Crea inserciones para emparejar automáticamente las oraciones que compartan el mismo significado en 100 idiomas.

Codificadores de datos

WMT-21

2021

Por primera vez, un único modelo multilingüe ha superado a los modelos bilingües mejor entrenados en 10 de 14 pares de idiomas y ha ganado el WMT 2021, al proporcionar las mejores traducciones de idiomas con pocos y muchos recursos.

Modelo

FLORES-101

2021

FLORES-101 es el primer conjunto de datos de evaluación de varios a varios en cubrir 101 idiomas, lo que permite a los investigadores probar y mejorar rápidamente los modelos de traducción bilingües como el M2M-100.

Conjunto de datos de evaluación

NLLB-200

2022

El modelo NLLB traduce 200 idiomas.

Modelo

FLORES 200

2021

La expansión del conjunto de datos de evaluación FLORES cubre ahora 200 idiomas.

Conjunto de datos de evaluación

NLLB-Data-200

2022

Datos de aprendizaje creados y publicados para 200 idiomas.

Conjunto de datos de evaluación

LASER 3

2022

Crea inserciones para emparejar automáticamente las oraciones que compartan el mismo significado en 200 idiomas.

Codificadores de datos

<50 idiomas

50-100 idiomas

100 idiomas

200 idiomas

LASER (Representaciones de oraciones agnósticas del lenguaje)

2018

La primera exploración de éxito de representaciones masivas de oraciones multilingües que se ha compartido públicamente con la comunidad del procesamiento del lenguaje natural. El codificador crea inserciones para emparejar automáticamente las oraciones que compartan el mismo significado en 50 idiomas.

Codificadores de datos

WMT-19

2019

Los modelos de inteligencia artificial de Facebook superaron a todos los demás modelos en el WMT 019 gracias al uso de la traducción inversa de muestra a gran escala, así como técnicas de limpieza de datos y modelos de canal ruidoso con el fin de crear un sistema potente.

Modelo

Flores V1

2019

Un conjunto de datos comparativo para la traducción automática entre el inglés e idiomas con pocos recursos, que introduce un proceso de evaluación estricto y justo, empezando con dos idiomas.

Conjunto de datos de evaluación

WikiMatrix

2019

La extracción más grande de oraciones paralelas en diferentes idiomas: extracción de un corpus paralelo de 135 millones de oraciones de Wikipedia en 1620 pares de idiomas para crear mejores modelos de traducción.

Creación de datos

M2M-100

2020

El primer y único modelo de traducción automática multilingüe en traducir directamente entre cualquier par de 100 idiomas sin depender de los datos del inglés. Formado en 2200 direcciones de idiomas, es decir, diez veces más que modelos multilingües anteriores.

Modelo

CCMatrix

2020

El conjunto de datos de corpus paralelos de alta calidad extraídos de sitios web más grande para crear mejores modelos de traducción. Trabaja con más idiomas, sobre todo con aquellos con pocos recursos: 4500 millones de oraciones paralelas en 576 pares de idiomas.

Creación de datos

LASER 2

2020

Crea inserciones para emparejar automáticamente las oraciones que compartan el mismo significado en 100 idiomas.

Codificadores de datos

WMT-21

2021

Por primera vez, un único modelo multilingüe ha superado a los modelos bilingües mejor entrenados en 10 de 14 pares de idiomas y ha ganado el WMT 2021, al proporcionar las mejores traducciones de idiomas con pocos y muchos recursos.

Modelo

FLORES-101

2021

FLORES-101 es el primer conjunto de datos de evaluación de varios a varios en cubrir 101 idiomas, lo que permite a los investigadores probar y mejorar rápidamente los modelos de traducción bilingües como el M2M-100.

Conjunto de datos de evaluación

NLLB-200

2022

El modelo NLLB traduce 200 idiomas.

Modelo

FLORES 200

2021

La expansión del conjunto de datos de evaluación FLORES cubre ahora 200 idiomas.

Conjunto de datos de evaluación

NLLB-Data-200

2022

Datos de aprendizaje creados y publicados para 200 idiomas.

Conjunto de datos de evaluación

LASER 3

2022

Crea inserciones para emparejar automáticamente las oraciones que compartan el mismo significado en 200 idiomas.

Codificadores de datos

From Assamese, Balinese and Estonian…to Icelandic, Igbo and more. 200 languages and counting…

Have a look at the full list of languages our NLLB-200 model supports—with 150 low-resource languages included. More will be added to this list as we, and our community, continue on this journey of inclusiveness through AI translation.

Full list of supported languages

Acehnese (Latin script)

Arabic (Iraqi/Mesopotamian)

Arabic (Yemen)

Arabic (Tunisia)

Afrikaans

Arabic (Jordan)

Akan

Amharic

Arabic (Lebanon)

Arabic (MSA)

Arabic (Modern Standard Arabic)

Arabic (Saudi Arabia)

Arabic (Morocco)

Arabic (Egypt)

Assamese

Asturian

Awadhi

Aymara

Crimean Tatar

Welsh

Danish

German

French

Friulian

Fulfulde

Dinka(Rek)

Dyula

Dzongkha

Greek

English

Esperanto

Estonian

Basque

Ewe

Faroese

Iranian Persian

Icelandic

Italian

Javanese

Japanese

Kabyle

Kachin | Jinghpo

Kamba

Kannada

Kashmiri (Arabic script)

Kashmiri (Devanagari script)

Georgian

Kanuri (Arabic script)

Kanuri (Latin script)

Kazakh

Kabiye

Thai

Khmer

Kikuyu

South Azerbaijani

North Azerbaijani

Bashkir

Bambara

Balinese

Belarusian

Bemba

Bengali

Bhojpuri

Banjar (Latin script)

Tibetan

Bosnian

Buginese

Bulgarian

Catalan

Cebuano

Czech

Chokwe

Central Kurdish

Fijian

Finnish

Fon

Scottish Gaelic

Irish

Galician

Guarani

Gujarati

Haitian Creole

Hausa

Hebrew

Hindi

Chhattisgarhi

Croatian

Hugarian

Armenian

Igobo

IIocano

Indonesian

Kinyarwanda

Kyrgyz

Kimbundu

Konga

Korean

Kurdish (Kurmanji)

Lao

Latvian (Standard)

Ligurian

Limburgish

Lingala

Lithuanian

Lombard

Latgalian

Luxembourgish

Luba-Kasai

Ganda

Dholuo

Mizo

Full list of supported languages

Acehnese (Latin script)

Arabic (Iraqi/Mesopotamian)

Arabic (Yemen)

Arabic (Tunisia)

Afrikaans

Arabic (Jordan)

Akan

Amharic

Arabic (Lebanon)

Arabic (MSA)

Arabic (Modern Standard Arabic)

Arabic (Saudi Arabia)

Arabic (Morocco)

Arabic (Egypt)

Assamese

Asturian

Awadhi

Aymara

Crimean Tatar

Welsh

Danish

German

French

Friulian

Fulfulde

Dinka(Rek)

Dyula

Dzongkha

Greek

English

Esperanto

Estonian

Basque

Ewe

Faroese

Iranian Persian

Icelandic

Italian

Javanese

Japanese

Kabyle

Kachin | Jinghpo

Kamba

Kannada

Kashmiri (Arabic script)

Kashmiri (Devanagari script)

Georgian

Kanuri (Arabic script)

Kanuri (Latin script)

Kazakh

Kabiye

Thai

Khmer

Kikuyu

South Azerbaijani

North Azerbaijani

Bashkir

Bambara

Balinese

Belarusian

Bemba

Bengali

Bhojpuri

Banjar (Latin script)

Tibetan

Bosnian

Buginese

Bulgarian

Catalan

Cebuano

Czech

Chokwe

Central Kurdish

Fijian

Finnish

Fon

Scottish Gaelic

Irish

Galician

Guarani

Gujarati

Haitian Creole

Hausa

Hebrew

Hindi

Chhattisgarhi

Croatian

Hugarian

Armenian

Igobo

IIocano

Indonesian

Kinyarwanda

Kyrgyz

Kimbundu

Konga

Korean

Kurdish (Kurmanji)

Lao

Latvian (Standard)

Ligurian

Limburgish

Lingala

Lithuanian

Lombard

Latgalian

Luxembourgish

Luba-Kasai

Ganda

Dholuo

Mizo

200 idiomas traducidos por el modelo NLLB-200, el doble que nuestro modelo anterior

Nuestro modelo final tiene una mejora del rendimiento BLEU de más del 44 % con respecto al anterior modelo más novedoso

75 idiomas que nuestros sistemas de traducción comerciales no admitían anteriormente

1800 millones de oraciones paralelas, más del doble de datos de aprendizaje que nuestro anterior modelo M2M-100

54B, el modelo de traducción automática de código abierto más grande, con parámetros cinco veces superiores a los del anterior modelo M2M-100

40 000 direcciones de traducciones admitidas por un único modelo, una capacidad cuatro veces superior a la del anterior punto de referencia

Los avances en investigación de NLLB proporcionan más de 25 000 millones de traducciones al día en la sección de noticias de Facebook, Instagram y nuestras otras plataformas.

200 idiomas traducidos por el modelo NLLB-200, el doble que nuestro modelo anterior

Nuestro modelo final tiene una mejora del rendimiento BLEU de más del 44 % con respecto al anterior modelo más novedoso

75 idiomas que nuestros sistemas de traducción comerciales no admitían anteriormente

1800 millones de oraciones paralelas, más del doble de datos de aprendizaje que nuestro anterior modelo M2M-100

54B, el modelo de traducción automática de código abierto más grande, con parámetros cinco veces superiores a los del anterior modelo M2M-100

40 000 direcciones de traducciones admitidas por un único modelo, una capacidad cuatro veces superior a la del anterior punto de referencia

Los avances en investigación de NLLB proporcionan más de 25 000 millones de traducciones al día en la sección de noticias de Facebook, Instagram y nuestras otras plataformas.

Más información

Trabajemos juntos para que No Language Left Behind siga creciendo

Queda mucho por aprender sobre NLLB, y aún más por conseguir. Lee nuestro informe y blog para consultar más detalles, y descarga el modelo para ayudarnos a impulsar este proyecto. Ya hemos alcanzado 200 idiomas, pero esto es solo el principio. Únete y avanza con nosotros en este importante viaje de la traducción y la inclusión.