No Language Left Behind (« Ne laisser aucune langue de côté ») est un projet d’IA pionnier qui met en libre accès des modèles capables de fournir des traductions évaluées et de haute qualité directement entre 200 langues, y compris des langues à faibles ressources comme l’asturien, le luganda, l’ourdou, etc. Ce projet poursuit l’objectif suivant : permettre à toute personne d’accéder à du contenu web dans sa langue maternelle et de le partager, et de communiquer avec n’importe qui, n’importe où, peu importe les préférences linguistiques de chacun.
No Language Left Behind (« Ne laisser aucune langue de côté ») est un projet d’IA pionnier qui met en libre accès des modèles capables de fournir des traductions évaluées et de haute qualité directement entre 200 langues, y compris des langues à faibles ressources comme l’asturien, le luganda, l’ourdou, etc. Ce projet poursuit l’objectif suivant : permettre à toute personne d’accéder à du contenu web dans sa langue maternelle et de le partager, et de communiquer avec n’importe qui, n’importe où, peu importe les préférences linguistiques de chacun.
Nous nous engageons à rassembler tout le monde. C’est pourquoi nous utilisons des apprentissages et techniques de modélisation issus de nos recherches NLLB afin d’améliorer les traductions des langues à faibles ressources sur Facebook et Instagram. Ces techniques et apprentissages, appliqués à nos systèmes de traduction, permettent aux internautes de communiquer de façon plus authentique et plus intéressante, dans la langue de leur choix. À l’avenir, nous espérons étendre les apprentissages issus de NLLB à plus d’applications Meta.
Dans le cadre de la construction du métavers, la traduction de centaines de langues en temps réel, en AR/VR, est notre priorité. Notre objectif est de définir de nouveaux critères d’inclusion, pour qu’un jour, chacun ait accès au contenu, aux appareils et aux expériences du monde virtuel, tout en ayant la possibilité de communiquer avec n’importe qui, dans n’importe quelle langue au sein du métavers. Cet objectif sert notre vision à long terme, celle de rassembler tout le monde, partout.
La technologie sur laquelle repose le modèle NLLB-200, désormais disponible via l’outil de traduction du contenu de la fondation Wikimédia, aide les contributeurs Wikipédia à traduire les informations dans la langue de leur choix. Les contributeurs Wikipédia utilisent cette technologie pour traduire et modifier plus efficacement des articles rédigés à l’origine dans une langue peu répandue, comme le luganda ou l’islandais. Ils participent ainsi à la diffusion du contenu dans un plus grand nombre de langues, auprès des lecteurs Wikipédia du monde entier. Le modèle open-source NLLB-200 aidera également les communautés de chercheurs, ainsi que les communautés Wikipédia intéressées, à s’appuyer sur nos travaux.
Découvrez toute la puissance de la traduction par l’IA grâce à Raconter des histoires par la traduction, notre démo qui utilise les derniers progrès en matière d’IA du projet No Language Left Behind (ne laisser aucune langue de côté). Cette démo traduit des livres de leur langue d’origine comme l’indonésien, le somali et le birman dans d’autres langues pour les lecteurs. Des centaines de langues seront disponibles dans les mois à venir. Grâce à cette initiative, le NLLB-200 deviendra le tout premier modèle d’IA à traduire des livres à cette échelle.
Les données d’apprentissage contenant des phrases dans la langue source et la langue cible sont collectées.
Après avoir créé des données d’apprentissage alignées pour des milliers d’usages différents, ces données viennent alimenter notre pipeline d’apprentissage des modèles. Ces modèles se composent de deux éléments : l’encodeur, qui convertit la phrase source en représentation vectorielle interne, et le décodeur, qui utilise cette représentation pour générer la phrase cible. Avec l’entraînement de millions d’exemples de traduction, les modèles apprennent à générer des traductions plus précises.
Enfin, nous comparons notre modèle à un ensemble de traductions humaines pour confirmer la qualité de la traduction. Cette étape inclut la détection et le filtrage des injures et autres contenus offensants à l’aide de listes de blocage conçues pour toutes les langues prises en charge. Résultat : un modèle parfaitement entraîné capable de traduire directement.
Les données d’apprentissage contenant des phrases dans la langue source et la langue cible sont collectées.
Après avoir créé des données d’apprentissage alignées pour des milliers d’usages différents, ces données viennent alimenter notre pipeline d’apprentissage des modèles. Ces modèles se composent de deux éléments : l’encodeur, qui convertit la phrase source en représentation vectorielle interne, et le décodeur, qui utilise cette représentation pour générer la phrase cible. Avec l’entraînement de millions d’exemples de traduction, les modèles apprennent à générer des traductions plus précises.
Enfin, nous comparons notre modèle à un ensemble de traductions humaines pour confirmer la qualité de la traduction. Cette étape inclut la détection et le filtrage des injures et autres contenus offensants à l’aide de listes de blocage conçues pour toutes les langues prises en charge. Résultat : un modèle parfaitement entraîné capable de traduire directement.
La traduction automatique est une tâche d’apprentissage supervisée, ce qui signifie que le modèle est entraîné à partir de données. Des exemples de traduction provenant de collections de données en libre accès sont souvent utilisés. Nous proposons de créer automatiquement des paires de traductions en alignant des phrases dans différents ensembles de documents monolingues.
Les modèles LASER, qui servent au processus de création d’ensembles de données, sont principalement adaptés aux langues à ressources moyennes et élevées, ce qui rend impossible la génération de paires de traductions précises pour les langues à faibles ressources.
Les systèmes de traduction automatique multilingues ont été améliorés par rapport aux systèmes bilingues. En effet, ils permettent de « transférer » des données issues de paires de langues pour lesquelles les ressources d’entraînement sont nombreuses vers des langues avec peu de ressources.
L’entraînement conjoint de centaines de paires de langues comporte des inconvénients, puisque le même modèle doit représenter un nombre croissant de langues avec le même nombre de paramètres. Cela peut être problématique lorsque les tailles des ensembles de données ne sont pas équivalentes, car cela peut entraîner un surajustement.
Nous évaluons les traductions de nos modèles afin de vérifier qu’elles respectent nos standards de qualité.
Les modèles de traduction automatique sont généralement évalués en comparant les phrases générées par la traduction automatique avec les biotraductions. Toutefois, pour de nombreuses langues, aucune donnée de traduction fiable n’est disponible. Par conséquent, il n’est pas possible d’effectuer des évaluations précises.
Découvrez-en plus sur les avancées scientifiques sous-tendant NLLB en lisant notre livre blanc et notre blog, et en téléchargeant le modèle pour nous aider à faire avancer ce projet.
Voir les moments-clés du modèle selon le nombre de langues publiées
La première expérience réussie de représentations de phrases multilingues partagée publiquement avec la communauté TALN. L’encodeur crée des plongements pour aligner automatiquement des phrases partageant le même sens en 50 langues.
Les modèles d’IA Facebook ont surpassé tous les autres modèles lors de la conférence WMT 2019, en utilisant la rétrotraduction échantillonnée à grande échelle, la modélisation des canaux bruités et des techniques de nettoyage des données pour aider à créer un système fiable.
Ensemble de données de référence pour la traduction automatique entre l’anglais et des langues à faibles ressources introduisant un processus d’évaluation équitable et rigoureux, en commençant par deux langues.
La plus grande extraction de phrases parallèles dans plusieurs langues : extraction bitexte de 135 millions de phrases de Wikipédia dans 1 620 paires de langues pour développer de meilleurs modèles de traduction.
Le premier modèle unique de traduction automatique multilingue permettant de traduire directement n’importe quelle paire de langues parmi 100 langues sans se baser sur des données en anglais. Ce modèle est entraîné dans 2 200 sens de traduction, soit dix fois plus que les modèles multilingues précédents.
Le plus grand ensemble de données basé sur le web de bitextes de qualité pour construire de meilleurs modèles de traduction qui fonctionnent avec davantage de langues, en particulier les langues à faibles ressources : 4,5 milliards de phrases parallèles dans 576 paires de langues.
LASER 2 crée des plongements pour aligner automatiquement des phrases partageant le même sens en 100 langues.
Pour la première fois, un modèle multilingue unique a surpassé les meilleurs modèles bilingues spécialement entraînés dans 10 des 14 paires de langues pour remporter la conférence WMT 2021. Ce modèle a produit les meilleures traductions pour les langues à ressources faibles et élevées.
L’ensemble de données d’évaluation n à n FLORES-101, pionnier du genre, couvre 101 langues, et permet aux chercheurs de tester et d’améliorer rapidement les modèles de traduction multilingue comme M2M-100.
Le modèle NLLB traduit du contenu en 200 langues.
Extension de l’ensemble de données d’évaluation FLORES qui couvre désormais 200 langues
Construction et publication de données d’entraînement pour 200 langues
LASER 3 crée des plongements pour aligner automatiquement des phrases partageant le même sens en 200 langues.
< 50 langues
50 à 100 langues
100 langues
200 langues
Première expérience réussie de représentations de phrases multilingues partagée publiquement avec la communauté TALN. L’encodeur crée des plongements pour aligner automatiquement des phrases partageant le même sens en 50 langues.
Les modèles d’IA Facebook ont surpassé tous les autres modèles lors de la conférence WMT 2019, en utilisant la retraduction échantillonnée à grande échelle, la modélisation des canaux bruités et des techniques de nettoyage des données pour aider à créer un système fiable.
Ensemble de données de référence pour la traduction automatique entre l’anglais et des langues à faibles ressources, introduisant un processus d’évaluation équitable et rigoureux, en commençant par deux langues.
La plus grande extraction de phrases parallèles dans plusieurs langues : extraction bitextuelle de 135 millions de phrases de Wikipédia dans 1 620 paires de langues pour développer de meilleurs modèles de traduction.
Premier modèle unique de traduction automatique multilingue permettant de traduire directement n’importe quelle paire de langues parmi 100 langues sans se baser sur des données en anglais. Ce modèle est entraîné dans 2 200 sens de traduction, soit dix fois plus que les modèles multilingues précédents.
Le plus grand ensemble de données basé sur le web de bitextes de qualité pour construire de meilleurs modèles de traduction qui fonctionnent avec davantage de langues, en particulier les langues à faibles ressources : 4,5 milliards de phrases parallèles dans 576 paires de langues.
LASER 2 crée des plongements pour aligner automatiquement des phrases ayant la même signification en 100 langues.
Pour la première fois, un modèle multilingue unique a surpassé les meilleurs modèles bilingues spécialement entraînés dans 10 des 14 paires de langues pour remporter la conférence WMT 2021. Ce modèle a produit les meilleures traductions pour les langues à ressources faibles et élevées.
L’ensemble de données d’évaluation plusieurs-à-plusieurs FLORES-101, pionnier du genre, couvre 101 langues, et permet aux chercheurs de tester et d’améliorer rapidement les modèles de traduction multilingue comme M2M-100.
Le modèle NLLB traduit du contenu en 200 langues.
Extension de l’ensemble de données d’évaluation FLORES qui couvre désormais 200 langues.
Construction et publication de données d’entraînement pour 200 langues.
LASER 3 crée des plongements pour aligner automatiquement des phrases ayant la même signification en 200 langues.
Acehnese (Latin script)
Arabic (Iraqi/Mesopotamian)
Arabic (Yemen)
Arabic (Tunisia)
Afrikaans
Arabic (Jordan)
Akan
Amharic
Arabic (Lebanon)
Arabic (MSA)
Arabic (Modern Standard Arabic)
Arabic (Saudi Arabia)
Arabic (Morocco)
Arabic (Egypt)
Assamese
Asturian
Awadhi
Aymara
Crimean Tatar
Welsh
Danish
German
French
Friulian
Fulfulde
Dinka(Rek)
Dyula
Dzongkha
Greek
English
Esperanto
Estonian
Basque
Ewe
Faroese
Iranian Persian
Icelandic
Italian
Javanese
Japanese
Kabyle
Kachin | Jinghpo
Kamba
Kannada
Kashmiri (Arabic script)
Kashmiri (Devanagari script)
Georgian
Kanuri (Arabic script)
Kanuri (Latin script)
Kazakh
Kabiye
Thai
Khmer
Kikuyu
South Azerbaijani
North Azerbaijani
Bashkir
Bambara
Balinese
Belarusian
Bemba
Bengali
Bhojpuri
Banjar (Latin script)
Tibetan
Bosnian
Buginese
Bulgarian
Catalan
Cebuano
Czech
Chokwe
Central Kurdish
Fijian
Finnish
Fon
Scottish Gaelic
Irish
Galician
Guarani
Gujarati
Haitian Creole
Hausa
Hebrew
Hindi
Chhattisgarhi
Croatian
Hugarian
Armenian
Igobo
IIocano
Indonesian
Kinyarwanda
Kyrgyz
Kimbundu
Konga
Korean
Kurdish (Kurmanji)
Lao
Latvian (Standard)
Ligurian
Limburgish
Lingala
Lithuanian
Lombard
Latgalian
Luxembourgish
Luba-Kasai
Ganda
Dholuo
Mizo
Foundational models
Latest news
Foundational models