No Language Left Behind (NLLB, in etwa: keine Sprache bleibt zurück) ist ein völlig neues, bahnbrechendes KI-Projekt. Basierend auf Open-Source-Modellen werden geprüfte, qualitativ hochwertige direkte Übersetzungen für beliebige Sprachkombinationen aus 200 Sprachen erstellt, auch für ressourcenarme Sprachen wie beispielsweise Asturisch, Luganda oder Urdu. Das soll es Menschen ermöglichen, auf Webinhalte in ihrer Muttersprache zuzugreifen und sie zu teilen, sowie mit beliebigen Personen überall auf der Welt und egal in welcher Sprache zu kommunizieren.
No Language Left Behind (NLLB, in etwa: keine Sprache bleibt zurück) ist ein völlig neues, bahnbrechendes KI-Projekt. Basierend auf Open-Source-Modellen werden geprüfte, qualitativ hochwertige direkte Übersetzungen für beliebige Sprachkombinationen aus 200 Sprachen erstellt, auch für ressourcenarme Sprachen wie beispielsweise Asturisch, Luganda oder Urdu. Das soll es Menschen ermöglichen, auf Webinhalte in ihrer Muttersprache zuzugreifen und sie zu teilen, sowie mit beliebigen Personen überall auf der Welt und egal in welcher Sprache zu kommunizieren.
Unser Ziel ist es, Menschen zusammenzubringen. Aus diesem Grund verwenden wir Modellierungsansätze und Erkenntnisse aus unserer NLLB-Forschung, um Übersetzungen von ressourcenarmen Sprachen auf Facebook und Instagram zu verbessern. Wenn wir diese Ansätze und Erkenntnisse in unseren Produktionssystemen für die Übersetzung anwenden, werden Menschen natürlichere und tiefer gehende Kontakte in ihrer bevorzugten Sprache oder Muttersprache knüpfen können. Wir hoffen, dass unsere Erkenntnisse zu NLLB in Zukunft auch in weiteren Meta-Apps zum Einsatz kommen werden.
Beim Aufbau des Metaversums ist eine unserer Prioritäten, die Echtzeit-Übersetzung von AR-/VR-Texten in Hunderten von Sprachen zu integrieren. Es ist unser Ziel, neue Standards für die Inklusion zu setzen, damit eines Tages alle Menschen Zugang zu Inhalten, Geräten und Erlebnissen in der virtuellen Welt haben werden. Jede*r soll mit jedem*jeder in jeder Sprache im Metaversum kommunizieren können. Und im Laufe der Zeit werden die Menschen rund um den Globus so näher zusammenrücken.
Die Technologie, auf der das Modell für NLLB-200 basiert und die jetzt über das Content-Übersetzungstool der Wikimedia Foundation zur Verfügung steht, hilft Wikipedia-Redakteur*innen bei der Übersetzung von Informationen in ihre Muttersprache oder bevorzugte Sprache. Wikipedia-Redakteur*innen verwenden diese Technologie für die effizientere Übersetzung und Bearbeitung von Artikeln, die in anderen unterrepräsentierten Sprachen erstellt wurden, beispielsweise Luganda oder Isländisch. Damit steht Wikipedia-Nutzer*innen auf der ganzen Welt mehr Wissen in mehr Sprachen zur Verfügung. Mit dem Open-Source-Modell für NLLB-200 können auch Wissenschaftler*innen und interessierte Communitys von Wikipedia-Redakteur*innen unsere Arbeit für sich nutzen.
Mit „Übersetzung hilft Geschichten zu erzählen“ kannst du die enorme Leistung von KI-Übersetzungen selbst erleben: Unsere Demo nutzt die neuesten Errungenschaften der KI aus dem Projekt No Language Left Behind (NLLB). In der Demo werden Bücher, die in Sprachen wie z. B. Indonesisch, Somali und Birmanisch geschrieben wurden, in andere Sprachen übersetzt – und in den kommenden Monaten werden Hunderte von Sprachversionen zur Verfügung stehen. Dank dieser Initiative ist NLLB-200 das allererste KI-Modell, das Literaturübersetzungen in einem solchen Maßstab liefern kann.
Es werden Trainingsdaten gesammelt. Diese umfassen Sätze in der Ausgangssprache und der gewünschten Zielsprache.
Nachdem zweisprachige Trainingsdatenpaare für Tausende von Sprachrichtungen generiert wurden, werden sie in die Trainingspipeline für unser Modell eingegeben. Ein solches Modell besteht aus zwei Teilen: dem Encoder, der den Eingabesatz in eine interne Vektordarstellung konvertiert, und dem Decoder, der basierend auf dieser internen Vektordarstellung den exakten Ausgabesatz generiert. Durch das Training mit Millionen von Übersetzungsbeispielen lernen die Modelle, genauere Übersetzungen zu erstellen.
In der letzten Phase erfolgt die Evaluierung unseres Modells. Dazu wird es mit einer Reihe von Sätzen, die manuell übersetzt wurden, verglichen, um herauszufinden, ob wir mit der Übersetzungsqualität zufrieden sind. Hierzu gehört auch das Erkennen und Herausfiltern von vulgären Ausdrücken und anderen anstößigen Inhalten anhand von Negativlisten, die wir für alle unterstützten Sprachen erstellen. Im Ergebnis erhalten wir ein gut trainiertes Modell, das direkt von einer Sprache in eine andere übersetzen kann.
Es werden Trainingsdaten gesammelt. Diese umfassen Sätze in der Ausgangssprache und der gewünschten Zielsprache.
Nachdem zweisprachige Trainingsdatenpaare für Tausende von Sprachrichtungen generiert wurden, werden sie in die Trainingspipeline für unser Modell eingegeben. Ein solches Modell besteht aus zwei Teilen: dem Encoder, der den Eingabesatz in eine interne Vektordarstellung konvertiert, und dem Decoder, der basierend auf dieser internen Vektordarstellung den exakten Ausgabesatz generiert. Durch das Training mit Millionen von Übersetzungsbeispielen lernen die Modelle, genauere Übersetzungen zu erstellen.
In der letzten Phase erfolgt die Evaluierung unseres Modells. Dazu wird es mit einer Reihe von Sätzen, die manuell übersetzt wurden, verglichen, um herauszufinden, ob wir mit der Übersetzungsqualität zufrieden sind. Hierzu gehört auch das Erkennen und Herausfiltern von vulgären Ausdrücken und anderen anstößigen Inhalten anhand von Negativlisten, die wir für alle unterstützten Sprachen erstellen. Im Ergebnis erhalten wir ein gut trainiertes Modell, das direkt von einer Sprache in eine andere übersetzen kann.
MT ist eine Form von überwachtem Lernen. Das bedeutet, dass das Modell Daten als Lern-Input benötigt. Häufig werden hierfür Übersetzungsbeispiele aus Open-Source-Datensammlungen verwendet. Unsere Lösung besteht darin, automatisch Übersetzungspaare zu generieren, indem Sätze in unterschiedlichen Sammlungen einsprachiger Dokumente gekoppelt werden.
Die für die Erstellung dieser Datensätze genutzten LASER-Modelle unterstützen in erster Linie ressourcenreiche und weniger ressourcenreiche Sprachen. Es ist somit unmöglich, genaue Übersetzungspaare für ressourcenarme Sprachen zu generieren.
Mehrsprachige MT-Systeme sind gegenüber zweisprachigen Systemen verbessert worden. Das liegt daran, dass sie den „Transfer“ von Sprachpaaren mit vielen Trainingsdaten zu anderen Sprachen mit weniger Trainingsressourcen ermöglichen.
Das gleichzeitige Trainieren von Hunderten von Sprachpaaren hat durchaus Nachteile, denn dasselbe Modell muss immer mehr Sprachen mit derselben Anzahl von Parametern abbilden. Das wird dann zum Problem, wenn die Größe der Datensätze unausgewogen ist, und kann zur Überanpassung führen.
Um herauszufinden, ob eine mit unserem Modell generierte Übersetzung unseren Qualitätsstandards entspricht, ist eine Bewertung erforderlich.
Bei einer Bewertung von MT-Modellen werden gewöhnlich die maschinelle und menschliche Übersetzung eines Satzes verglichen. Allerdings gibt es für viele Sprachen keine zuverlässigen Übersetzungsdaten. Das macht eine exakte Bewertung unmöglich.
Weitere Details über die Wissenschaft hinter NLLB erfährst du in unserem Whitepaper und in unserem Blog. Du kannst auch das Modell herunterladen und uns dabei unterstützen, dieses Projekt voranzubringen.
Hier siehst du die Meilensteine des Modells nach Anzahl der veröffentlichten Sprachen
Die erste erfolgreiche Untersuchung von massiv mehrsprachigen Satzdarstellungen wird öffentlich mit der NLP-Community geteilt. Der Encoder codiert Einbettungen für das automatische Koppeln von Sätzen mit derselben Bedeutung in 50 Sprachen.
Bei der WMT 2019 übertreffen Facebooks KI-Modelle die Leistung aller anderer Modelle. Mit Rückübersetzungen im großen Maßstab, Noisy-Channel-Modellierung und Datenbereinigungstechnologie wurde ein leistungsfähiges System aufgebaut.
Mit diesem Benchmarking-Datensatz für MT zwischen Englisch und ressourcenarmen Sprachen wird ein faires, aber strenges Evaluierungsverfahren eingeführt, zunächst für zwei Sprachen.
Die umfassendste Extraktion von Sätzen mit derselben Bedeutung in mehreren Sprachen: Es werden 135 Mio. zweisprachige Wikipedia-Sätze in 1.620 Sprachpaaren extrahiert, mit dem Ziel, bessere Übersetzungsmodelle aufzubauen.
Das erste mehrsprachige Einzelmodell für maschinelle Übersetzung, das die direkte Übersetzung zwischen einem beliebigen Sprachpaar aus 100 Sprachen ermöglicht, ohne auf englische Daten zurückzugreifen. Trainiert mit 2.200 Sprachrichtungen – 10-mal mehr als bisherige mehrsprachige Modelle.
Der größte Datensatz von qualitativ hochwertigen webbasierten zweisprachigen Korpora für die Entwicklung verbesserter Übersetzungsmodelle, die mehr Sprachen unterstützen, insbesondere ressourcenarme Sprachen: 4,5 Mrd. Parallelkorpora in 576 Sprachpaaren.
Generiert Einbettungen für das automatische Koppeln von Sätzen mit derselben Bedeutung in 100 Sprachen.
Ein mehrsprachiges Einzelmodell übertrifft erstmals die besten entsprechend trainierten zweisprachigen Modelle in 10 von 14 Sprachpaaren und gewinnt damit die WMT 2021. Es liefert die besten Übersetzungen für sowohl ressourcenarme als auch ressourcenreiche Sprachen.
FLORES-101 ist der erste Many-to-many-Evaluierungsdatensatz seiner Art. Er umfasst 101 Sprachen und ermöglicht es Forschenden, mehrsprachige Übersetzungsmodelle wie M2M-100 schnell zu testen und zu verbessern.
Das NLLB-Modell kann 200 Sprachen übersetzen.
Der erweiterte FLORES-Evaluierungsdatensatz umfasst nun 200 Sprachen
Trainingsdaten für 200 Sprachen generiert und veröffentlicht
Erzeugt Einbettungen für das automatische Koppeln von Sätzen mit derselben Bedeutung in 200 Sprachen.
< 50 Sprachen
50–100 Sprachen
100 Sprachen
200 Sprachen
Die erste erfolgreiche Untersuchung von massiv mehrsprachigen Satzdarstellungen wird öffentlich mit der NLP-Community geteilt. Der Encoder codiert Einbettungen für das automatische Koppeln von Sätzen mit derselben Bedeutung in 50 Sprachen.
Bei der WMT 2019 übertreffen Facebooks KI-Modelle die Leistung aller anderer Modelle. Mit Rückübersetzungen im großen Maßstab, Noisy-Channel-Modellierung und Datenbereinigungstechnologie wurde ein leistungsfähiges System aufgebaut.
Mit diesem Benchmarking-Datensatz für MT zwischen Englisch und ressourcenarmen Sprachen wird ein faires, aber strenges Evaluierungsverfahren eingeführt, zunächst für zwei Sprachen.
Die umfassendste Extraktion von Sätzen mit derselben Bedeutung in mehreren Sprachen: Es werden 135 Mio. zweisprachige Wikipedia-Sätze in 1.620 Sprachpaaren extrahiert, mit dem Ziel, bessere Übersetzungsmodelle aufzubauen.
Das erste mehrsprachige Einzelmodell für maschinelle Übersetzung, das die direkte Übersetzung zwischen einem beliebigen Sprachpaar aus 100 Sprachen ermöglicht, ohne auf englische Daten zurückzugreifen. Trainiert mit 2.200 Sprachrichtungen – 10-mal mehr als bisherige mehrsprachige Modelle.
Der größte Datensatz von qualitativ hochwertigen webbasierten zweisprachigen Korpora für die Entwicklung verbesserter Übersetzungsmodelle, die mehr Sprachen unterstützen, insbesondere ressourcenarme Sprachen: 4,5 Mrd. Parallelkorpora in 576 Sprachpaaren.
Generiert Einbettungen für das automatische Koppeln von Sätzen mit derselben Bedeutung in 100 Sprachen.
Ein mehrsprachiges Einzelmodell übertrifft erstmals die besten entsprechend trainierten zweisprachigen Modelle in 10 von 14 Sprachpaaren und gewinnt damit die WMT 2021. Es liefert die besten Übersetzungen für sowohl ressourcenarme als auch ressourcenreiche Sprachen.
FLORES-101 ist der erste Many-to-many-Evaluierungsdatensatz seiner Art. Er umfasst 101 Sprachen und ermöglicht es Forschenden, mehrsprachige Übersetzungsmodelle wie M2M-100 schnell zu testen und zu verbessern.
Das NLLB-Modell kann 200 Sprachen übersetzen.
Der erweiterte FLORES-Evaluierungsdatensatz umfasst nun 200 Sprachen.
Es werden Trainingsdaten für 200 Sprachen generiert und veröffentlicht.
Generiert Einbettungen für das automatische Koppeln von Sätzen mit derselben Bedeutung in 200 Sprachen.
Acehnese (Latin script)
Arabic (Iraqi/Mesopotamian)
Arabic (Yemen)
Arabic (Tunisia)
Afrikaans
Arabic (Jordan)
Akan
Amharic
Arabic (Lebanon)
Arabic (MSA)
Arabic (Modern Standard Arabic)
Arabic (Saudi Arabia)
Arabic (Morocco)
Arabic (Egypt)
Assamese
Asturian
Awadhi
Aymara
Crimean Tatar
Welsh
Danish
German
French
Friulian
Fulfulde
Dinka(Rek)
Dyula
Dzongkha
Greek
English
Esperanto
Estonian
Basque
Ewe
Faroese
Iranian Persian
Icelandic
Italian
Javanese
Japanese
Kabyle
Kachin | Jinghpo
Kamba
Kannada
Kashmiri (Arabic script)
Kashmiri (Devanagari script)
Georgian
Kanuri (Arabic script)
Kanuri (Latin script)
Kazakh
Kabiye
Thai
Khmer
Kikuyu
South Azerbaijani
North Azerbaijani
Bashkir
Bambara
Balinese
Belarusian
Bemba
Bengali
Bhojpuri
Banjar (Latin script)
Tibetan
Bosnian
Buginese
Bulgarian
Catalan
Cebuano
Czech
Chokwe
Central Kurdish
Fijian
Finnish
Fon
Scottish Gaelic
Irish
Galician
Guarani
Gujarati
Haitian Creole
Hausa
Hebrew
Hindi
Chhattisgarhi
Croatian
Hugarian
Armenian
Igobo
IIocano
Indonesian
Kinyarwanda
Kyrgyz
Kimbundu
Konga
Korean
Kurdish (Kurmanji)
Lao
Latvian (Standard)
Ligurian
Limburgish
Lingala
Lithuanian
Lombard
Latgalian
Luxembourgish
Luba-Kasai
Ganda
Dholuo
Mizo
Foundational models
Latest news
Foundational models