No Language Left Behind (Nessuna lingua resti indietro) rappresenta un rivoluzionario progetto di IA, unico nel suo genere, che realizza modelli open source in grado di proporre traduzioni di qualità e sottoposte a valutazione fra 200 lingue, fra cui lingue a bassa disponibilità di risorse come asturiano, luganda, urdu e altre ancora. Il progetto mira a offrire al mondo la possibilità di accedere a contenuti web nella propria lingua madre, condividerli e comunicare con chiunque, ovunque, a prescindere dalle proprie preferenze linguistiche.
No Language Left Behind (Nessuna lingua resti indietro) rappresenta un rivoluzionario progetto di IA, unico nel suo genere, che realizza modelli open source in grado di proporre traduzioni di qualità e sottoposte a valutazione fra 200 lingue, fra cui lingue a bassa disponibilità di risorse come asturiano, luganda, urdu e altre ancora. Il progetto mira a offrire al mondo la possibilità di accedere a contenuti web nella propria lingua madre, condividerli e comunicare con chiunque, ovunque, a prescindere dalle proprie preferenze linguistiche.
Il nostro impegno è avvicinare le persone. Per questo motivo stiamo usando tecniche di modellazione e quanto abbiamo appreso nel corso della nostra ricerca No Language Left Behind (Nessuna lingua resti indietro - NLLB) per migliorare le traduzioni di lingue a bassa disponibilità di risorse su Facebook e Instagram. Grazie all'applicazione di questi insegnamenti e tecniche ai nostri sistemi di produzione delle traduzioni, le persone saranno in grado di creare connessioni più autentiche e significative nella propria lingua madre o di preferenza. In futuro puntiamo ad applicare quanto appreso nel progetto NLLB ad altre app di Meta.
Nella costruzione del metaverso, è prioritaria l'integrazione della capacità di traduzione testuale AR/VR verso centinaia di lingue in tempo reale. Il nostro obiettivo è stabilire un nuovo standard di inclusione che in futuro permetta a tutto il mondo di accedere a contenuti virtuali, dispositivi ed esperienze, potendo comunicare con chiunque in qualsiasi lingua all'interno del metaverso. In questo modo puntiamo ad avvicinare le persone a livello globale.
La tecnologia alla base del modello NLLB-200, da oggi disponibile tramite lo strumento Content Translation della Wikimedia Foundation, aiuta gli editor di Wikipedia nella traduzione di informazioni nelle loro lingue madri e di preferenza. Gli editor di Wikipedia stanno utilizzando questa tecnologia per tradurre e revisionare in modo più efficace articoli creati in altre lingue sottorappresentate, come luganda e islandese. In questo modo, i lettori di Wikipedia di tutto il mondo hanno a disposizione un volume sempre maggiore di informazioni e conoscenze. Il modello open source NLLB-200 aiuterà anche ricercatori ed editor di Wikipedia interessati a portare avanti il nostro lavoro.
Prova la potenza della traduzione basata sull'IA con Stories Told Through Translation (Storie tradotte e raccontate), la nostra demo che utilizza i più recenti sviluppi tecnologici dell'IA dal progetto No Language Left Behind (Nessuna lingua lasciata indietro). Questa demo traduce libri originariamente scritti in lingue come l'indonesiano, il somalo e il birmano per i lettori di altre lingue e nei prossimi mesi ne saranno disponibili a centinaia. Con questa iniziativa, NLLB-200 sarà il primo modello di traduzione basata sull'IA in grado di tradurre la letteratura su questa scala.
Raccogliamo dati di allenamento contenenti frasi nella lingua di input e in quella di output.
Una volta creati dati di allenamento allineati per migliaia di direzioni linguistiche di allenamento, questi sono inseriti nella pipeline di addestramento del nostro modello. Questi modelli sono formati da due parti: l'encoder, che converte la frase di input in una rappresentazione vettoriale interna e il decoder che, partendo dalla rappresentazione vettoriale interna, genera con precisione una frase di output. Allenandosi sulla base di milioni di esempi di traduzione, i modelli imparano a generare traduzioni sempre più accurate.
Da ultimo valutiamo il nostro modello confrontandolo con un set di traduzioni umane per verificare che la qualità della traduzione sia soddisfacente. In questa fase, inoltre, rileviamo e rimuoviamo volgarità e contenuti offensivi applicando elenchi di elementi tossici che realizziamo per tutte le lingue supportate. Il risultato è un modello ben addestrato in grado di tradurre direttamente una lingua.
Raccogliamo dati di allenamento contenenti frasi nella lingua di input e in quella di output.
Una volta creati dati di allenamento allineati per migliaia di direzioni linguistiche di allenamento, questi sono inseriti nella pipeline di addestramento del nostro modello. Questi modelli sono formati da due parti: l'encoder, che converte la frase di input in una rappresentazione vettoriale interna e il decoder che, partendo dalla rappresentazione vettoriale interna, genera con precisione una frase di output. Allenandosi sulla base di milioni di esempi di traduzione, i modelli imparano a generare traduzioni sempre più accurate.
Da ultimo valutiamo il nostro modello confrontandolo con un set di traduzioni umane per verificare che la qualità della traduzione sia soddisfacente. In questa fase, inoltre, rileviamo e rimuoviamo volgarità e contenuti offensivi applicando elenchi di elementi tossici che realizziamo per tutte le lingue supportate. Il risultato è un modello ben addestrato in grado di tradurre direttamente una lingua.
La traduzione automatica è un'attività di apprendimento supervisionato, il che significa che il modello ha bisogno di dati da cui apprendere. A questo scopo, spesso si usano esempi di traduzione tratti da raccolte di dati open source. La soluzione che abbiamo proposto consiste nel costruire automaticamente coppie traduttive abbinando frasi tratte da più raccolte di documenti monolingui.
I modelli LASER utilizzati nel processo di creazione di questo dataset supportano principalmente lingue con disponibilità di risorse medio-alta, rendendo impossibile la creazione di coppie traduttive accurate per le lingue a bassa disponibilità di risorse.
I sistemi di traduzione automatica multilingue sono stati migliorati basandosi sui sistemi bilingui: questi ultimi, infatti, consentono trasferimenti da coppie di lingue con abbondanza di dati di allenamento a lingue che invece dispongono di meno risorse di allenamento.
L'allenamento combinato di centinaia di coppie di lingue presenta alcuni svantaggi, in quanto uno stesso modello si trova a rappresentare numeri sempre crescenti di lingue con lo stesso numero di parametri. Questo rappresenta un problema nel momento in cui le dimensioni dei dataset sono sbilanciate, in quanto può provocare overfitting.
Per sapere se una traduzione prodotta dal nostro modello soddisfa i nostri standard di qualità, dobbiamo valutarla.
In genere, i modelli di traduzione automatica sono valutati confrontando frasi tradotte automaticamente e traduzioni umane. Tuttavia, per molte lingue non disponiamo di dati di traduzione affidabili, il che rende impossibile effettuare valutazioni accurate.
Scopri di più sulla scienza alla base di NLLB leggendo il nostro whitepaper e l'l'articolo del blog e scarica il modello per aiutarci a portare avanti il progetto.
Scopri i traguardi della nostra ricerca segnalati dal numero di lingue rese via via disponibili
La prima esplorazione di successo di rappresentazioni di frasi in moltissime lingue pubblicamente condivisa con la comunità di ricercatori dell'elaborazione del linguaggio naturale. L'encoder crea integrazioni per abbinare automaticamente frasi con lo stesso significato in 50 lingue.
I modelli di IA di Facebook hanno ottenuto risultati migliori di tutti gli altri modelli presentati all'evento WMT 2019, grazie a un processo di traduzione inversa su vasta scala e basata su esempi, tecniche di modellazione dei canali rumorosi e di pulizia dei dati per consolidare il sistema.
Un dataset di riferimento per la traduzione automatica tra l'inglese e le lingue a bassa disponibilità di risorse che introduce un processo di valutazione equo e rigoroso basato su coppie di lingue.
La più imponente estrazione di frasi parallele fra più lingue: estrazione in parallelo di 135 milioni di frasi di Wikipedia in 1620 coppie di lingue per la realizzazione di modelli di traduzione migliori.
Il primo modello singolo di traduzione multilingue in grado di tradurre qualsiasi coppia tra le 100 lingue comprese senza basarsi su dati in inglese. L'addestramento si è basato su 2200 direzioni linguistiche, una misura 10 volte superiore rispetto ai precedenti modelli multilingue.
Il più grande dataset di testi paralleli di qualità estratti dal web per la creazione di modelli di traduzione migliori e in grado di lavorare con più lingue, soprattutto a bassa disponibilità di risorse: 4,5 miliardi di frasi parallele in 576 coppie di lingue.
Crea integrazioni per abbinare automaticamente frasi con lo stesso significato in 100 lingue.
Per la prima volta, un unico modello multilingue ha superato i migliori modelli bilingui specificamente addestrati per 10 su 14 coppie di lingue, vincendo il WMT 2021 e offrendo le traduzioni migliori per le lingue a bassa e alta disponibilità di risorse.
FLORES-101 è il primo dataset di valutazione many-to-many del suo genere: copre 101 lingue e consente ai ricercatori di testare rapidamente e migliorare sulla base di modelli di traduzione multilingui come M2M-100.
Il modello NLLB traduce 200 lingue.
Espansione del dataset di valutazione FLORES, che oggi copre 200 lingue.
Costruzione e pubblicazione di dati di allenamento per 200 lingue.
Crea integrazioni per abbinare automaticamente frasi con lo stesso significato in 200 lingue.
< 50 lingue
50-100 lingue
100 lingue
200 lingue
La prima esplorazione di successo di rappresentazioni di frasi in moltissime lingue pubblicamente condivisa con la comunità di ricercatori dell'elaborazione del linguaggio naturale. L'encoder crea integrazioni per abbinare automaticamente frasi con lo stesso significato in 50 lingue.
I modelli di IA di Facebook hanno ottenuto risultati migliori di tutti gli altri modelli presentati all'evento WMT 2019, grazie a un processo di traduzione inversa su vasta scala e basata su esempi, tecniche di modellazione dei canali rumorosi e di pulizia dei dati per consolidare il sistema.
Un dataset di riferimento per la traduzione automatica fra l'inglese e lingue a bassa disponibilità di risorse che introduce un processo di valutazione equo e rigoroso basato su coppie di lingue.
La più imponente estrazione di frasi parallele fra più lingue: estrazione in parallelo di 135 milioni di frasi di Wikipedia in 1620 coppie di lingue per la realizzazione di modelli di traduzione migliori.
Il primo modello singolo di traduzione multilingue in grado di tradurre qualsiasi coppia fra le 100 lingue comprese senza basarsi su dati in inglese. L'addestramento si è basato su 2200 direzioni linguistiche, una misura 10 volte superiore rispetto ai precedenti modelli multilingue.
Il più grande dataset di testi paralleli di qualità estratti dal web per la creazione di modelli di traduzione migliori e in grado di lavorare con più lingue, soprattutto a bassa disponibilità di risorse: 4,5 miliardi di frasi parallele in 576 coppie di lingue.
Crea integrazioni per abbinare automaticamente frasi con lo stesso significato in 100 lingue.
Per la prima volta, un unico modello multilingue ha superato i migliori modelli bilingui specificamente addestrati per 10 su 14 coppie di lingue, vincendo il WMT 2021 e offrendo le traduzioni migliori per lingue a bassa e alta disponibilità di risorse.
FLORES-101 è il primo dataset di valutazione many-to-many del suo genere: copre 101 lingue e consente ai ricercatori di testare rapidamente e migliorare sulla base di modelli di traduzione multilingui come M2M-100.
Il modello NLLB traduce 200 lingue.
Espansione del dataset di valutazione FLORES, che oggi copre 200 lingue.
Costruzione e pubblicazione di dati di allenamento per 200 lingue.
Crea integrazioni per abbinare automaticamente frasi con lo stesso significato in 200 lingue.
Acehnese (Latin script)
Arabic (Iraqi/Mesopotamian)
Arabic (Yemen)
Arabic (Tunisia)
Afrikaans
Arabic (Jordan)
Akan
Amharic
Arabic (Lebanon)
Arabic (MSA)
Arabic (Modern Standard Arabic)
Arabic (Saudi Arabia)
Arabic (Morocco)
Arabic (Egypt)
Assamese
Asturian
Awadhi
Aymara
Crimean Tatar
Welsh
Danish
German
French
Friulian
Fulfulde
Dinka(Rek)
Dyula
Dzongkha
Greek
English
Esperanto
Estonian
Basque
Ewe
Faroese
Iranian Persian
Icelandic
Italian
Javanese
Japanese
Kabyle
Kachin | Jinghpo
Kamba
Kannada
Kashmiri (Arabic script)
Kashmiri (Devanagari script)
Georgian
Kanuri (Arabic script)
Kanuri (Latin script)
Kazakh
Kabiye
Thai
Khmer
Kikuyu
South Azerbaijani
North Azerbaijani
Bashkir
Bambara
Balinese
Belarusian
Bemba
Bengali
Bhojpuri
Banjar (Latin script)
Tibetan
Bosnian
Buginese
Bulgarian
Catalan
Cebuano
Czech
Chokwe
Central Kurdish
Fijian
Finnish
Fon
Scottish Gaelic
Irish
Galician
Guarani
Gujarati
Haitian Creole
Hausa
Hebrew
Hindi
Chhattisgarhi
Croatian
Hugarian
Armenian
Igobo
IIocano
Indonesian
Kinyarwanda
Kyrgyz
Kimbundu
Konga
Korean
Kurdish (Kurmanji)
Lao
Latvian (Standard)
Ligurian
Limburgish
Lingala
Lithuanian
Lombard
Latgalian
Luxembourgish
Luba-Kasai
Ganda
Dholuo
Mizo
Foundational models
Latest news
Foundational models