Meta AI ha creato il modello IA unico NLLB-200, il primo in grado di tradurre in 200 lingue diverse con una qualità all'avanguardia, convalidato attraverso valutazioni esaustive per ogni lingua.
Abbiamo inoltre creato un nuovo dataset di valutazione, FLORES-200, e misurato le prestazioni di NLLB-200 in ogni lingua per verificare l'elevata qualità delle traduzioni. NLLB-200 supera in media del 44% lo stato dell'arte.
Ora stiamo usando tecniche di modellazione e quanto abbiamo appreso nel corso del progetto per migliorare e ampliare le traduzioni su Facebook, Instagram e Wikipedia.
Stiamo inoltre rendendo disponibili in open source i modelli NLLB-200, FLORES-200, il codice di apprendimento del modello e il codice per ricreare il dataset di apprendimento per aiutare gli altri ricercatori a migliorare i loro strumenti di traduzione sulla base del lavoro che abbiamo svolto.
La lingua rappresenta la nostra cultura e identità e ci permette di comunicare con il mondo. Tuttavia, per centinaia di lingue non sono disponibili strumenti di traduzione di alta qualità e questo impedisce a miliardi di persone di accedere oggi a contenuti digitali o di partecipare a conversazioni e community online nella loro lingua madre o di preferenza. Questo riguarda soprattutto le centinaia di milioni di persone che parlano le numerose lingue diffuse in Africa e Asia.
Per aiutare le persone a connettersi meglio e a far parte del metaverso di domani, i ricercatori di Meta AI hanno ideato No Language Left Behind (Nessuna lingua resti indietro, NLLB): un progetto per sviluppare funzionalità di traduzione automatica di alta qualità per la maggior parte delle lingue del mondo. Oggi annunciamo un'importante svolta in NLLB: abbiamo creato un unico modello IA chiamato NLLB-200, che traduce 200 lingue diverse con risultati all'avanguardia. Molte di queste lingue, come il kamba e il lao, erano scarsamente supportate o non supportate affatto anche dai migliori strumenti di traduzione esistenti. Al momento, gli strumenti di traduzione più diffusi supportano meno di 25 lingue africane e molti di essi con una qualità insufficiente. NLLB-200 supporta invece 55 lingue africane con risultati ottimali. Nel complesso, questo modello unico è in grado di fornire traduzioni di alta qualità per lingue parlate da miliardi di persone in tutto il mondo. In totale, NLLB-200 ha ottenuto punteggi BLEU mediamente più elevati del 44% rispetto allo stato dell'arte precedente in tutte le 10 000 direzioni linguistiche previste dal benchmark FLORES-101. Per alcune lingue africane e indiane, l'aumento è superiore al 70% rispetto ai sistemi di traduzione recenti.
Attualmente stiamo rendendo disponibile in open source il modello NLLB-200 e pubblicando una serie di strumenti di ricerca per consentire ad altri ricercatori di estendere il proprio lavoro a più lingue e di creare tecnologie più inclusive. Meta AI fornisce inoltre alle organizzazioni no profit fino a 200 000 USD per finanziare le applicazioni di NLLB-200 nel mondo reale.
Gli sviluppi di ricerca offerti da NLLB supporteranno oltre 25 miliardi di traduzioni fornite ogni giorno nella sezione Notizie di Facebook, su Instagram e su altre piattaforme. Immagina di visitare un gruppo Facebook che ti piace, trovare un post in igbo o luganda e poterlo leggere nella tua lingua con un solo clic. La disponibilità di traduzioni estremamente accurate in più lingue aiuta inoltre a individuare contenuti pericolosi e disinformazione, proteggere l'integrità delle elezioni e bloccare eventuali istanze di sfruttamento sessuale e tratta di esseri umani online. Le tecniche di modellazione e quanto abbiamo appreso nel corso della nostra ricerca NLLB oggi è anche applicato ai sistemi di traduzione usati dagli editor di Wikipedia.
L'impatto sulla vita quotidiana delle persone rende la traduzione una delle aree più interessanti dell'IA. L'obiettivo di NLLB non è solo offrire l'accesso a contenuti sul web, ma rendere più semplice per le persone apportare il proprio contributo e condividere informazioni in varie lingue. La strada da percorrere è ancora lunga, ma siamo incoraggiati a continuare dai nostri recenti progressi e dall'avvicinamento agli obiettivi della missione di Meta.
Qui puoi guardare una demo di NLLB-200 che mostra come il modello è in grado di tradurre storie di tutto il mondo e consultare i documenti delle ricerche.
Abbiamo collaborato con la Wikimedia Foundation, l'organizzazione no profit che gestisce Wikipedia e altri progetti di informazione gratuiti, per contribuire a migliorare i sistemi di traduzione su questa piattaforma. Esistono versioni di Wikipedia in più di 300 lingue, ma la maggior parte offre molti meno articoli degli oltre 6 milioni disponibili in inglese. La disparità aumenta ulteriormente se si considerano le lingue parlate soprattutto al di fuori di Europa e Nord America. Ad esempio, esistono circa 3260 articoli di Wikipedia in lingala, una lingua parlata da 45 milioni di persone nella Repubblica Democratica del Congo, nella Repubblica del Congo, nella Repubblica Centrafricana e nel Sudan del Sud. Per una lingua come lo svedese, invece, parlata da 10 milioni di persone in Svezia e Finlandia, gli articoli sono più di 2,5 milioni.
Attualmente, gli editor di Wikipedia sfruttano la tecnologia alla base di NLLB-200, tramite lo strumento Content Translation della Wikimedia Foundation, per tradurre articoli in più di 20 lingue a bassa disponibilità di risorse (ovvero quelle che non dispongono di grandi dataset per la formazione dei sistemi IA), tra cui 10 precedentemente non supportate da nessuno strumento di traduzione automatica sulla piattaforma.
L'apprendimento dei sistemi di traduzione automatica, come i modelli IA, è basato sui dati. Per i sistemi di traduzione di testi si usano, in genere, milioni di frasi accuratamente abbinate tra le varie lingue. Tuttavia, per alcune coppie di lingue, ad esempio l'inglese e il fula, semplicemente non esistono grandi volumi di frasi parallele. Gli attuali modelli di traduzione cercano di superare questo ostacolo ricorrendo al data mining sul web, ma i risultati sono quasi sempre di scarsa qualità, perché il testo di origine è diverso per ognuna delle lingue. Inoltre, si riscontrano spesso incoerenze o errori legati all'ortografia o la mancanza di accenti e altri segni diacritici.
Un'altra sfida complessa è l'ottimizzazione di un unico modello che funzioni per centinaia di lingue senza compromettere le prestazioni o la qualità delle traduzioni. In genere, la migliore qualità di traduzione si ottiene usando un modello separato per ogni direzione linguistica, ma è difficile ampliare questo approccio, poiché l'aggiunta di ulteriori lingue peggiora le prestazioni e la qualità delle traduzioni.
I modelli di traduzione producono inoltre errori difficili da individuare. Poiché questi sistemi sono basati su reti neurali usate per la generazione di testi, possono naturalmente generare errori quali allucinazioni (che consistono nel sostenere con certezza che qualcosa sia vero quando in realtà non lo è), inesattezze e contenuti poco sicuri. In linea generale, si tratta solo di pochi benchmark e dataset per lingue a bassa disponibilità di risorse e questo rende decisamente più difficile testare e migliorare i modelli.
Negli ultimi anni abbiamo continuato a progredire per superare le sfide sopra descritte. Nel 2020 abbiamo annunciato il nostro modello di traduzione M2M-100 per 100 lingue, che usava nuovi metodi per acquisire dati di apprendimento, nuove architetture per aumentare le dimensioni dei modelli senza compromettere le prestazioni e nuovi modi per valutare e migliorare i risultati. Per poter aggiungere altre 100 lingue, abbiamo compiuto ulteriori passi avanti in tutte e tre queste aree.
Per raccogliere testi paralleli estremamente accurati in più lingue, abbiamo perfezionato LASER, il nostro toolkit per zero transfer nell'elaborazione del linguaggio naturale (NLP). Anziché LSTM, la nuova versione LASER3 usa il modello Transformer, in cui l'apprendimento avviene in modo auto-supervisionato con un obiettivo Masked Language Model (MLM). Abbiamo ulteriormente migliorato le prestazioni usando una procedura di apprendimento teacher-student e creando codificatori specifici per gruppi di lingue. Questo ci ha permesso di aumentare la copertura delle lingue di LASER3 e di produrre un'ingente quantità di coppie di frasi, anche per le lingue a bassa disponibilità di risorse. Stiamo rendendo disponibili in open source non solo il metodo di incorporamento multilingue di LASER3, in modo che possa essere usato da altri ricercatori, ma anche miliardi di frasi parallele in varie coppie di lingue, che sono state estratte e ripulite usando le tecniche qui descritte.
Per reperire esempi di apprendimento in più lingue abbiamo ampliato il nostro campo di azione ed era quindi importante verificare che la qualità degli esempi rimanesse elevata. Abbiamo completamente rivisitato la nostra pipeline di pulizia dei dati per adeguarla a 200 lingue, aggiungendo passaggi di filtraggio fondamentali che includevano l'uso preliminare dei nostri modelli LID-200 per filtrare i dati ed eliminare quasi totalmente il rumore dai corpora su scala Internet. Abbiamo sviluppato elenchi di elementi tossici per l'intero set di 200 lingue e li abbiamo usati per valutare e filtrare la potenziale tossicità con allucinazioni. Questi passaggi ci hanno garantito la disponibilità di dataset più puliti e meno tossici, con lingue correttamente identificate. Questo è importante per migliorare la qualità della traduzione e ridurre il rischio della cosiddetta tossicità con allucinazioni, in cui il sistema introduce per errore contenuti tossici durante il processo di traduzione.
I sistemi di traduzione multilingue offrono due importanti vantaggi. Consentono a due lingue simili, come l'assamese e il bengali, che usano entrambe l'alfabeto bengali, di condividere i dati durante l'apprendimento. Questo migliora considerevolmente la qualità della traduzione per le lingue a bassa disponibilità di risorse quando l'apprendimento viene eseguito insieme a lingue ad alta disponibilità simili. I ricercatori possono iterare, scalare e sperimentare con un singolo modello multilingue molto più facilmente che con centinaia o addirittura migliaia di modelli bilingue diversi.
L'espansione di un modello da 100 a 200 lingue continua comunque a porre sfide complesse. I dati di apprendimento contengono un maggior numero di coppie di lingue a bassa disponibilità di risorse e quando l'apprendimento dei modelli continua per periodi più lunghi, i sistemi multilingue iniziano a presentare problemi di overfitting. Abbiamo affrontato questi problemi con un'innovazione su tre fronti: regolarizzazione e apprendimento del curriculum, apprendimento auto-supervisionato e diversificazione della traduzione inversa.
Abbiamo innanzitutto sviluppato reti Mixture of Experts dotate di capacità condivise e specializzate, in modo che le lingue a bassa disponibilità di risorse che presentano pochi dati possano essere automaticamente indirizzate verso la capacità condivisa. In combinazione con sistemi di regolarizzazione progettati in modo ottimale si evita così l'overfitting. Abbiamo inoltre adottato un approccio all'apprendimento del curriculum in due passaggi, che prevede prima l'apprendimento di lingue ad alta disponibilità di risorse per alcune epoche e quindi l'introduzione di coppie di lingue a bassa disponibilità di risorse (sempre allo scopo di ridurre il problema dell'overfitting). A questo punto, considerata la ridotta quantità di dati di testi paralleli per le lingue a bassa disponibilità di risorse, abbiamo sfruttato l'apprendimento auto-supervisionato sui dati monolingui per le lingue sia a bassa sia ad alta disponibilità di risorse, in modo da migliorare le prestazioni complessive del modello.
Abbiamo infine studiato come ottimizzare la generazione di dati di traduzione inversa e rilevato che la combinazione di dati di traduzione inversa generati sia dalla traduzione automatica statistica bilingue sia dai modelli di traduzione automatica neurale multilingue contribuisce a migliorare le prestazioni delle lingue a bassa disponibilità di risorse, grazie all'aumento della diversità dei dati sintetici generati. Per l'apprendimento del modello NLLB-200, che dispone di 54 miliardi di parametri, abbiamo usato il nostro Research SuperCluster (RSC) di nuova creazione: uno dei supercomputer di IA più veloci al mondo.
Per valutare e migliorare NLLB-200, abbiamo creato FLORES-200, un dataset unico di valutazione many-to-many che consente ai ricercatori di valutare le prestazioni in 40 000 direzioni linguistiche diverse. Stiamo rendendo disponibile in open source questo nuovo dataset per aiutare altri ricercatori a testare e perfezionare rapidamente i propri modelli di traduzione. FLORES-200 può essere usato per valutare sistemi di traduzione per una vasta gamma di applicazioni, tra cui filmati, libri, contenuti online e volantini sulla salute in Paesi e regioni in cui si parlano molte lingue a bassa disponibilità di risorse.
Per eseguire il passaggio a 200 lingue è stato necessario affrontare il rischio di generare contenuti tossici: un problema che può essere difficile da gestire in un sistema di traduzione multidirezionale. Ci siamo riusciti creando elenchi di elementi tossici per tutte le lingue supportate, in modo da consentire il rilevamento e il filtraggio di volgarità e altri contenuti potenzialmente offensivi. Stiamo rilasciando benchmark ed elenchi di valutazione della tossicità per tutte le 200 lingue, per fornire ad altri ricercatori gli strumenti necessari per ridurre i rischi nei propri modelli.
Affinché l'estensione del nostro impegno avvenga in modo responsabile, stiamo collaborando con un team interdisciplinare composto da linguisti, sociologi ed esperti di etica, per imparare di più su ognuna delle lingue che prendiamo in considerazione.
Gli strumenti di traduzione di alta qualità possono favorire il cambiamento. In realtà, oggi il web è dominato da una manciata di lingue, tra cui inglese, mandarino, spagnolo e arabo. È facile che i madrelingua di questi idiomi estremamente diffusi dimentichino quanto sia importante avere la possibilità di leggere nella propria lingua. Riteniamo che NLLB aiuti a conservare e proteggere le lingue. È stato infatti creato per essere condiviso, senza dover sempre richiedere l'uso di una lingua intermedia che spesso veicola sentimenti/contenuti nel modo sbagliato.
Può inoltre consentire il miglioramento di altre attività legate all'elaborazione del linguaggio naturale oltre alla traduzione: ad esempio la creazione di assistenti efficaci in lingue quali il giavanese e l'uzbeko o la creazione di sistemi in grado di aggiungere ai film di Bollywood sottotitoli corretti in oromo o swahili. Il metaverso inizia a prendere forma e la capacità di creare tecnologie in grado di funzionare correttamente in centinaia o persino migliaia di lingue contribuirà concretamente a democratizzare l'accesso a nuove esperienze immersive in mondi virtuali.
Pochi anni fa, la traduzione automatica di alta qualità funzionava solo per un ridotto numero di lingue. NLLB-200 ci avvicina al giorno in cui disporremo di sistemi che permetteranno alle persone di comunicare con chiunque. Siamo entusiasti delle possibilità che questo offre nel presente e di cosa potrebbe significare per il futuro e continueremo a spingerci oltre i limiti delle traduzioni automatiche.
A questo lavoro partecipa un team multidisciplinare di Meta AI che include Bapi Akula, Pierre Andrews, Necip Fazil Ayan, Loic Barrault, Shruti Bhosale, Marta Ruiz Costa-jussa, James Cross, Onur Çelebi, Sergey Edunov, Maha Elbayad, Angela Fan, Cynthia Gao, Gabriel Mejia Gonzalez, Vedanuj Goswami, Francisco Guzmán, Prangthip Hansanti, Kennet Heafield, Kevin Heffernan, John Hoffman, Semarley Jarrett, Elahe Kalbassi, Philipp Koehn, Janice Lam, Daniel Licht, Jean Maillard, Alexandre Mourachko, Christophe Ropers, Kaushik Ram Sadagopan, Safiyyah Saleem, Holger Schwenk, Shannon Spruit, Anna Sun, Chau Tran, Skyler Wang, Guillaume Wenzek, Jeff Wang e Al Youngblood.
Foundational models
Latest news
Foundational models