Ang Kabilang ang Lahat ng Wika (No Language Left Behind, NLLB) ay ang unang walang katulad na matagumpay na project ng AI na nag-o-open source ng mga model na may kakayahang maghatid ng mga nasuri at mataas na kalidad na pagta-translate nang direkta sa pagitan ng 200 wika—kasama ang mga wika na may kaunting resource tulad ng Asturian, Luganda, Urdu at marami pa. Nilalayon nitong bigyan ng oportunidad ang mga tao na ma-access at ibahagi ang web content sa kanilang pangunahing wika, at makipag-usap kahit kanino, saanman, anuman ang kanilang gustong wika.
Ang Kabilang ang Lahat ng Wika (No Language Left Behind, NLLB) ay ang unang walang katulad na matagumpay na project ng AI na nag-o-open source ng mga model na may kakayahang maghatid ng mga nasuri at mataas na kalidad na pagta-translate nang direkta sa pagitan ng 200 wika—kasama ang mga wika na may kaunting resource tulad ng Asturian, Luganda, Urdu at marami pa. Nilalayon nitong bigyan ng oportunidad ang mga tao na ma-access at ibahagi ang web content sa kanilang pangunahing wika, at makipag-usap kahit kanino, saanman, anuman ang kanilang gustong wika.
Naka-commit kami sa paglalapit ng mga tao Kaya gumagamit kami ng mga modeling technique at mga learning mula sa aming NLLB research para pahusayin ang mga pagta-translate ng mga wika na may kaunting resource sa Facebook at Instagram. Sa pag-apply ng mga technique na ito at mga learning sa aming mga production system sa pagta-translate, magagawa ang mga tao ng mas authentic, mas may kabuluhang mga koneksyon sa kanilang mas gusto o mga pangunahing wika. Sa hinaharap, umaasa kami na i-extend ang aming mga learning mula sa NLLB sa mas maraming Meta app.
Habang bumubuo kami para sa metaverse, pagsasama ng real-time na pagta-translate ng text ng AR/VR sa daan-daang wika ay isang prayoridad. Ang aming layunin ay mag-set ng bagong pamantayan ng inclusion—kung saan isang araw ang lahat ay magkakaroon ng access sa virtual-world content, mga device at mga karanasan, na may kakayahang makipag-usap kahit kanino, sa anumang wika sa metaverse. At sa katagalan, paglapitin ang mga tao sa pandaigdigang scale.
Ang techonology sa likod ng NLLB-200 model, available ngayon sa pamamagitan ng tool ng Wikimedia Foundation’s Content Translation, ay sinusuportahan ang mga editor ng Wikipedia habang tina-translate nila ang impormasyon sa kanilang pangunahing at mas gustong mga wika. Ginagamit ng mga editor ng Wikipedia ang technology para mas mahusay na mag-translate at mag-edit ng mga artikulo na nagmumula sa iba pang under-represented na mga wika, tulad ng Luganda at Icelandic. Tumutulong itong gawing mas available ang kaalaman sa maraming wika para sa mga mambabasa ng Wikipedia sa buong mundo. Tutulungan din ng open-source NLLB-200 na model ang mga community ng mga researcher at interesadong editor ng Wikipedia na bumuo sa aming gawa.
Maranasan ang kapangyarihan ng pagta-translate ng AI sa pamamagitan ng Mga Kuwento na Sinabi sa Pamamagitan ng Pagta-translate, ang aming demo na gumagamit ng mga pinakabagong pagsulong sa AI mula sa proyektong Kabilang ang Lahat ng Wika (No Language Left Behind). Tina-translate ng demo na ito ang mga libro mula sa kanilang mga pinagmulang wika gaya ng Indonesian, Somail at Burmese, patungo sa mas maraming wika para sa mga mambabasa—na may daan-daang paparating sa mga susunod na buwan. Sa pamamagitan ng inisyatibang ito, ang NLLB-200 ang magiging kauna-unahang model na AI na makakapag-translate ng literatura sa ganitong laki.
Ni Su Nyein Chan
Nakatira ang isang magsasaka sa isang nayon na nagpapatubo lang ng mga pulang rosas. Ano ang mangyayari kapag nagtanim siya ng mga kakaibang buto mula sa isang kahon sa basement niya?
Ni Prum Kunthearo
Noong may maliit na elepanteng pumunta sa kanilang bahay, nagseselos si Botom sa atensyong nakukuha nito. Mapapaalis ba ni Botom ang elepante, o magiging kaibigan din niya ang nakakaaliw na hayop?
Ni Nabila Adani
Isang babae na nagbigyan ng inspirasyon ng isang school assignment para pag-isipan kung ano ang gusto niyang maging kapag lumaki na siya. Ano ang maibibigay na inspirasyon ng kanyang mga pangarap para maging kung ano ang gusto niya?
Ni Mohammed Umar
Gusto ni Samad ang mga hayop. Ang kanyang pangarap ay gugulin ang buong araw sa kagubatan at matulog sa treehouse. I-follow si Samad habang tinatahak niya ang adventure na ito kung saan nagkaroon siya ng mabubuting kaibigan at mga pambihirang discovery. Wala nang sasaya sa pagpunta sa kagubatan.
Ni Wulan Mulya Pratiwi
Nawala sa kagubatan ang prinsipe. Sinusubaybayan siya ng isang tigre. Ano ang gagawin niya?
Ang data sa pagsasanay ay kinokolekta na may mga pangungusap sa wika ng input at nais na wika ng input.
Pagtapos gumawa ng naka-align na data sa pagsasanay para sa libu-libong direksyon sa pagsasanay, ibinibigay ang data na ito sa aming model training pipeline. Ang mga model na ito ay binubuo ng dalawang bahagi: ang encoder, na kino-convert ang input sentence sa internal vector representation; at ang decoder, na kinukuha ang internal vector representation at ginagawa nang tama ang ouput sentence. Sa pagsasanay sa milyun-milyong halimbawang pagta-translate, natututo ang mga model na gumawa ng mas accurate na mga pagta-translate.
Sa huli, sinusuri namin ang aming model sa set ng pagta-translate ng pangungusap na na-translate ng tao para kumpirmahin na nasisiyahan kami sa kalidad ng pagta-translate. Kasama rito ang pagtukoy at pag-filter ng profanity at iba pang nakakasakit na content sa pamamagitan ng mga toxicity list na binubuo namin para sa lahat ng sinusuportahang wika. Ang resulta ay isang model na sinanay nang mabuti na maaaring direktang mag-translate ng wika.
Ang data sa pagsasanay ay kinokolekta na may mga pangungusap sa wika ng input at nais na wika ng input.
Pagtapos gumawa ng naka-align na data sa pagsasanay para sa libu-libong direksyon sa pagsasanay, ibinibigay ang data na ito sa aming model training pipeline. Ang mga model na ito ay binubuo ng dalawang bahagi: ang encoder, na kino-convert ang input sentence sa internal vector representation; at ang decoder, na kinukuha ang internal vector representation at ginagawa nang tama ang ouput sentence. Sa pagsasanay sa milyun-milyong halimbawang pagta-translate, natututo ang mga model na gumawa ng mas accurate na mga pagta-translate.
Sa huli, sinusuri namin ang aming model sa set ng pagta-translate ng pangungusap na na-translate ng tao para kumpirmahin na nasisiyahan kami sa kalidad ng pagta-translate. Kasama rito ang pagtukoy at pag-filter ng profanity at iba pang nakakasakit na content sa pamamagitan ng mga toxicity list na binubuo namin para sa lahat ng sinusuportahang wika. Ang resulta ay isang model na sinanay nang mabuti na maaaring direktang mag-translate ng wika.
Ang MT ay isang supervised na learning task, ang ibig sabihin ay kailangan ng model ng data para matuto. Madalas gamitin ang mga halimbawang pagta-translate mula sa mga collection ng open-source data. Ang aming solusyon ay para awtomatikong gumawa ng mga pair sa pagta-translate sa pamamagitan ng pag-pair ng mga pangungusap sa iba’t ibang koleksyon ng mga dokumento na may isang wika.
Ang mga LASER model na ginagamit para sa proseso ng paggawa ng dataset na ito ay sinusuportahan ang mga wika na may katamtaman hanggang sa maraming resource, ginagawa nitong imposibleng gumawa ng mga pair sa pagta-translate na tama para sa mga wika na kaunti ang resource.
Pinahusay ang mga system ng Multilingual MT sa mga bilingual system. Ito ay dahil sa kakayahan ng mga ito na i-enable ang "pag-transfer" mula sa mga pares ng wika na may maraming training data, sa iba pang mga wika na may mas kaunting training resource.
Ang magkasamang pagsasanay ng daang-daan na pares ng wika ay may mga disadvantage, dahil ang parehong model ay dapat maipakita ang lumalaking bilang ng mga wika sa parehong bilang ng mga parameter. Ito ay isyu kapag hindi balanse ang mga laki ng dataset, dahil maaari itong magdulot ng overfitting.
Para malaman kung ang pagta-translate na gawa ng aming model ay natutugunan ang aming mga pamantayan ng kalidad, dapat namin itong suriin.
Ang mga model ng machine translation ay karaniwang sinusuri sa pamamagitan ng pagkumpara ng machine-translated na mga pangungusap sa pagta-translate ng tao, gayunpaman para sa maraming wika, hindi available ang reliable na data ng pagta-translate. Kaya hindi posible ang mga accurate na pagsusuri.
Alamin pa ang tungkol sa science sa likod ng NLLB sa pamamagitan ng pagbabasa ng aming whitepaper at blog, at sa pag-download ng model pagbuitihin pa ang project na ito.
Tingnan ang mga milestone ng model ayon sa # ng mga inilabas na wika
Ang unang matagumpay na pag-explore ng malaking multilingual sentence representation na ibinahagi sa publiko sa NLP community. Gumagawa ng mga pag-embed ang encoder sa para awtomatikong ipares ang mga pangungusap na ibinabahagi ang parehong kahulugan sa 50 wika.
Naging dobleng mas maganda ang performance ng mga model ng FB AI sa lahat ng iba pang model sa WMT 2019, gamit ang malawakang sampled na back translation, maingay na channel modeling at mga technique sa paglilinis ng data para tumulong bumuo ng matibay na system.
Ang benchmarking na dataset para sa MT sa pagitan ng Ingles at mga wika na may kaunting resource ay ipinapakikilala ang patas at masusing proseso ng pagsusuri, na nagsisimula sa 2 wika.
Ang pinakamalaking extraction ng mga parallel na pangungusap sa maraming wika: Ang Bitext extraction ng 135 milyong pangungusap sa Wikipedia sa 1,620 pares ng wika para sa pagbuo ng mas magandang model ng pagta-translate.
Ang una, isang model ng multilingual machine translation para direktang mag-translate sa pagitan ang alinman pares ng 100 wika nang hindi umaasa sa English data. Nagsanay sa 2,200 language direction —10x pa sa nakaraang mga model ng maraming wika.
Ang pinakamalaking dataset ng mataas na kalidad, web-based na mga bitext para sa pagbuo ng mga model ng pagta-translate na gumagana sa mas maraming wika, lalo na sa mga wika na may kaunting resource: 4.5 bilyong parallel sentence sa 576 na mga pares ng wika.
Gumagawa ng mga pag-embed sa para awtomatikong ipares ang mga pangungusap na nagbabahagi ng parehong kahulugan sa 100 wika.
Para sa unang pagkakataon, naging dobleng mas maganda ang performance ng isang model ng maraming wika ang pinaka sinanay na mga bilingual model sa 10 ng 14 na pares ng wika para manalo ng WMT 2021, pagbibigay ng pinakamagandang pagta-translate sa mga wika na may kaunti at maraming resource.
Ang FLORES-101 ay ang unang walang katulad, many-to-many na data set ng pagsusuri na kino-cover ang 101 wika, pinapayagan ang mga researcher na mabilis na subukan at humusay sa maraming wika na model ng pagta-translate tulad ng M2M-100.
Tina-translate ng NLLB model ang 200 wika.
Ang pagpapalawak ng data set ng pagsusuri ng FLORES ay kino-cover ngayon ang 200 wika
Ginawa at inilabas ang data sa pagsasanay para sa 200 wika
Gumagawa ng mga pag-embed sa para awtomatikong i-pair up ang mga pangungusap na nagbabahagi ng parehong kahulugan sa 200 wika.
< 50 wika
50-100 wika
100 wika
Ang unang matagumpay na pag-explore ng malaking multilingual sentence representation na ibinahagi sa publiko sa NLP community. Gumagawa ng mga pag-embed ang encoder sa para awtomatikong ipares ang mga pangungusap na ibinabahagi ang parehong kahulugan sa 50 wika.
Naging dobleng mas maganda ang performance ng mga model ng FB AI sa lahat ng iba pang model sa WMT 2019, gamit ang malawakang sampled na back translation, maingay na channel modeling at mga technique sa paglilinis ng data para tumulong bumuo ng matibay na system.
Ang benchmarking na dataset para sa MT sa pagitan ng Ingles at mga wika na may kaunting resource ay ipinapakikilala ang patas at masusing proseso ng pagsusuri, na nagsisimula sa 2 wika.
Ang pinakamalaking extraction ng mga parallel na pangungusap sa maraming wika: Ang Bitext extraction ng 135 milyong pangungusap sa Wikipedia sa 1,620 pares ng wika para sa pagbuo ng mas magandang model ng pagta-translate.
Ang una, isang model ng multilingual machine translation para direktang mag-translate sa pagitan ang alinman pares ng 100 wika nang hindi umaasa sa English data. Nagsanay sa 2,200 language direction —10x pa sa nakaraang mga model ng maraming wika.
Ang pinakamalaking dataset ng mataas na kalidad, web-based na mga bitext para sa pagbuo ng mga model ng pagta-translate na gumagana sa mas maraming wika, lalo na sa mga wika na may kaunting resource: 4.5 bilyong parallel sentence sa 576 na mga pares ng wika.
Gumagawa ng mga pag-embed sa para awtomatikong ipares ang mga pangungusap na nagbabahagi ng parehong kahulugan sa 100 wika.
Para sa unang pagkakataon, naging dobleng mas maganda ang performance ng isang model ng maraming wika ang pinaka sinanay na mga bilingual model sa 10 ng 14 na pares ng wika para manalo ng WMT 2021, pagbibigay ng pinakamagandang pagta-translate sa mga wika na may kaunti at maraming resource.
Ang FLORES-101 ay ang unang walang katulad, many-to-many na data set ng pagsusuri na kino-cover ang 101 wika, pinapayagan ang mga researcher na mabilis na subukan at humusay sa maraming wika na model ng pagta-translate tulad ng M2M-100.
Tina-translate ng NLLB model ang 200 wika.
Ang pagpapalawak ng data set ng pagsusuri ng FLORES ay kino-cover ngayon ang 200 wika
Ginawa at inilabas ang data sa pagsasanay para sa 200 wika
Gumagawa ng mga pag-embed sa para awtomatikong i-pair up ang mga pangungusap na nagbabahagi ng parehong kahulugan sa 200 wika.
Acehnese (Latin script)
Arabic (Iraqi/Mesopotamian)
Arabic (Yemen)
Arabic (Tunisia)
Afrikaans
Arabic (Jordan)
Akan
Amharic
Arabic (Lebanon)
Arabic (MSA)
Arabic (Modern Standard Arabic)
Arabic (Saudi Arabia)
Arabic (Morocco)
Arabic (Egypt)
Assamese
Asturian
Awadhi
Aymara
Crimean Tatar
Welsh
Danish
German
French
Friulian
Fulfulde
Dinka(Rek)
Dyula
Dzongkha
Greek
Ingles
Esperanto
Estonian
Basque
Ewe
Faroese
Iranian Persian
Icelandic
Italian
Javanese
Japanese
Kabyle
Kachin | Jinghpo
Kamba
Kannada
Kashmiri (Arabic script)
Kashmiri (Devanagari script)
Georgian
Kanuri (Arabic script)
Kanuri (Latin script)
Kazakh
Kabiye
Thai
Khmer
Kikuyu
South Azerbaijani
North Azerbaijani
Bashkir
Bambara
Balinese
Belarusian
Bemba
Bengali
Bhojpuri
Banjar (Latin script)
Tibetan
Bosnian
Buginese
Bulgarian
Catalan
Cebuano
Czech
Chokwe
Central Kurdish
Fijian
Finnish
Fon
Scottish Gaelic
Irish
Galician
Guarani
Gujarati
Haitian Creole
Hausa
Hebrew
Hindi
Chhattisgarhi
Croatian
Hugarian
Armenian
Igobo
IIocano
Indonesian
Kinyarwanda
Kyrgyz
Kimbundu
Konga
Korean
Kurdish (Kurmanji)
Lao
Latvian (Standard)
Ligurian
Limburgish
Lingala
Lithuanian
Lombard
Latgalian
Luxembourgish
Luba-Kasai
Ganda
Dholuo
Mizo
Foundational models
Latest news
Foundational models