Kabilang ang Lahat ng Wika (No Language Left Behind)

Kabilang ang Lahat ng Wika (No Language Left Behind)

Paghihikayat ng inclusion sa pamamagitan ng kakayahan ng pagta-translate ng AI

Paghihikayat ng inclusion sa pamamagitan ng kakayahan ng pagta-translate ng AI

Panoorin ang video
Panoorin ang video

Tungkol sa Kabilang ang Lahat

ng Wika (No Language Left Behind)

Ang Kabilang ang Lahat ng Wika (No Language Left Behind, NLLB) ay ang unang walang katulad na matagumpay na project ng AI na nag-o-open source ng mga model na may kakayahang maghatid ng mga nasuri at mataas na kalidad na pagta-translate nang direkta sa pagitan ng 200 wika—kasama ang mga wika na may kaunting resource tulad ng Asturian, Luganda, Urdu at marami pa. Nilalayon nitong bigyan ng oportunidad ang mga tao na ma-access at ibahagi ang web content sa kanilang pangunahing wika, at makipag-usap kahit kanino, saanman, anuman ang kanilang gustong wika.

Tungkol sa Kabilang ang Lahat ng Wika (No Language Left Behind)

Ang Kabilang ang Lahat ng Wika (No Language Left Behind, NLLB) ay ang unang walang katulad na matagumpay na project ng AI na nag-o-open source ng mga model na may kakayahang maghatid ng mga nasuri at mataas na kalidad na pagta-translate nang direkta sa pagitan ng 200 wika—kasama ang mga wika na may kaunting resource tulad ng Asturian, Luganda, Urdu at marami pa. Nilalayon nitong bigyan ng oportunidad ang mga tao na ma-access at ibahagi ang web content sa kanilang pangunahing wika, at makipag-usap kahit kanino, saanman, anuman ang kanilang gustong wika.

ai research para sa real-world application

Pag-apply ng Mga AI Technique sa Facebook at Instagram para sa pagta-translate ng mga wika na may kaunting resource

Naka-commit kami sa paglalapit ng mga tao Kaya gumagamit kami ng mga modeling technique at mga learning mula sa aming NLLB research para pahusayin ang mga pagta-translate ng mga wika na may kaunting resource sa Facebook at Instagram. Sa pag-apply ng mga technique na ito at mga learning sa aming mga production system sa pagta-translate, magagawa ang mga tao ng mas authentic, mas may kabuluhang mga koneksyon sa kanilang mas gusto o mga pangunahing wika. Sa hinaharap, umaasa kami na i-extend ang aming mga learning mula sa NLLB sa mas maraming Meta app.

REAL-WORLD APPLICATION

Bumubuo parasa inclusive metaverse

Ang na-translate na metaverse: pinaglalapit ang mga tao sa pandaigdigang scale

Habang bumubuo kami para sa metaverse, pagsasama ng real-time na pagta-translate ng text ng AR/VR sa daan-daang wika ay isang prayoridad. Ang aming layunin ay mag-set ng bagong pamantayan ng inclusion—kung saan isang araw ang lahat ay magkakaroon ng access sa virtual-world content, mga device at mga karanasan, na may kakayahang makipag-usap kahit kanino, sa anumang wika sa metaverse. At sa katagalan, paglapitin ang mga tao sa pandaigdigang scale.

REAL-WORLD APPLICATION

Pagta-translate ng Wikipedia para sa lahat

Pagtulong sa mga volunteer na editor na gawing available ang impormasyon sa mas maraming wika.

Ang techonology sa likod ng NLLB-200 model, available ngayon sa pamamagitan ng tool ng Wikimedia Foundation’s Content Translation, ay sinusuportahan ang mga editor ng Wikipedia habang tina-translate nila ang impormasyon sa kanilang pangunahing at mas gustong mga wika. Ginagamit ng mga editor ng Wikipedia ang technology para mas mahusay na mag-translate at mag-edit ng mga artikulo na nagmumula sa iba pang under-represented na mga wika, tulad ng Luganda at Icelandic. Tumutulong itong gawing mas available ang kaalaman sa maraming wika para sa mga mambabasa ng Wikipedia sa buong mundo. Tutulungan din ng open-source NLLB-200 na model ang mga community ng mga researcher at interesadong editor ng Wikipedia na bumuo sa aming gawa.

Maranasan ang Tech

Mga Kuwento na Sinabi sa Pamamagitan ng Pagta-translate:

mga libro sa iba't ibang panig ng mundo na na-translate sa daan-daang wika

Mga Kuwento na Sinabi sa Pamamagitan ng Pagta-translate:

mga libro sa iba't ibang panig ng mundo na na-translate sa daan-daang wika

Maranasan ang kapangyarihan ng pagta-translate ng AI sa pamamagitan ng Mga Kuwento na Sinabi sa Pamamagitan ng Pagta-translate, ang aming demo na gumagamit ng mga pinakabagong pagsulong sa AI mula sa proyektong Kabilang ang Lahat ng Wika (No Language Left Behind). Tina-translate ng demo na ito ang mga libro mula sa kanilang mga pinagmulang wika gaya ng Indonesian, Somail at Burmese, patungo sa mas maraming wika para sa mga mambabasa—na may daan-daang paparating sa mga susunod na buwan. Sa pamamagitan ng inisyatibang ito, ang NLLB-200 ang magiging kauna-unahang model na AI na makakapag-translate ng literatura sa ganitong laki.

The Rose Village

Ni Su Nyein Chan

Nakatira ang isang magsasaka sa isang nayon na nagpapatubo lang ng mga pulang rosas. Ano ang mangyayari kapag nagtanim siya ng mga kakaibang buto mula sa isang kahon sa basement niya?

Basahin ang story
The Elephant in My House

Ni Prum Kunthearo

Noong may maliit na elepanteng pumunta sa kanilang bahay, nagseselos si Botom sa atensyong nakukuha nito. Mapapaalis ba ni Botom ang elepante, o magiging kaibigan din niya ang nakakaaliw na hayop?

Basahin ang story
What Could I Become?

Ni Nabila Adani

Isang babae na nagbigyan ng inspirasyon ng isang school assignment para pag-isipan kung ano ang gusto niyang maging kapag lumaki na siya. Ano ang maibibigay na inspirasyon ng kanyang mga pangarap para maging kung ano ang gusto niya?

Basahin ang story
Samad in the forest

Ni Mohammed Umar

Gusto ni Samad ang mga hayop. Ang kanyang pangarap ay gugulin ang buong araw sa kagubatan at matulog sa treehouse. I-follow si Samad habang tinatahak niya ang adventure na ito kung saan nagkaroon siya ng mabubuting kaibigan at mga pambihirang discovery. Wala nang sasaya sa pagpunta sa kagubatan.

Basahin ang story
The Prince and the Tiger

Ni Wulan Mulya Pratiwi

Nawala sa kagubatan ang prinsipe. Sinusubaybayan siya ng isang tigre. Ano ang gagawin niya?

Basahin ang story

Ang Tech

Ipinaliwanag ang machine translation

Paano direktang tina-translate ng open-source na NLLB model ang 200 wika?

STAGE 1

Awtomatikong paggawa ng dataset

Stage 1: Awtomatikong paggawa ng dataset

Ang data sa pagsasanay ay kinokolekta na may mga pangungusap sa wika ng input at nais na wika ng input.

Nagkaroon ng Problema
Nagkakaproblema kami sa pag-play ng video na ito.

STAGE 2

Pagsasanay

Stage 2: Pagsasanay

Pagtapos gumawa ng naka-align na data sa pagsasanay para sa libu-libong direksyon sa pagsasanay, ibinibigay ang data na ito sa aming model training pipeline. Ang mga model na ito ay binubuo ng dalawang bahagi: ang encoder, na kino-convert ang input sentence sa internal vector representation; at ang decoder, na kinukuha ang internal vector representation at ginagawa nang tama ang ouput sentence. Sa pagsasanay sa milyun-milyong halimbawang pagta-translate, natututo ang mga model na gumawa ng mas accurate na mga pagta-translate.

Nagkaroon ng Problema
Nagkakaproblema kami sa pag-play ng video na ito.

STAGE 3

Pagsusuri

Stage 3: Pagsusuri

Sa huli, sinusuri namin ang aming model sa set ng pagta-translate ng pangungusap na na-translate ng tao para kumpirmahin na nasisiyahan kami sa kalidad ng pagta-translate. Kasama rito ang pagtukoy at pag-filter ng profanity at iba pang nakakasakit na content sa pamamagitan ng mga toxicity list na binubuo namin para sa lahat ng sinusuportahang wika. Ang resulta ay isang model na sinanay nang mabuti na maaaring direktang mag-translate ng wika.

Nagkaroon ng Problema
Nagkakaproblema kami sa pag-play ng video na ito.

STAGE 1

Awtomatikong paggawa ng dataset

STAGE 2

Pagsasanay

STAGE 3

Pagsusuri

Stage 1: Awtomatikong paggawa ng dataset

Ang data sa pagsasanay ay kinokolekta na may mga pangungusap sa wika ng input at nais na wika ng input.

Nagkaroon ng Problema
Nagkakaproblema kami sa pag-play ng video na ito.

Stage 2: Pagsasanay

Pagtapos gumawa ng naka-align na data sa pagsasanay para sa libu-libong direksyon sa pagsasanay, ibinibigay ang data na ito sa aming model training pipeline. Ang mga model na ito ay binubuo ng dalawang bahagi: ang encoder, na kino-convert ang input sentence sa internal vector representation; at ang decoder, na kinukuha ang internal vector representation at ginagawa nang tama ang ouput sentence. Sa pagsasanay sa milyun-milyong halimbawang pagta-translate, natututo ang mga model na gumawa ng mas accurate na mga pagta-translate.

Nagkaroon ng Problema
Nagkakaproblema kami sa pag-play ng video na ito.

Stage 3: Pagsusuri

Sa huli, sinusuri namin ang aming model sa set ng pagta-translate ng pangungusap na na-translate ng tao para kumpirmahin na nasisiyahan kami sa kalidad ng pagta-translate. Kasama rito ang pagtukoy at pag-filter ng profanity at iba pang nakakasakit na content sa pamamagitan ng mga toxicity list na binubuo namin para sa lahat ng sinusuportahang wika. Ang resulta ay isang model na sinanay nang mabuti na maaaring direktang mag-translate ng wika.

Nagkaroon ng Problema
Nagkakaproblema kami sa pag-play ng video na ito.

Ang Mga Innovation

Ang science sa likod ng tagumpay

Karamihan sa mga model ng machine translation (MT) ngayon ay gumagawa para sa mga wika na may katamtaman hanggang sa maraming resource—na napag-iiwanan ang karamihan sa mga wika na may kaunting resource. Tinutugunan ng mga Meta AI researcher ang isyung ito gamit ang tatlong mahalagang AI innovation.

Awtomatikong paggawa ng dataset para sa mga wika na may kaunting resource.

Ang konteksto

Ang MT ay isang supervised na learning task, ang ibig sabihin ay kailangan ng model ng data para matuto. Madalas gamitin ang mga halimbawang pagta-translate mula sa mga collection ng open-source data. Ang aming solusyon ay para awtomatikong gumawa ng mga pair sa pagta-translate sa pamamagitan ng pag-pair ng mga pangungusap sa iba’t ibang koleksyon ng mga dokumento na may isang wika.

Ang challenge

Ang mga LASER model na ginagamit para sa proseso ng paggawa ng dataset na ito ay sinusuportahan ang mga wika na may katamtaman hanggang sa maraming resource, ginagawa nitong imposibleng gumawa ng mga pair sa pagta-translate na tama para sa mga wika na kaunti ang resource.

Ang innovation:

Nalutas namin ito sa pamamagitan ng pamumuhunan sa isang teacher-student na training procedure, ginagawa itong posible para 1) i-extend ang sakop ng wika ng LASER sa 200 wika, at 2) gumawa ng maraming data, kahit sa mga wika na may kaunting resource.

Pag-model ng 200 wika

Ang konteksto

Pinahusay ang mga system ng Multilingual MT sa mga bilingual system. Ito ay dahil sa kakayahan ng mga ito na i-enable ang "pag-transfer" mula sa mga pares ng wika na may maraming training data, sa iba pang mga wika na may mas kaunting training resource.

Ang challenge

Ang magkasamang pagsasanay ng daang-daan na pares ng wika ay may mga disadvantage, dahil ang parehong model ay dapat maipakita ang lumalaking bilang ng mga wika sa parehong bilang ng mga parameter. Ito ay isyu kapag hindi balanse ang mga laki ng dataset, dahil maaari itong magdulot ng overfitting.

Ang innovation:

Nakagawa kami ng Sparse Mixture-of-Experts model na may pareho at natatanging kapasidad, para ang mga wika na may kaunting resource na wala masyadong data ay pwedeng awtomatikong i-route sa parehong kapasidad. Kapag isinama sa mas mahusay na mga regularization system, maiiwasan nito ang overfitting. Dagdag pa rito, gumagamit kami ng self-supervised learning at large-scale data augmentation sa pamamagitan ng maraming uri ng back translation.

Pagsusuri ng kalidad ng pagta-translate

Ang konteksto

Para malaman kung ang pagta-translate na gawa ng aming model ay natutugunan ang aming mga pamantayan ng kalidad, dapat namin itong suriin.

Ang challenge

Ang mga model ng machine translation ay karaniwang sinusuri sa pamamagitan ng pagkumpara ng machine-translated na mga pangungusap sa pagta-translate ng tao, gayunpaman para sa maraming wika, hindi available ang reliable na data ng pagta-translate. Kaya hindi posible ang mga accurate na pagsusuri.

Ang innovation:

Pinalawig namin nang 2x ang coverage ng FLORES, ang benchmark sa pagsusuri na na-translate ng tao, na ngayon ay sakop na ang 200 wika. Sa pamamagitan ng awtomatikong metrics at suporta sa pagsusuri ng tao, malawakan naming nabibilang ang kalidad ng aming mga pagta-translate.
Alamin pa ang tungkol sa science sa likod ng NLLB sa pamamagitan ng pagbabasa ng aming whitepaper at blog, at sa pag-download ng model para tulungan kaming pagbutihin pa ang project na ito.

Alamin pa ang tungkol sa science sa likod ng NLLB sa pamamagitan ng pagbabasa ng aming whitepaper at blog, at sa pag-download ng model pagbuitihin pa ang project na ito.

Ang Journey

Research milestones
Research milestones

Isinusulong ng Meta AI ang Machine Translation technology habang matagumpay na nalalampasan ang maraming hamon sa industriya sa proseso—mula sa pagiging hindi available ng data para sa mga wika na may kaunting resource hanggang sa kalidad ng pagta-translate at accuracy. Nagpapatuloy ang aming journey, habang hinihikayat namin ang pagiging kabilang sa pamamagitan ng power ng pagta-translate ng AI.

Isinusulong ng Meta AI ang Machine Translation technology habang matagumpay na nalalampasan ang maraming hamon sa industriya sa proseso—mula sa pagiging hindi available ng data para sa mga wika na may kaunting resource hanggang sa kalidad ng pagta-translate at accuracy. Nagpapatuloy ang aming journey, habang hinihikayat namin ang pagiging kabilang sa pamamagitan ng power ng pagta-translate ng AI.

Tingnan ang mga milestone ng model ayon sa # ng mga inilabas na wika

< 50 wika

50-99 na wika

100 wika

LASER (Language-agnostic sentence representations)

2018

Ang unang matagumpay na pag-explore ng malaking multilingual sentence representation na ibinahagi sa publiko sa NLP community. Gumagawa ng mga pag-embed ang encoder sa para awtomatikong ipares ang mga pangungusap na ibinabahagi ang parehong kahulugan sa 50 wika.

Mga Data Encoder

WMT-19

2019

Naging dobleng mas maganda ang performance ng mga model ng FB AI sa lahat ng iba pang model sa WMT 2019, gamit ang malawakang sampled na back translation, maingay na channel modeling at mga technique sa paglilinis ng data para tumulong bumuo ng matibay na system.

Model

Flores V1

2019

Ang benchmarking na dataset para sa MT sa pagitan ng Ingles at mga wika na may kaunting resource ay ipinapakikilala ang patas at masusing proseso ng pagsusuri, na nagsisimula sa 2 wika.

Dataset ng Pagsusuri

WikiMatrix

2019

Ang pinakamalaking extraction ng mga parallel na pangungusap sa maraming wika: Ang Bitext extraction ng 135 milyong pangungusap sa Wikipedia sa 1,620 pares ng wika para sa pagbuo ng mas magandang model ng pagta-translate.

Paggawa ng Data

M2M-100

2020

Ang una, isang model ng multilingual machine translation para direktang mag-translate sa pagitan ang alinman pares ng 100 wika nang hindi umaasa sa English data. Nagsanay sa 2,200 language direction —10x pa sa nakaraang mga model ng maraming wika.

Model

CCMatrix

2020

Ang pinakamalaking dataset ng mataas na kalidad, web-based na mga bitext para sa pagbuo ng mga model ng pagta-translate na gumagana sa mas maraming wika, lalo na sa mga wika na may kaunting resource: 4.5 bilyong parallel sentence sa 576 na mga pares ng wika.

Paggawa ng Data

LASER 2

2020

Gumagawa ng mga pag-embed sa para awtomatikong ipares ang mga pangungusap na nagbabahagi ng parehong kahulugan sa 100 wika.

Mga Data Encoder

WMT-21

2021

Para sa unang pagkakataon, naging dobleng mas maganda ang performance ng isang model ng maraming wika ang pinaka sinanay na mga bilingual model sa 10 ng 14 na pares ng wika para manalo ng WMT 2021, pagbibigay ng pinakamagandang pagta-translate sa mga wika na may kaunti at maraming resource.

Model

FLORES-101

2021

Ang FLORES-101 ay ang unang walang katulad, many-to-many na data set ng pagsusuri na kino-cover ang 101 wika, pinapayagan ang mga researcher na mabilis na subukan at humusay sa maraming wika na model ng pagta-translate tulad ng M2M-100.

Dataset ng Pagsusuri

NLLB-200

2022

Tina-translate ng NLLB model ang 200 wika.

Model

FLORES 200

2021

Ang pagpapalawak ng data set ng pagsusuri ng FLORES ay kino-cover ngayon ang 200 wika

Dataset ng Pagsusuri

NLLB-Data-200

2022

Ginawa at inilabas ang data sa pagsasanay para sa 200 wika

Dataset ng Pagsusuri

LASER 3

2022

Gumagawa ng mga pag-embed sa para awtomatikong i-pair up ang mga pangungusap na nagbabahagi ng parehong kahulugan sa 200 wika.

Mga Data Encoder

< 50 wika

50-100 wika

100 wika

LASER (Language-agnostic sentence representations)

2018

Ang unang matagumpay na pag-explore ng malaking multilingual sentence representation na ibinahagi sa publiko sa NLP community. Gumagawa ng mga pag-embed ang encoder sa para awtomatikong ipares ang mga pangungusap na ibinabahagi ang parehong kahulugan sa 50 wika.

Mga Data Encoder

WMT-19

2019

Naging dobleng mas maganda ang performance ng mga model ng FB AI sa lahat ng iba pang model sa WMT 2019, gamit ang malawakang sampled na back translation, maingay na channel modeling at mga technique sa paglilinis ng data para tumulong bumuo ng matibay na system.

Model

Flores V1

2019

Ang benchmarking na dataset para sa MT sa pagitan ng Ingles at mga wika na may kaunting resource ay ipinapakikilala ang patas at masusing proseso ng pagsusuri, na nagsisimula sa 2 wika.

Dataset ng Pagsusuri

WikiMatrix

2019

Ang pinakamalaking extraction ng mga parallel na pangungusap sa maraming wika: Ang Bitext extraction ng 135 milyong pangungusap sa Wikipedia sa 1,620 pares ng wika para sa pagbuo ng mas magandang model ng pagta-translate.

Paggawa ng Data

M2M-100

2020

Ang una, isang model ng multilingual machine translation para direktang mag-translate sa pagitan ang alinman pares ng 100 wika nang hindi umaasa sa English data. Nagsanay sa 2,200 language direction —10x pa sa nakaraang mga model ng maraming wika.

Model

CCMatrix

2020

Ang pinakamalaking dataset ng mataas na kalidad, web-based na mga bitext para sa pagbuo ng mga model ng pagta-translate na gumagana sa mas maraming wika, lalo na sa mga wika na may kaunting resource: 4.5 bilyong parallel sentence sa 576 na mga pares ng wika.

Paggawa ng Data

LASER 2

2020

Gumagawa ng mga pag-embed sa para awtomatikong ipares ang mga pangungusap na nagbabahagi ng parehong kahulugan sa 100 wika.

Mga Data Encoder

WMT-21

2021

Para sa unang pagkakataon, naging dobleng mas maganda ang performance ng isang model ng maraming wika ang pinaka sinanay na mga bilingual model sa 10 ng 14 na pares ng wika para manalo ng WMT 2021, pagbibigay ng pinakamagandang pagta-translate sa mga wika na may kaunti at maraming resource.

Model

FLORES-101

2021

Ang FLORES-101 ay ang unang walang katulad, many-to-many na data set ng pagsusuri na kino-cover ang 101 wika, pinapayagan ang mga researcher na mabilis na subukan at humusay sa maraming wika na model ng pagta-translate tulad ng M2M-100.

Dataset ng Pagsusuri

NLLB-200

2022

Tina-translate ng NLLB model ang 200 wika.

Model

FLORES 200

2021

Ang pagpapalawak ng data set ng pagsusuri ng FLORES ay kino-cover ngayon ang 200 wika

Dataset ng Pagsusuri

NLLB-Data-200

2022

Ginawa at inilabas ang data sa pagsasanay para sa 200 wika

Dataset ng Pagsusuri

LASER 3

2022

Gumagawa ng mga pag-embed sa para awtomatikong i-pair up ang mga pangungusap na nagbabahagi ng parehong kahulugan sa 200 wika.

Mga Data Encoder

Mula sa Assamese, Balinese and Estonian…hanggang sa Icelandic, Igbo at higit pa. 200 wika at nadaragdagan pa…

Tingnan ang buong listahan ng mga wikang sinusuportahan ng aming NLLB-200 model—na may kasamang 150 wikang may kaunting resource. Magdadagdag ng higit pa sa listahang ito habang nagpapatuloy kami at ang aming komunidad sa journey ng pagkakaroon ng inclusion na ito sa pamamagitan ng pagta-translate ng AI.

Buong listahan ng mga sinusuportahang wika

Acehnese (Latin script)

Arabic (Iraqi/Mesopotamian)

Arabic (Yemen)

Arabic (Tunisia)

Afrikaans

Arabic (Jordan)

Akan

Amharic

Arabic (Lebanon)

Arabic (MSA)

Arabic (Modern Standard Arabic)

Arabic (Saudi Arabia)

Arabic (Morocco)

Arabic (Egypt)

Assamese

Asturian

Awadhi

Aymara

Crimean Tatar

Welsh

Danish

German

French

Friulian

Fulfulde

Dinka(Rek)

Dyula

Dzongkha

Greek

Ingles

Esperanto

Estonian

Basque

Ewe

Faroese

Iranian Persian

Icelandic

Italian

Javanese

Japanese

Kabyle

Kachin | Jinghpo

Kamba

Kannada

Kashmiri (Arabic script)

Kashmiri (Devanagari script)

Georgian

Kanuri (Arabic script)

Kanuri (Latin script)

Kazakh

Kabiye

Thai

Khmer

Kikuyu

South Azerbaijani

North Azerbaijani

Bashkir

Bambara

Balinese

Belarusian

Bemba

Bengali

Bhojpuri

Banjar (Latin script)

Tibetan

Bosnian

Buginese

Bulgarian

Catalan

Cebuano

Czech

Chokwe

Central Kurdish

Fijian

Finnish

Fon

Scottish Gaelic

Irish

Galician

Guarani

Gujarati

Haitian Creole

Hausa

Hebrew

Hindi

Chhattisgarhi

Croatian

Hugarian

Armenian

Igobo

IIocano

Indonesian

Kinyarwanda

Kyrgyz

Kimbundu

Konga

Korean

Kurdish (Kurmanji)

Lao

Latvian (Standard)

Ligurian

Limburgish

Lingala

Lithuanian

Lombard

Latgalian

Luxembourgish

Luba-Kasai

Ganda

Dholuo

Mizo

Buong listahan ng mga sinusuportahang wika

Acehnese (Latin script)

Arabic (Iraqi/Mesopotamian)

Arabic (Yemen)

Arabic (Tunisia)

Afrikaans

Arabic (Jordan)

Akan

Amharic

Arabic (Lebanon)

Arabic (MSA)

Arabic (Modern Standard Arabic)

Arabic (Saudi Arabia)

Arabic (Morocco)

Arabic (Egypt)

Assamese

Asturian

Awadhi

Aymara

Crimean Tatar

Welsh

Danish

German

French

Friulian

Fulfulde

Dinka(Rek)

Dyula

Dzongkha

Greek

Ingles

Esperanto

Estonian

Basque

Ewe

Faroese

Iranian Persian

Icelandic

Italian

Javanese

Japanese

Kabyle

Kachin | Jinghpo

Kamba

Kannada

Kashmiri (Arabic script)

Kashmiri (Devanagari script)

Georgian

Kanuri (Arabic script)

Kanuri (Latin script)

Kazakh

Kabiye

Thai

Khmer

Kikuyu

South Azerbaijani

North Azerbaijani

Bashkir

Bambara

Balinese

Belarusian

Bemba

Bengali

Bhojpuri

Banjar (Latin script)

Tibetan

Bosnian

Buginese

Bulgarian

Catalan

Cebuano

Czech

Chokwe

Central Kurdish

Fijian

Finnish

Fon

Scottish Gaelic

Irish

Galician

Guarani

Gujarati

Haitian Creole

Hausa

Hebrew

Hindi

Chhattisgarhi

Croatian

Hugarian

Armenian

Igobo

IIocano

Indonesian

Kinyarwanda

Kyrgyz

Kimbundu

Konga

Korean

Kurdish (Kurmanji)

Lao

Latvian (Standard)

Ligurian

Limburgish

Lingala

Lithuanian

Lombard

Latgalian

Luxembourgish

Luba-Kasai

Ganda

Dholuo

Mizo

200 wika ang na-translate ng NLLB-200 model, 2x ng aming dati nang model

Ang aming final model ay may +44% BLEU performance improvement kumpara sa nakaraang state-of-the-art model

75 wika na dating hindi sinusuportahan ng mga commercial na system sa pagta-translate

18 bilyong parallel na pangungusap, 2.5x na mas maraming training data kaysa sa dating M2M-100 model

Pinakamalaking open-source na model ng machine translation na 54B, 5x ng bilang ng mga parameter na mas malaki kaysa sa dating M2M-100 na model

40,000 na direksyon sa pagta-translate na sinusuportahan ng iisang model—mahigit sa 4x ang kakayahan ng dati nang benchmark

Ang mga research advancement mula sa NLLB ay susuportahan ang mahigit sa 25 bilyong pagta-translate na inihahatid araw-araw sa Facebook News Feed, Instagram, at sa aming iba pang mga platform.

200 wika ang na-translate ng NLLB-200 model, 2x ng aming dati nang model

Ang aming final model ay may +44% BLEU performance improvement kumpara sa nakaraang state-of-the-art model

75 wika na dating hindi sinusuportahan ng mga commercial na system sa pagta-translate

18 bilyong parallel na pangungusap, 2.5x na mas maraming training data kaysa sa dating M2M-100 model

Pinakamalaking open-source na model ng machine translation na 54B, 5x ng bilang ng mga parameter na mas malaki kaysa sa dating M2M-100 na model

40,000 na direksyon sa pagta-translate na sinusuportahan ng iisang model—mahigit sa 4x ang kakayahan ng dati nang benchmark

Ang mga research advancement mula sa NLLB ay susuportahan ang mahigit sa 25 bilyong pagta-translate na inihahatid araw-araw sa Facebook News Feed, Instagram, at sa aming iba pang mga platform.

Alamin Pa

Sama-sama, gawin nating Kabilang ang Lahat ng Wika.

Marami pang dapat malaman tungkol sa NLLB, at higit pa para i-accomplish ito. Basahin ang aming whitepaper at blog para sa mga detalye, at i-download ang model para tulungan kaming pahusayin pa ang project na ito. Habang naabot namin ang 200 wika, nagsisimula pa lang kami. Samahan kami, at bumuo na kasama kami, habang nagpapatuloy kami sa mahalagang journey na ito ng pagta-translate at inclusion.