Tiada Bahasa Terkecuali (NLLB) ialah projek kemajuan AI pertama yang memberi keupayaan kepada model sumber terbuka untuk menyampaikan terjemahan berkualiti tinggi yang dinilai secara langsung antara 200 bahasa—termasuk bahasa sumber rendah seperti Asturian, Luganda, Urdu dan banyak lagi. Projek ini bertujuan untuk memberi peluang kepada orang ramai untuk mengakses dan berkongsi kandungan web dalam bahasa ibunda mereka dan berkomunikasi dengan sesiapa sahaja, di mana jua, tanpa mengira pilihan bahasa mereka.
Tiada Bahasa Terkecuali (NLLB) ialah projek kemajuan AI pertama yang memberi keupayaan kepada model sumber terbuka untuk menyampaikan terjemahan berkualiti tinggi yang dinilai secara langsung antara 200 bahasa—termasuk bahasa sumber rendah seperti Asturian, Luganda, Urdu dan banyak lagi. Projek ini bertujuan untuk memberi peluang kepada orang ramai untuk mengakses dan berkongsi kandungan web dalam bahasa ibunda mereka dan berkomunikasi dengan sesiapa sahaja, di mana jua, tanpa mengira pilihan bahasa mereka.
Kami komited untuk menyatukan orang ramai. Itulah sebabnya kami menggunakan teknik pemodelan dan pembelajaran daripada penyelidikan NLLB kami untuk menambah baik terjemahan bahasa sumber rendah di Facebook dan Instagram. Dengan menggunakan teknik dan pembelajaran ini pada sistem terjemahan pengeluaran kami, orang ramai akan dapat membuat hubungan yang lebih sahih dan lebih bermakna dalam bahasa pilihan atau bahasa ibunda mereka. Pada masa hadapan, kami berharap dapat melanjutkan pembelajaran kami daripada NLLB kepada lebih banyak aplikasi Meta.
Semasa kami membina metaverse, menyepadukan terjemahan teks AR/VR masa nyata dalam ratusan bahasa ialah satu keutamaan. Matlamat kami adalah untuk menetapkan standard rangkuman baharu—di mana suatu hari nanti semua orang boleh mempunyai akses kepada kandungan, peranti dan pengalaman dunia maya, berserta keupayaan untuk berkomunikasi dengan sesiapa sahaja, dalam mana-mana bahasa dalam metaverse. Dan dari semasa ke semasa, menyatukan orang ramai pada skala global.
Teknologi di sebalik model NLLB-200, kini tersedia melalui alat Terjemahan Kandungan Yayasan Wikimedia, menyokong penyunting Wikipedia semasa mereka menterjemahkan maklumat ke dalam bahasa ibunda dan bahasa pilihan mereka. Penyunting Wikipedia menggunakan teknologi untuk menterjemah dan menyunting artikel yang berasal daripada bahasa lain yang kurang diwakili dengan lebih cekap, seperti Luganda dan Iceland. Ini membantu untuk menyediakan lebih banyak pengetahuan dalam lebih banyak bahasa untuk pembaca Wikipedia di seluruh dunia. Model NLLB-200 sumber terbuka juga akan membantu penyelidik dan komuniti penyunting Wikipedia yang berminat melakar kejayaan dengan usaha kami.
Alami kuasa terjemahan AI dengan Cerita yang Diceritakan Melalui Terjemahan, demo kami yang menggunakan kemajuan AI terkini daripada projek No Language Left Behind. Demo ini menterjemah buku daripada bahasa asal mereka seperti bahasa Indonesia, bahasa Somalia dan bahasa Burma, ke dalam lebih banyak bahasa untuk pembaca—dengan ratusan bahasa tersedia dalam beberapa bulan akan datang. Melalui inisiatif ini, NLLB-200 akan menjadi model AI pertama yang mampu menterjemahkan sastera pada skala ini.
Oleh Su Nyein Chan
Seorang petani tinggal di sebuah kampung yang hanya menanam bunga ros merah. Apakah yang akan berlaku apabila dia menanam benih aneh dari kotak yang ditemukan di ruang bawah tanahnya?
Oleh Prum Kunthearo
Apabila anak gajah berlari masuk ke dalam rumah mereka, Botom cemburu dengan perhatian yang diterimanya. Bolehkah Botom menyingkirkan gajah itu, atau adakah dia akan berkawan dengan makhluk yang disayangi itu juga?
oleh Nabila Adani
Seorang gadis mendapat inspirasi daripada tugasan sekolah untuk memikirkan cita-citanya apabila dewasa kelak. Apakah bentuk inspirasi yang akan mendorong pemilihan cita-citanya?
Oleh Mohammed Umar
Samad menyayangi haiwan. Impiannya adalah untuk bersantai sepanjang hari di dalam hutan dan tidur di rumah pokok. Ikuti Samad sepanjang pengembaraan ini di mana beliau mendapat rakan baharu yang hebat dan penemuan yang menakjubkan. Mengembara memasuki hutan sangat menyeronokkan.
Oleh Wulan Mulya Pratiwi
Putera raja tersesat di dalam hutan. Seekor harimau sedang menjejakinya. Apakah yang akan dilakukan oleh baginda?
Data latihan yang dikumpulkan mengandungi ayat dalam bahasa input dan bahasa output yang dikehendaki.
Selepas mencipta data latihan yang sejajar untuk ribuan arah latihan, data ini dimasukkan ke dalam saluran latihan model kami. Model ini terdiri daripada dua bahagian: pengekod, yang menukarkan ayat input kepada perwakilan vektor dalaman; dan penyahkod, yang mengambil perwakilan vektor dalaman ini dan menjana ayat output dengan tepat. Dengan melatih jutaan terjemahan contoh, model belajar untuk menjana terjemahan yang lebih tepat.
Akhir sekali, kami menilai model kami terhadap set terjemahan ayat yang diterjemah oleh manusia untuk mengesahkan bahawa kami berpuas hati dengan kualiti terjemahan. Ini termasuk mengesan dan menapis perkataan kesat dan kandungan menyinggung lain melalui penggunaan senarai ketoksikan yang kami bina untuk semua bahasa yang disokong. Hasilnya ialah model terlatih yang dapat menterjemah bahasa secara langsung.
Data latihan yang dikumpulkan mengandungi ayat dalam bahasa input dan bahasa output yang dikehendaki.
Selepas mencipta data latihan yang sejajar untuk ribuan arah latihan, data ini dimasukkan ke dalam saluran latihan model kami. Model ini terdiri daripada dua bahagian: pengekod, yang menukarkan ayat input kepada perwakilan vektor dalaman; dan penyahkod, yang mengambil perwakilan vektor dalaman ini dan menjana ayat output dengan tepat. Dengan melatih jutaan terjemahan contoh, model belajar untuk menjana terjemahan yang lebih tepat.
Akhir sekali, kami menilai model kami terhadap set terjemahan ayat yang diterjemah oleh manusia untuk mengesahkan bahawa kami berpuas hati dengan kualiti terjemahan. Ini termasuk mengesan dan menapis perkataan kesat dan kandungan menyinggung lain melalui penggunaan senarai ketoksikan yang kami bina untuk semua bahasa yang disokong. Hasilnya ialah model terlatih yang dapat menterjemah bahasa secara langsung.
MT ialah tugas pembelajaran yang diselia, yang bermaksud model memerlukan data untuk dipelajari. Contoh terjemahan daripada koleksi data sumber terbuka sering digunakan. Penyelesaian kami adalah untuk membina padanan terjemahan secara automatik dengan memadankan ayat dalam koleksi dokumen ekabahasa yang berbeza.
Model LASER yang digunakan untuk proses penciptaan set data ini terutamanya menyokong bahasa sumber sederhana hingga tinggi, menjadikan ini mustahil untuk menghasilkan padanan terjemahan yang tepat untuk bahasa sumber rendah.
Sistem MT berbilang bahasa telah ditambah baik berbanding dengan sistem dwibahasa. Ini disebabkan oleh keupayaan mereka untuk mendayakan "pemindahan" daripada padanan bahasa dengan banyak data latihan, kepada bahasa lain dengan sumber latihan yang lebih sedikit.
Melatih bersama ratusan padanan bahasa sekali gus terdapat kelemahannya, kerana model yang sama mestilah mewakili bilangan bahasa yang semakin besar dengan bilangan parameter yang sama. Ini ialah isu yang berlaku apabila saiz set data tidak seimbang, kerana ini boleh menyebabkan terlampau padan.
Untuk mengetahui sama ada terjemahan yang dihasilkan oleh model kami memenuhi piawaian kualiti kami, kami perlu membuat penilaian.
Model terjemahan mesin biasanya dinilai dengan membandingkan ayat terjemahan mesin dengan terjemahan manusia, namun untuk kebanyakan bahasa, data terjemahan yang boleh dipercayai tidak tersedia. Jadi penilaian yang tepat tidak dapat dilakukan.
Ketahui lebih lanjut tentang sains di sebalik NLLB dengan membaca kertas putih dan blog kami dan dengan memuat turun model untuk membantu kami meneruskan projek ini.
Lihat peristiwa penting model mengikut # bahasa yang dikeluarkan
Penerokaan pertama yang berjaya bagi perwakilan ayat berbilang bahasa dikongsi secara terbuka dengan komuniti NLP. Pengekod mencipta benaman untuk memadankan ayat yang berkongsi makna yang sama dalam 50 bahasa secara automatik.
Model AI FB mengatasi semua model lain di WMT 2019, menggunakan penterjemahan balik sampel berskala besar, pemodelan saluran hingar dan teknik pembersihan data untuk membantu membina sistem yang kukuh.
Set data penandaan aras untuk MT antara bahasa Inggeris dengan bahasa sumber rendah yang memperkenalkan proses penilaian yang adil dan rapi, bermula dengan 2 bahasa.
Pengekstrakan terbesar bagi ayat selari merentasi berbilang bahasa: Pengekstrakan biteks sebanyak 135 juta ayat Wikipedia dalam 1,620 padanan bahasa untuk membina model terjemahan yang lebih baik.
Model terjemahan mesin berbilang bahasa tunggal yang pertama untuk menterjemah secara langsung antara mana-mana padanan 100 bahasa tanpa bergantung pada data bahasa Inggeris. Dilatih berdasarkan 2,200 arah bahasa —10x lebih banyak daripada model berbilang bahasa terdahulu.
Set data terbesar bagi biteks berasaskan web berkualiti tinggi untuk membina model terjemahan yang lebih baik yang berfungsi dengan lebih banyak bahasa, terutamanya bahasa sumber rendah: 4.5 bilion ayat selari dalam 576 padanan bahasa.
Mencipta benaman untuk memadankan ayat yang berkongsi makna yang sama dalam 100 bahasa secara automatik.
Buat kali pertama, model berbilang bahasa tunggal mengatasi model dwibahasa terlatih khas yang terbaik merentasi 10 daripada 14 padanan bahasa untuk memenangi WMT 2021, menyediakan terjemahan yang terbaik untuk bahasa sumber rendah dan tinggi.
FLORES-101 ialah set data penilaian yang pertama seumpamanya dan banyak dengan banyak yang meliputi 101 bahasa, mendayakan penyelidik menguji serta menambah baik model terjemahan berbilang bahasa seperti M2M-100 dengan pantas.
Model NLLB menterjemah 200 bahasa.
Pengembangan set data penilaian FLORES kini meliputi 200 bahasa
Data latihan yang disusun dan dikeluarkan untuk 200 bahasa
Mencipta benaman untuk memadankan ayat yang berkongsi makna yang sama dalam 200 bahasa secara automatik.
< 50 bahasa
50-100 bahasa
100 bahasa
200 bahasa
Penerokaan pertama yang berjaya bagi perwakilan ayat berbilang bahasa dikongsi secara terbuka dengan komuniti NLP. Pengekod mencipta benaman untuk memadankan ayat yang berkongsi makna yang sama dalam 50 bahasa secara automatik.
Model AI FB mengatasi semua model lain di WMT 2019, menggunakan penterjemahan balik sampel berskala besar, pemodelan saluran hingar dan teknik pembersihan data untuk membantu membina sistem yang kukuh.
Set data penandaan aras untuk MT antara bahasa Inggeris dengan bahasa sumber rendah yang memperkenalkan proses penilaian yang adil dan rapi, bermula dengan 2 bahasa.
Pengekstrakan terbesar bagi ayat selari merentasi berbilang bahasa: Pengekstrakan biteks sebanyak 135 juta ayat Wikipedia dalam 1,620 padanan bahasa untuk membina model terjemahan yang lebih baik.
Model terjemahan mesin berbilang bahasa tunggal yang pertama untuk menterjemah secara langsung antara mana-mana padanan 100 bahasa tanpa bergantung pada data bahasa Inggeris. Dilatih berdasarkan 2,200 arah bahasa —10x lebih banyak daripada model berbilang bahasa terdahulu.
Set data terbesar bagi biteks berasaskan web berkualiti tinggi untuk membina model terjemahan yang lebih baik yang berfungsi dengan lebih banyak bahasa, terutamanya bahasa sumber rendah: 4.5 bilion ayat selari dalam 576 padanan bahasa.
Mencipta benaman untuk memadankan ayat yang berkongsi makna yang sama dalam 100 bahasa secara automatik.
Buat kali pertama, model berbilang bahasa tunggal mengatasi model dwibahasa terlatih khas yang terbaik merentasi 10 daripada 14 padanan bahasa untuk memenangi WMT 2021, menyediakan terjemahan yang terbaik untuk bahasa sumber rendah dan tinggi.
FLORES-101 ialah set data penilaian yang pertama seumpamanya dan banyak dengan banyak yang meliputi 101 bahasa, mendayakan penyelidik menguji serta menambah baik model terjemahan berbilang bahasa seperti M2M-100 dengan pantas.
Model NLLB menterjemah 200 bahasa.
Pengembangan set data penilaian FLORES kini meliputi 200 bahasa
Data latihan yang disusun dan dikeluarkan untuk 200 bahasa
Mencipta benaman untuk memadankan ayat yang berkongsi makna yang sama dalam 200 bahasa secara automatik.
Acehnese (Latin script)
Arabic (Iraqi/Mesopotamian)
Arabic (Yemen)
Arabic (Tunisia)
Afrikaans
Arabic (Jordan)
Akan
Amharic
Arabic (Lebanon)
Arabic (MSA)
Arabic (Modern Standard Arabic)
Arabic (Saudi Arabia)
Arabic (Morocco)
Arabic (Egypt)
Assamese
Asturian
Awadhi
Aymara
Crimean Tatar
Welsh
Danish
German
French
Friulian
Fulfulde
Dinka(Rek)
Dyula
Dzongkha
Greek
English
Esperanto
Estonian
Basque
Ewe
Faroese
Iranian Persian
Icelandic
Italian
Javanese
Japanese
Kabyle
Kachin | Jinghpo
Kamba
Kannada
Kashmiri (Arabic script)
Kashmiri (Devanagari script)
Georgian
Kanuri (Arabic script)
Kanuri (Latin script)
Kazakh
Kabiye
Thai
Khmer
Kikuyu
South Azerbaijani
North Azerbaijani
Bashkir
Bambara
Balinese
Belarusian
Bemba
Bengali
Bhojpuri
Banjar (Latin script)
Tibetan
Bosnian
Buginese
Bulgarian
Catalan
Cebuano
Czech
Chokwe
Central Kurdish
Fijian
Finnish
Fon
Scottish Gaelic
Irish
Galician
Guarani
Gujarati
Haitian Creole
Hausa
Hebrew
Hindi
Chhattisgarhi
Croatian
Hugarian
Armenian
Igobo
IIocano
Indonesian
Kinyarwanda
Kyrgyz
Kimbundu
Konga
Korean
Kurdish (Kurmanji)
Lao
Latvian (Standard)
Ligurian
Limburgish
Lingala
Lithuanian
Lombard
Latgalian
Luxembourgish
Luba-Kasai
Ganda
Dholuo
Mizo
Foundational models
Latest news
Foundational models