「不遺漏任何語言」(NLLB)是真正創新、運用人工智慧(AI)突破技術瓶頸的專案,這些開放原始碼的模型能夠直接在 200 種語言之間,提供經過評估的高品質翻譯內容,包括阿斯圖里亞斯文、盧干達文、烏爾都文等資源匱乏的語言。這個專案旨在讓用戶能以自己的母語存取使用及分享網路內容,以及與任何地方的任何人溝通交流,無論他們偏好使用哪一種語言。
「不遺漏任何語言」(NLLB)是真正創新、運用人工智慧突破技術瓶頸的專案,這些開放原始碼的模型能夠直接在 200 種語言之間,提供經過評估的高品質翻譯內容,包括阿斯圖里亞斯文、盧干達文、烏爾都文等資源匱乏的語言。這個專案旨在讓用戶能以自己的母語存取使用及分享網路內容,以及與任何地方的任何人溝通交流,無論他們偏好使用哪一種語言。
我們致力於拉近人們的距離。因此,我們運用各種模型建立技術以及從 NLLB 研究所得的成果,改善 Facebook 和 Instagram 上資源匱乏語言的翻譯品質。透過將這些技術和學習成果應用到我們實際使用的翻譯系統,用戶將能以自己慣用的語言或母語,建立更真實且更有意義的人際關係。未來,我們希望能將透過 NLLB 取得的學習成果擴大至更多 Meta 應用程式。
我們打造元宇宙的首要工作,就是整合涵蓋數百種語言的即時 AR/VR 文字翻譯內容。我們的目標是設定兼容並蓄的新標準,希望有一天讓所有人都能存取虛擬世界的內容、裝置和體驗,而且能夠在元宇宙中以任何語言與任何人溝通交流。隨著時間推移,就能逐漸拉近全球人們之間的距離。
維基百科的編輯現在可以透過維基媒體基金會(Wikimedia Foundation)的內容翻譯工具運用 NLLB-200 模型背後的技術,將資訊翻譯成他們的母語或慣用語言。維基百科的編輯可運用這項技術有效率地翻譯和編輯源自其他使用人口較少的語言的文章,例如盧干達文和冰島文等等。這樣就能透過更多的語言,為世界各地的維基百科讀者提供更多知識。此外,這個開放原始碼 NLLB-200 模型也能協助研究人員和感興趣的維基百科編輯以我們的工作成果為基礎建立社群。
「透過翻譯說故事」(Stories Told Through Translation)是使用「不遺漏任何語言」(No Language Left Behind,NLLB)計畫最新 AI 研究進展的示範,歡迎由此體驗 AI 翻譯的能力。此示範能將書籍由原本的語言(例如印尼文、索馬利文和緬甸文)翻譯成更多語言供讀者閱讀,並將於接下來數個月內提供上百種語言。透過此計畫,NLLB-200 將成為史上第一個能以如此規模翻譯文學作品的 AI 模型。
針對數以千計的訓練方向建立對應的訓練資料後,這些資料會饋送至我們的模型訓練管道。這些模型由兩個部分組成:一個是編碼器,可將輸入的句子轉換為內部向量表示;另一個則是解碼器,可擷取此內部向量表示並產生準確的輸出句子。藉由使用數百萬的翻譯範例進行訓練,模型就能透過學習產生更準確的翻譯內容。
最後,我們會使用一組人工翻譯的句子來評估模型,以確認翻譯品質能夠令人滿意。這包括透過利用我們為所有支援語言建立的負面內容清單,偵測及篩選出褻瀆詞語和其他有冒犯性的內容。如此得到的結果就是能夠直接翻譯語言、訓練有素的模型。
針對數以千計的訓練方向建立對應的訓練資料後,這些資料會饋送至我們的模型訓練管道。這些模型由兩個部分組成:一個是編碼器,可將輸入的句子轉換為內部向量表示;另一個則是解碼器,可擷取此內部向量表示並產生準確的輸出句子。藉由使用數百萬的翻譯範例進行訓練,模型就能透過學習產生更準確的翻譯內容。
最後,我們會使用一組人工翻譯的句子來評估模型,以確認翻譯品質能夠令人滿意。這包括透過利用我們為所有支援語言建立的負面內容清單,偵測及篩選出褻瀆詞語和其他有冒犯性的內容。如此得到的結果就是能夠直接翻譯語言、訓練有素的模型。
機器翻譯是一項受監督的學習工作,這意味著模型需要資料方能從中學習,過去使用的往往是透過開放原始碼資料蒐集而來的翻譯範例。而我們的解決方案是比對單語言文件不同資料集中的句子,藉此自動建構翻譯配對。
這項資料集建立程序所用的 LASER 模型主要支援擁有中量至大量資源的語言,欲針對資源匱乏的語言產生意義精準的翻譯配對近乎不可能。
相較於雙語言系統,多語言機器翻譯系統的翻譯能力多有進展。這是因為多語言機器翻譯系統能夠從訓練資料豐富的語言組合「移轉」至其他訓練資源較少的語言。
聯合訓練數百個語言組合有其缺點,因為同一個模型將須使用相同數目的參數來代表數量漸增的語言。當資料集大小不均時,就會產生問題,因為這可能會導致過度配適。
為瞭解由模型產生的翻譯內容是否符合品質標準,我們必須加以評估。
機器翻譯模型的評估方式通常是將機器翻譯的句子與人工翻譯的句子比較,但是許多語言都無法提供可信賴的翻譯資料,因此無法進行準確的評估。
依據已發佈的語言數量查看模型里程碑
針對大量多語言語句表述的首個成功研究,在此與 NLP 社群公開分享。當中的編碼器會透過建立嵌入內容,自動將 50 種語言中意義相同的句子配對。
FB AI 模型的表現在 WMT 2019 中勝過所有其他模型,它們採用了大規模取樣的反向翻譯、雜訊管道建模,以及資料清除技術來打造功能強大的系統。
英文與資源匱乏語言之間的機器翻譯基準分析資料集引入了公平且嚴格的評估程序(從 2 種語言開始)。
多種語言之間最大規模的平行語句擷取作業:針對維基百科的 1.35 億個語句,進行 1,620 個語言組合的雙語文本擷取作業,以打造更好的翻譯模型。
第一個能在不使用英文資料的情況下,直接對譯 100 種語言之中任意兩種語言的單一多語言機器翻譯模型。這個模型經過了 2,200 種語言方向的訓練,較先前的多語言模型多出 10 倍。
以網頁為基礎的高品質雙語文本資料集中的最大者,用於建立能處理更多語言的優質翻譯模型,特別是資源匱乏語言:576 個語言組合中的 45 億個平行結構語句。
透過建立嵌入內容,自動將 100 種語言中意義相同的句子配對。
單一多語言模型首次超越經過特殊訓練的最佳雙語言模型,在 14 種語言組合當中的 10 種提出更為優質的翻譯,贏得 WMT 2021 的殊榮,針對資源匱乏和資源充足的語言均能提供最佳翻譯內容。
FLORES-101 是首個多對多評估資料集,範圍涵蓋 101 種語言,能讓研究人員快速測試並改善 M2M-100 等多語言翻譯模型。
NLLB 模型可翻譯 200 種語言。
擴充 FLORES 評估資料集的內容,現在涵蓋 200 種語言
建構與發佈 200 種語言的訓練資料
透過建立嵌入內容,自動將 200 種語言中意義相同的句子配對。
少於 50 種語言
50 到 100 種語言
100 種語言
200 種語言
針對大量多語言語句表述的首個成功研究,在此與 NLP 社群公開分享。編碼器透過建立嵌入內容,自動將 50 種語言中意義相同的句子配對。
FB AI 模型的表現在 WMT 2019 中勝過所有其他模型,它採用了大規模取樣的反向翻譯、雜訊管道建模,以及資料清除技術來打造功能強大的系統。
英文與資源匱乏語言之間的機器翻譯基準分析資料集引入了公平且嚴格的評估程序,從 2 種語言開始。
多種語言之間最大規模的平行語句擷取作業:針對維基百科的 1.35 億個語句,進行 1,620 個語言組合的雙語文本擷取作業,以打造更好的翻譯模型。
第一個能在不使用英文資料的情況下,直接對譯 100 種語言之中任意兩種語言的單一多語言機器翻譯模型。這個模型經過了 2,200 種語言方向的訓練,超過先前多語言模型的 10 倍。
以網頁為基礎的高品質雙語文本資料集中的最大者,用於建立能處理更多語言的優質翻譯模型,特別是資源匱乏語言:576 個語言組合中的 45 億個平行結構語句。
透過建立嵌入內容,自動將 100 種語言中意義相同的句子配對。
單一多語言模型首次超越經過特殊訓練的最佳雙語言模型,在 14 種語言組合當中的 10 種提出更為優質的翻譯,贏得 WMT 2021 的殊榮,針對資源匱乏和資源充足的語言均能提供最佳翻譯內容。
FLORES-101 是首個多對多評估資料集,範圍涵蓋 101 種語言,能讓研究人員快速測試並改善 M2M-100 等多語言翻譯模型。
NLLB 模型可翻譯 200 種語言。
擴充 FLORES 評估資料集的內容,現在涵蓋 200 種語言
建構與發佈 200 種語言的訓練資料
透過建立嵌入內容,自動將 200 種語言中意義相同的句子配對。
Acehnese (Latin script)
Arabic (Iraqi/Mesopotamian)
Arabic (Yemen)
Arabic (Tunisia)
Afrikaans
Arabic (Jordan)
Akan
Amharic
Arabic (Lebanon)
Arabic (MSA)
Arabic (Modern Standard Arabic)
Arabic (Saudi Arabia)
Arabic (Morocco)
Arabic (Egypt)
Assamese
Asturian
Awadhi
Aymara
Crimean Tatar
Welsh
Danish
German
French
Friulian
Fulfulde
Dinka(Rek)
Dyula
Dzongkha
Greek
English
Esperanto
Estonian
Basque
Ewe
Faroese
Iranian Persian
Icelandic
Italian
Javanese
Japanese
Kabyle
Kachin | Jinghpo
Kamba
Kannada
Kashmiri (Arabic script)
Kashmiri (Devanagari script)
Georgian
Kanuri (Arabic script)
Kanuri (Latin script)
Kazakh
Kabiye
Thai
Khmer
Kikuyu
South Azerbaijani
North Azerbaijani
Bashkir
Bambara
Balinese
Belarusian
Bemba
Bengali
Bhojpuri
Banjar (Latin script)
Tibetan
Bosnian
Buginese
Bulgarian
Catalan
Cebuano
Czech
Chokwe
Central Kurdish
Fijian
Finnish
Fon
Scottish Gaelic
Irish
Galician
Guarani
Gujarati
Haitian Creole
Hausa
Hebrew
Hindi
Chhattisgarhi
Croatian
Hugarian
Armenian
Igobo
IIocano
Indonesian
Kinyarwanda
Kyrgyz
Kimbundu
Konga
Korean
Kurdish (Kurmanji)
Lao
Latvian (Standard)
Ligurian
Limburgish
Lingala
Lithuanian
Lombard
Latgalian
Luxembourgish
Luba-Kasai
Ganda
Dholuo
Mizo
Foundational models
Latest news
Foundational models