No Language Left Behind (NLLB)は、アストゥリアス語、ルガンダ語、ウルドゥー語のようなリソースの少ない言語を含む200の言語間で、評価済みの高品質の翻訳を直接提供できるモデルをオープンソース化する史上初の画期的なAIプロジェクトです。その狙いは、ウェブコンテンツを母国語で利用・共有できる機会を人々に提供し、あらゆる場所で誰とでも使用言語を問わずにコミュニケーションできるようにすることにあります。
No Language Left Behind (NLLB)は、アストゥリアス語、ルガンダ語、ウルドゥー語のようなリソースの少ない言語を含む200の言語間で、評価済みの高品質の翻訳を直接提供できるモデルをオープンソース化する史上初の画期的なAIプロジェクトです。その狙いは、ウェブコンテンツを母国語で利用・共有できる機会を人々に提供し、あらゆる場所で誰とでも使用言語を問わずにコミュニケーションできるようにすることにあります。
Meta AIは、人と人がより身近になる世界の実現に取り組んでいます。そのために、NLLBの研究から得たモデリングの手法や学習成果を活用して、FacebookとInstagramで低リソース言語の翻訳品質を高めています。こうした手法や学習成果を実際の翻訳システムに適用することで、人々が自分の使用言語や母国語を使って信頼できる有意義なつながりを築けるようになります。将来的には、NLLBによる学習成果をより多くのMetaのアプリで活用したいと考えています。
Metaがメタバースを構築するうえで優先しているのは、ARやVRのテキストを何百もの言語でリアルタイムに翻訳できる機能を組み込むことです。その狙いは、誰もがVRのコンテンツ、デバイス、体験にアクセスし、メタバース内であらゆる人とあらゆる言語でコミュニケーションできるという、インクルージョンの新たなスタンダードを確立することにあります。これが実現すれば、やがて地球規模で人々を結び付けられるようになるでしょう。
NLLB-200モデルを支えるテクノロジーがWikimedia財団のコンテンツ翻訳ツールで利用できるようになり、Wikipedia編集者は情報を自分の母国語や使用言語に簡単に翻訳できるようになりました。このテクノロジーを使うことで、Wikipediaの編集者は、ルガンダ語やアイスランド語のような利用者の少ない言語で作成された記事をより効率的に翻訳・編集できます。また、世界中にいるWikipediaユーザーも、より多くの言語でより多くの知識にアクセスできるようになります。今後は、研究者やこのプロジェクトに関心を持つWikipedia編集者がMetaの取り組みを活用する場合にも、オープンソースのNLLB-200モデルが役立つことになるでしょう。
「翻訳が伝える物語」で、AI翻訳の力を体験しましょう。No Language Left Behindプロジェクトが達成したAIの最新の成果を活用したデモをご覧ください。このデモは、インドネシア語、ソマリア語、ビルマ語などで書かれた絵本をさまざまな言語で翻訳して読者にお届けします。今後数か月のうちに数百の言語で翻訳が提供されます。この取り組みを通じて、NLLB-200は今までにない規模で文学作品を翻訳できる初のAIモデルとなる見込みです。
数千の学習方向に合わせて調整した学習データを作成し、このデータをMetaのモデルの学習パイプラインに組み込みます。このモデルは、エンコーダーとデコーダーという2つの要素で構成されています。エンコーダーは入力文を内部ベクトル表現に変換し、デコーダーはこの内部ベクトル表現を使って正確な出力文を生成します。膨大な数の翻訳例を学習することで、モデルはより正確な翻訳を生成できるようになります。
最後に、Metaのモデルを人による翻訳文のセットと比較して評価し、翻訳品質が満足できるものであることを確認します。この際、すべてのサポート言語向けに構築された有害リストを使って、不適切な内容やその他の攻撃的な内容を検出・除去します。その結果、適切に訓練されたモデルで、言語を直接翻訳できるようになります。
数千の学習方向に合わせて調整した学習データを作成し、このデータをMetaのモデルの学習パイプラインに組み込みます。このモデルは、エンコーダーとデコーダーという2つの要素で構成されています。エンコーダーは入力文を内部ベクトル表現に変換し、デコーダーはこの内部ベクトル表現を使って正確な出力文を生成します。膨大な数の翻訳例を学習することで、モデルはより正確な翻訳を生成できるようになります。
最後に、Metaのモデルを人による翻訳文のセットと比較して評価し、翻訳品質が満足できるものであることを確認します。この際、すべてのサポート言語向けに構築された有害リストを使って、不適切な内容やその他の攻撃的な内容を検出・除去します。その結果、適切に訓練されたモデルで、言語を直接翻訳できるようになります。
MTは教師あり学習のタスクなので、モデルの学習に使用するデータが必要となります。よく使用されるのは、オープンソースデータから収集した翻訳例です。Metaのソリューションでは、単一言語のさまざまなドキュメントから収集した文章をペアリングすることで、翻訳ペアを自動的に構築しています。
このデータセット作成プロセスに使用されるLASERモデルは、リソースがある程度以上に豊富な言語を主にサポートしているため、リソースの少ない言語では正確な翻訳ペアを生成できません。
多言語MTシステムは、2言語MTシステムに比べて改良が進んでいます。その理由は、学習データの豊富な言語ペアから学習リソースの少ない他の言語への「転移」が可能だからです。
数百の言語ペアの学習をまとめて行うことには、デメリットがあります。それは、同じモデルで同じ数のパラメーターを使って、より多くの言語を表現しなければならないことです。そのため、データセットのサイズに不均衡があると、過剰適合の問題が発生する可能性があります。
モデルによって生成された翻訳が品質基準を満たしているかを知るには、その翻訳を評価する必要があります。
機械翻訳モデルでは、機械が翻訳した文章を人による翻訳と比較して評価するのが通常ですが、多くの言語では信頼できる翻訳データを入手できません。そのため、正確な評価が不可能となっています。
各モデルのマイルストーンをサポート言語数で表示
多言語の文章表現を膨大な規模で調査することに初めて成功し、その成果をNLPコミュニティに公開しました。このエンコーダーは、50の言語で同じ意味の文章を自動でペアリングする埋め込みを作成します。
WMT 2019では、FacebookのAIモデルのパフォーマンスが他のすべてのモデルを上回りました。これは、大規模なサンプリングによる逆翻訳、ノイズの多いチャネルのモデリング、およびデータクリーニング技術を活用して構築された強力なシステムです。
これは英語と低リソース言語間の機械翻訳に利用できるベンチマークデータセットで、2つの言語から始まる公正で厳密な評価プロセスを導入しています。
複数の言語で過去最多の並列文を抽出しました。具体的には、Wikipediaの1億3,500万件の文章を対象に、1,620の言語ペアで対訳を抽出し、より優れた翻訳モデルを構築しています。
単一の多言語機械翻訳モデルとして初めて、英語データに依存することなく、100の任意の言語ペアの間で直接翻訳を可能にしました。モデルの学習は2,200の言語方向で行われましたが、これは従来の多言語翻訳モデルの10倍です。
これは高品質なウェブベースの対訳を含む最大規模のデータセットであり、特に低リソース言語をはじめとするより多くの言語で、より優れた翻訳モデルを構築します。具体的には、576の言語ペアに対応する45億件の並列文が含まれています。
100の言語で同じ意味の文章を自動でペアリングする埋め込みを作成します。
WMT 2021では、単一の多言語モデルのパフォーマンスが初めて、特別に訓練された2言語モデルを14の言語ペアのうち10のペアで上回り、リソースの少ない言語と多い言語の両方で最高レベルの翻訳を提供しました。
FLORES-101は、101の言語をサポートする初めての多対多の評価データセットです。研究者はこれを使うことで、M2M-100などの多言語翻訳モデルのテストや改善をすばやく実施できます。
NLLBモデルは200の言語を翻訳します。
これはFLORESの評価データセットを拡張したもので、現在200の言語をサポートしています。
200の言語をカバーする学習データを構築し、公開しました。
200の言語で同じ意味の文章を自動でペアリングする埋め込みを作成します。
50言語未満
50~100言語
100言語
200言語
多言語の文章表現を膨大な規模で調査することに初めて成功し、その成果をNLPコミュニティに公開しました。このエンコーダーは、50の言語で同じ意味の文章を自動でペアリングする埋め込みを作成します。
WMT 2019では、FacebookのAIモデルのパフォーマンスが他のすべてのモデルを上回りました。これは、大規模なサンプリングによる逆翻訳、ノイズの多いチャネルのモデリング、およびデータクリーニング技術を活用して構築された強力なシステムです。
これは英語と低リソース言語間の機械翻訳に利用できるベンチマークデータセットで、2つの言語から始まる公正で厳密な評価プロセスを導入しています。
複数の言語で過去最多の並列文を抽出しました。具体的には、Wikipediaの1億3,500万件の文章を対象に、1,620の言語ペアで対訳を抽出し、より優れた翻訳モデルを構築しています。
単一の多言語機械翻訳モデルとして初めて、英語データに依存することなく、100の任意の言語ペアの間で直接翻訳を可能にしました。モデルの学習は2,200の言語方向で行われましたが、これは従来の多言語翻訳モデルの10倍です。
これは高品質なウェブベースの対訳を含む最大規模のデータセットであり、低リソース言語をはじめとするより多くの言語で、より優れた翻訳モデルを構築します。具体的には、576の言語ペアに対応する45億件の並列文が含まれています。
100の言語で同じ意味の文章を自動でペアリングする埋め込みを作成します。
WMT 2021では、単一の多言語モデルのパフォーマンスが初めて、特別に訓練された2言語モデルを14の言語ペアのうち10のペアで上回り、リソースの少ない言語と多い言語の両方で最高レベルの翻訳を提供しました。
FLORES-101は、101の言語をサポートする初めての多対多の評価データセットです。研究者はこれを使うことで、M2M-100などの多言語翻訳モデルのテストや改善をすばやく実施できます。
NLLBモデルは200の言語を翻訳します。
これはFLORESの評価データセットを拡張したもので、現在200の言語をサポートしています。
200の言語をカバーする学習データを構築し、公開しました。
200の言語で同じ意味の文章を自動でペアリングする埋め込みを作成します。
Acehnese (Latin script)
Arabic (Iraqi/Mesopotamian)
Arabic (Yemen)
Arabic (Tunisia)
Afrikaans
Arabic (Jordan)
Akan
Amharic
Arabic (Lebanon)
Arabic (MSA)
Arabic (Modern Standard Arabic)
Arabic (Saudi Arabia)
Arabic (Morocco)
Arabic (Egypt)
Assamese
Asturian
Awadhi
Aymara
Crimean Tatar
Welsh
Danish
German
French
Friulian
Fulfulde
Dinka(Rek)
Dyula
Dzongkha
Greek
English
Esperanto
Estonian
Basque
Ewe
Faroese
Iranian Persian
Icelandic
Italian
Javanese
Japanese
Kabyle
Kachin | Jinghpo
Kamba
Kannada
Kashmiri (Arabic script)
Kashmiri (Devanagari script)
Georgian
Kanuri (Arabic script)
Kanuri (Latin script)
Kazakh
Kabiye
Thai
Khmer
Kikuyu
South Azerbaijani
North Azerbaijani
Bashkir
Bambara
Balinese
Belarusian
Bemba
Bengali
Bhojpuri
Banjar (Latin script)
Tibetan
Bosnian
Buginese
Bulgarian
Catalan
Cebuano
Czech
Chokwe
Central Kurdish
Fijian
Finnish
Fon
Scottish Gaelic
Irish
Galician
Guarani
Gujarati
Haitian Creole
Hausa
Hebrew
Hindi
Chhattisgarhi
Croatian
Hugarian
Armenian
Igobo
IIocano
Indonesian
Kinyarwanda
Kyrgyz
Kimbundu
Konga
Korean
Kurdish (Kurmanji)
Lao
Latvian (Standard)
Ligurian
Limburgish
Lingala
Lithuanian
Lombard
Latgalian
Luxembourgish
Luba-Kasai
Ganda
Dholuo
Mizo
Foundational models
Latest news
Foundational models