No Language Left Behind

No Language Left Behind

AI翻訳の力を活用してインクルージョンを推進する

AI翻訳の力を活用してインクルージョンを推進する

動画を見る
動画を見る

No Language

Left Behindについて

No Language Left Behind (NLLB)は、アストゥリアス語、ルガンダ語、ウルドゥー語のようなリソースの少ない言語を含む200の言語間で、評価済みの高品質の翻訳を直接提供できるモデルをオープンソース化する史上初の画期的なAIプロジェクトです。その狙いは、ウェブコンテンツを母国語で利用・共有できる機会を人々に提供し、あらゆる場所で誰とでも使用言語を問わずにコミュニケーションできるようにすることにあります。

No Language Left Behindについて

No Language Left Behind (NLLB)は、アストゥリアス語、ルガンダ語、ウルドゥー語のようなリソースの少ない言語を含む200の言語間で、評価済みの高品質の翻訳を直接提供できるモデルをオープンソース化する史上初の画期的なAIプロジェクトです。その狙いは、ウェブコンテンツを母国語で利用・共有できる機会を人々に提供し、あらゆる場所で誰とでも使用言語を問わずにコミュニケーションできるようにすることにあります。

実世界で利用するためのAI研究

AIの手法をFacebookとInstagramに適用して低リソース言語を翻訳

Meta AIは、人と人がより身近になる世界の実現に取り組んでいます。そのために、NLLBの研究から得たモデリングの手法や学習成果を活用して、FacebookとInstagramで低リソース言語の翻訳品質を高めています。こうした手法や学習成果を実際の翻訳システムに適用することで、人々が自分の使用言語や母国語を使って信頼できる有意義なつながりを築けるようになります。将来的には、NLLBによる学習成果をより多くのMetaのアプリで活用したいと考えています。

実世界での利用

インクルーシブなメタバースを構築

あらゆるものが翻訳されるメタバースを実現して、人々を地球規模で結び付ける

Metaがメタバースを構築するうえで優先しているのは、ARやVRのテキストを何百もの言語でリアルタイムに翻訳できる機能を組み込むことです。その狙いは、誰もがVRのコンテンツ、デバイス、体験にアクセスし、メタバース内であらゆる人とあらゆる言語でコミュニケーションできるという、インクルージョンの新たなスタンダードを確立することにあります。これが実現すれば、やがて地球規模で人々を結び付けられるようになるでしょう。

実世界での利用

あらゆる人のためにWikipediaを翻訳

ボランティア編集者が、より多くの言語で情報を扱えるようにする

NLLB-200モデルを支えるテクノロジーがWikimedia財団のコンテンツ翻訳ツールで利用できるようになり、Wikipedia編集者は情報を自分の母国語や使用言語に簡単に翻訳できるようになりました。このテクノロジーを使うことで、Wikipediaの編集者は、ルガンダ語やアイスランド語のような利用者の少ない言語で作成された記事をより効率的に翻訳・編集できます。また、世界中にいるWikipediaユーザーも、より多くの言語でより多くの知識にアクセスできるようになります。今後は、研究者やこのプロジェクトに関心を持つWikipedia編集者がMetaの取り組みを活用する場合にも、オープンソースのNLLB-200モデルが役立つことになるでしょう。

テクノロジーを体験

翻訳が伝える物語

世界中の絵本を数百の言語に翻訳

翻訳が伝える物語

世界中の絵本を数百の言語に翻訳

「翻訳が伝える物語」で、AI翻訳の力を体験しましょう。No Language Left Behindプロジェクトが達成したAIの最新の成果を活用したデモをご覧ください。このデモは、インドネシア語、ソマリア語、ビルマ語などで書かれた絵本をさまざまな言語で翻訳して読者にお届けします。今後数か月のうちに数百の言語で翻訳が提供されます。この取り組みを通じて、NLLB-200は今までにない規模で文学作品を翻訳できる初のAIモデルとなる見込みです。

テクノロジー

機械翻訳についての説明

オープンソースのNLLBモデルは、200の言語をどのように直接翻訳するのでしょうか。

ステージ1

データセットの自動構築

ステージ1: データセットの自動構築

入力言語と必要な出力言語の文章を含む学習データを収集します。

何らかのエラーが発生しました
エラーが発生し、この動画を再生できませんでした。

ステージ2

学習

ステージ2: 学習

数千の学習方向に合わせて調整した学習データを作成し、このデータをMetaのモデルの学習パイプラインに組み込みます。このモデルは、エンコーダーとデコーダーという2つの要素で構成されています。エンコーダーは入力文を内部ベクトル表現に変換し、デコーダーはこの内部ベクトル表現を使って正確な出力文を生成します。膨大な数の翻訳例を学習することで、モデルはより正確な翻訳を生成できるようになります。

何らかのエラーが発生しました
エラーが発生し、この動画を再生できませんでした。

ステージ3

評価

ステージ3: 評価

最後に、Metaのモデルを人による翻訳文のセットと比較して評価し、翻訳品質が満足できるものであることを確認します。この際、すべてのサポート言語向けに構築された有害リストを使って、不適切な内容やその他の攻撃的な内容を検出・除去します。その結果、適切に訓練されたモデルで、言語を直接翻訳できるようになります。

何らかのエラーが発生しました
エラーが発生し、この動画を再生できませんでした。

ステージ1

データセットの自動構築

ステージ2

学習

ステージ3

評価

ステージ1: データセットの自動構築

入力言語と必要な出力言語の文章を含む学習データを収集します。

何らかのエラーが発生しました
エラーが発生し、この動画を再生できませんでした。

ステージ2: 学習

数千の学習方向に合わせて調整した学習データを作成し、このデータをMetaのモデルの学習パイプラインに組み込みます。このモデルは、エンコーダーとデコーダーという2つの要素で構成されています。エンコーダーは入力文を内部ベクトル表現に変換し、デコーダーはこの内部ベクトル表現を使って正確な出力文を生成します。膨大な数の翻訳例を学習することで、モデルはより正確な翻訳を生成できるようになります。

何らかのエラーが発生しました
エラーが発生し、この動画を再生できませんでした。

ステージ3: 評価

最後に、Metaのモデルを人による翻訳文のセットと比較して評価し、翻訳品質が満足できるものであることを確認します。この際、すべてのサポート言語向けに構築された有害リストを使って、不適切な内容やその他の攻撃的な内容を検出・除去します。その結果、適切に訓練されたモデルで、言語を直接翻訳できるようになります。

何らかのエラーが発生しました
エラーが発生し、この動画を再生できませんでした。

イノベーション

ブレイクスルーを支える科学

今日の機械翻訳(MT)モデルのほとんどは、リソースがある程度以上に豊富な言語には有効ですが、リソースの少ない言語は置き去りにされています。Meta AIの研究者はこの問題に対処するため、次の3つの重要なAIイノベーションに取り組んでいます。

低リソース言語向けのデータセットを自動構築

背景

MTは教師あり学習のタスクなので、モデルの学習に使用するデータが必要となります。よく使用されるのは、オープンソースデータから収集した翻訳例です。Metaのソリューションでは、単一言語のさまざまなドキュメントから収集した文章をペアリングすることで、翻訳ペアを自動的に構築しています。

課題

このデータセット作成プロセスに使用されるLASERモデルは、リソースがある程度以上に豊富な言語を主にサポートしているため、リソースの少ない言語では正確な翻訳ペアを生成できません。

イノベーション

この問題を解決するため、Metaは教師・生徒学習の手法に対する投資を実施。その結果、1)LASERのサポート範囲が200の言語に拡大され、2)低リソースの言語でも膨大な量のデータを生成できるようになりました。

200の言語をモデル化

背景

多言語MTシステムは、2言語MTシステムに比べて改良が進んでいます。その理由は、学習データの豊富な言語ペアから学習リソースの少ない他の言語への「転移」が可能だからです。

課題

数百の言語ペアの学習をまとめて行うことには、デメリットがあります。それは、同じモデルで同じ数のパラメーターを使って、より多くの言語を表現しなければならないことです。そのため、データセットのサイズに不均衡があると、過剰適合の問題が発生する可能性があります。

イノベーション

Metaは、共有の容量と専用の容量を持つスパース混合エキスパートモデルを構築し、リソースが少なくデータの乏しい言語を、共有の容量を持つモデルに自動で転送できるようにしました。このモデルをより適切な正則化システムと組み合わせることで、過剰適合を回避できます。さらに、複数のタイプの逆翻訳を利用して、自己教師あり学習と大規模なデータ拡張を実行しています。

翻訳の品質を評価

背景

モデルによって生成された翻訳が品質基準を満たしているかを知るには、その翻訳を評価する必要があります。

課題

機械翻訳モデルでは、機械が翻訳した文章を人による翻訳と比較して評価するのが通常ですが、多くの言語では信頼できる翻訳データを入手できません。そのため、正確な評価が不可能となっています。

イノベーション

Metaは、人による翻訳評価ベンチマークであるFLORESの適用範囲を2倍に広げて、200言語のカバーを実現。自動測定と人による評価をサポートすることで、翻訳品質の大規模な定量化を可能にしています。
NLLBを支える科学について、詳しくはホワイトペーパーブログをご覧ください。また、モデルをダウンロードしてこのプロジェクトの推進にご協力ください。

NLLBを支える科学について、詳しくはホワイトペーパーブログをご覧ください。また、モデルをダウンロードしてこのプロジェクトの推進にご協力ください。

Metaの取り組み

研究のマイルストーン
研究のマイルストーン

Meta AIは、機械翻訳テクノロジーを進化させると同時に、低リソース言語向けのデータの不足や翻訳の品質と精度など、業界のさまざまな課題を克服してきました。Metaは今後も、AI翻訳の力を活用してインクルージョンを推進する取り組みを続けていきます。

Meta AIは、機械翻訳テクノロジーを進化させると同時に、低リソース言語向けのデータの不足や翻訳の品質と精度など、業界のさまざまな課題を克服してきました。Metaは今後も、AI翻訳の力を活用してインクルージョンを推進する取り組みを続けていきます。

各モデルのマイルストーンをサポート言語数で表示

50言語未満

50~99言語

100言語

200言語

LASER (Language-agnostic sentence representations)

2018年

多言語の文章表現を膨大な規模で調査することに初めて成功し、その成果をNLPコミュニティに公開しました。このエンコーダーは、50の言語で同じ意味の文章を自動でペアリングする埋め込みを作成します。

データエンコーダー

WMT-19

2019年

WMT 2019では、FacebookのAIモデルのパフォーマンスが他のすべてのモデルを上回りました。これは、大規模なサンプリングによる逆翻訳、ノイズの多いチャネルのモデリング、およびデータクリーニング技術を活用して構築された強力なシステムです。

モデル

Flores V1

2019年

これは英語と低リソース言語間の機械翻訳に利用できるベンチマークデータセットで、2つの言語から始まる公正で厳密な評価プロセスを導入しています。

評価データセット

WikiMatrix

2019年

複数の言語で過去最多の並列文を抽出しました。具体的には、Wikipediaの1億3,500万件の文章を対象に、1,620の言語ペアで対訳を抽出し、より優れた翻訳モデルを構築しています。

データ構築

M2M-100

2020年

単一の多言語機械翻訳モデルとして初めて、英語データに依存することなく、100の任意の言語ペアの間で直接翻訳を可能にしました。モデルの学習は2,200の言語方向で行われましたが、これは従来の多言語翻訳モデルの10倍です。

モデル

CCMatrix

2020年

これは高品質なウェブベースの対訳を含む最大規模のデータセットであり、特に低リソース言語をはじめとするより多くの言語で、より優れた翻訳モデルを構築します。具体的には、576の言語ペアに対応する45億件の並列文が含まれています。

データ構築

LASER 2

2020年

100の言語で同じ意味の文章を自動でペアリングする埋め込みを作成します。

データエンコーダー

WMT-21

2021年

WMT 2021では、単一の多言語モデルのパフォーマンスが初めて、特別に訓練された2言語モデルを14の言語ペアのうち10のペアで上回り、リソースの少ない言語と多い言語の両方で最高レベルの翻訳を提供しました。

モデル

FLORES-101

2021年

FLORES-101は、101の言語をサポートする初めての多対多の評価データセットです。研究者はこれを使うことで、M2M-100などの多言語翻訳モデルのテストや改善をすばやく実施できます。

評価データセット

NLLB-200

2022年

NLLBモデルは200の言語を翻訳します。

モデル

FLORES 200

2021年

これはFLORESの評価データセットを拡張したもので、現在200の言語をサポートしています。

評価データセット

NLLB-Data-200

2022年

200の言語をカバーする学習データを構築し、公開しました。

評価データセット

LASER 3

2022年

200の言語で同じ意味の文章を自動でペアリングする埋め込みを作成します。

データエンコーダー

50言語未満

50~100言語

100言語

200言語

LASER (Language-agnostic sentence representations)

2018年

多言語の文章表現を膨大な規模で調査することに初めて成功し、その成果をNLPコミュニティに公開しました。このエンコーダーは、50の言語で同じ意味の文章を自動でペアリングする埋め込みを作成します。

データエンコーダー

WMT-19

2019年

WMT 2019では、FacebookのAIモデルのパフォーマンスが他のすべてのモデルを上回りました。これは、大規模なサンプリングによる逆翻訳、ノイズの多いチャネルのモデリング、およびデータクリーニング技術を活用して構築された強力なシステムです。

モデル

Flores V1

2019年

これは英語と低リソース言語間の機械翻訳に利用できるベンチマークデータセットで、2つの言語から始まる公正で厳密な評価プロセスを導入しています。

評価データセット

WikiMatrix

2019年

複数の言語で過去最多の並列文を抽出しました。具体的には、Wikipediaの1億3,500万件の文章を対象に、1,620の言語ペアで対訳を抽出し、より優れた翻訳モデルを構築しています。

データ構築

M2M-100

2020年

単一の多言語機械翻訳モデルとして初めて、英語データに依存することなく、100の任意の言語ペアの間で直接翻訳を可能にしました。モデルの学習は2,200の言語方向で行われましたが、これは従来の多言語翻訳モデルの10倍です。

モデル

CCMatrix

2020年

これは高品質なウェブベースの対訳を含む最大規模のデータセットであり、低リソース言語をはじめとするより多くの言語で、より優れた翻訳モデルを構築します。具体的には、576の言語ペアに対応する45億件の並列文が含まれています。

データ構築

LASER 2

2020年

100の言語で同じ意味の文章を自動でペアリングする埋め込みを作成します。

データエンコーダー

WMT-21

2021年

WMT 2021では、単一の多言語モデルのパフォーマンスが初めて、特別に訓練された2言語モデルを14の言語ペアのうち10のペアで上回り、リソースの少ない言語と多い言語の両方で最高レベルの翻訳を提供しました。

モデル

FLORES-101

2021年

FLORES-101は、101の言語をサポートする初めての多対多の評価データセットです。研究者はこれを使うことで、M2M-100などの多言語翻訳モデルのテストや改善をすばやく実施できます。

評価データセット

NLLB-200

2022年

NLLBモデルは200の言語を翻訳します。

モデル

FLORES 200

2021年

これはFLORESの評価データセットを拡張したもので、現在200の言語をサポートしています。

評価データセット

NLLB-Data-200

2022年

200の言語をカバーする学習データを構築し、公開しました。

評価データセット

LASER 3

2022年

200の言語で同じ意味の文章を自動でペアリングする埋め込みを作成します。

データエンコーダー

From Assamese, Balinese and Estonian…to Icelandic, Igbo and more. 200 languages and counting…

Have a look at the full list of languages our NLLB-200 model supports—with 150 low-resource languages included. More will be added to this list as we, and our community, continue on this journey of inclusiveness through AI translation.

Full list of supported languages

Acehnese (Latin script)

Arabic (Iraqi/Mesopotamian)

Arabic (Yemen)

Arabic (Tunisia)

Afrikaans

Arabic (Jordan)

Akan

Amharic

Arabic (Lebanon)

Arabic (MSA)

Arabic (Modern Standard Arabic)

Arabic (Saudi Arabia)

Arabic (Morocco)

Arabic (Egypt)

Assamese

Asturian

Awadhi

Aymara

Crimean Tatar

Welsh

Danish

German

French

Friulian

Fulfulde

Dinka(Rek)

Dyula

Dzongkha

Greek

English

Esperanto

Estonian

Basque

Ewe

Faroese

Iranian Persian

Icelandic

Italian

Javanese

Japanese

Kabyle

Kachin | Jinghpo

Kamba

Kannada

Kashmiri (Arabic script)

Kashmiri (Devanagari script)

Georgian

Kanuri (Arabic script)

Kanuri (Latin script)

Kazakh

Kabiye

Thai

Khmer

Kikuyu

South Azerbaijani

North Azerbaijani

Bashkir

Bambara

Balinese

Belarusian

Bemba

Bengali

Bhojpuri

Banjar (Latin script)

Tibetan

Bosnian

Buginese

Bulgarian

Catalan

Cebuano

Czech

Chokwe

Central Kurdish

Fijian

Finnish

Fon

Scottish Gaelic

Irish

Galician

Guarani

Gujarati

Haitian Creole

Hausa

Hebrew

Hindi

Chhattisgarhi

Croatian

Hugarian

Armenian

Igobo

IIocano

Indonesian

Kinyarwanda

Kyrgyz

Kimbundu

Konga

Korean

Kurdish (Kurmanji)

Lao

Latvian (Standard)

Ligurian

Limburgish

Lingala

Lithuanian

Lombard

Latgalian

Luxembourgish

Luba-Kasai

Ganda

Dholuo

Mizo

Full list of supported languages

Acehnese (Latin script)

Arabic (Iraqi/Mesopotamian)

Arabic (Yemen)

Arabic (Tunisia)

Afrikaans

Arabic (Jordan)

Akan

Amharic

Arabic (Lebanon)

Arabic (MSA)

Arabic (Modern Standard Arabic)

Arabic (Saudi Arabia)

Arabic (Morocco)

Arabic (Egypt)

Assamese

Asturian

Awadhi

Aymara

Crimean Tatar

Welsh

Danish

German

French

Friulian

Fulfulde

Dinka(Rek)

Dyula

Dzongkha

Greek

English

Esperanto

Estonian

Basque

Ewe

Faroese

Iranian Persian

Icelandic

Italian

Javanese

Japanese

Kabyle

Kachin | Jinghpo

Kamba

Kannada

Kashmiri (Arabic script)

Kashmiri (Devanagari script)

Georgian

Kanuri (Arabic script)

Kanuri (Latin script)

Kazakh

Kabiye

Thai

Khmer

Kikuyu

South Azerbaijani

North Azerbaijani

Bashkir

Bambara

Balinese

Belarusian

Bemba

Bengali

Bhojpuri

Banjar (Latin script)

Tibetan

Bosnian

Buginese

Bulgarian

Catalan

Cebuano

Czech

Chokwe

Central Kurdish

Fijian

Finnish

Fon

Scottish Gaelic

Irish

Galician

Guarani

Gujarati

Haitian Creole

Hausa

Hebrew

Hindi

Chhattisgarhi

Croatian

Hugarian

Armenian

Igobo

IIocano

Indonesian

Kinyarwanda

Kyrgyz

Kimbundu

Konga

Korean

Kurdish (Kurmanji)

Lao

Latvian (Standard)

Ligurian

Limburgish

Lingala

Lithuanian

Lombard

Latgalian

Luxembourgish

Luba-Kasai

Ganda

Dholuo

Mizo

200の言語を翻訳できるNLLB-200モデル(当社の従来モデルの2倍)

Metaの最終モデルは、過去の最新モデルと比べてBLEUのパフォーマンスが44%向上

市販の翻訳システムで従来サポートされていなかった75の言語に対応

180億件の並列文と2.5倍の学習データ(従来のM2M-100モデルとの比較)

オープンソースの機械翻訳モデルとして最多となる540億種類のパラメーター(従来のM2M-100モデルの5倍)

1つのモデルで4万の翻訳方向をサポート(従来のベンチマークの4倍超の性能)

NLLBの研究成果を、Facebookニュースフィード、Instagram、およびその他のMetaのプラットフォームで日々生成される250億件以上の翻訳に活用

200の言語を翻訳できるNLLB-200モデル(当社の従来モデルの2倍)

Metaの最終モデルは、過去の最新モデルと比べてBLEUのパフォーマンスが44%向上

市販の翻訳システムで従来サポートされていなかった75の言語に対応

180億件の並列文と2.5倍の学習データ(従来のM2M-100モデルとの比較)

オープンソースの機械翻訳モデルとして最多となる540億種類のパラメーター(従来のM2M-100モデルの5倍)

1つのモデルで4万の翻訳方向をサポート(従来のベンチマークの4倍超の性能)

NLLBの研究成果を、Facebookニュースフィード、Instagram、およびその他のMetaのプラットフォームで日々生成される250億件以上の翻訳に活用

詳しくはこちら

No Language Left Behindプロジェクトの推進にご協力ください

No Language Left Behind (NLLB)プロジェクトについて学べることやこのプロジェクトで実現できることは、まだ数多くあります。詳しくは、Metaのホワイトペーパーとブログをご覧ください。また、モデルをダウンロードしてこのプロジェクトの推進にご協力ください。対応言語は200に達しましたが、これはまだ始まりに過ぎません。Metaは今後もこの重要な取り組みを続け、翻訳可能な言語を増やしてインクルージョンを進めていきます。私たちとともにこのプロジェクトを築いていきましょう。