• Meta AIは、単一のAIモデルとして初めて200の言語を翻訳できるNLLB-200を開発しました。その今までにない品質の高さは、言語ごとの詳細な評価によって実証されています。

  • また、新たな評価データセットのFLORES-200を開発し、NLLB-200のパフォーマンスを言語ごとに測定して、翻訳品質の高さを確認しています。NLLB-200は、これまでの最高水準のパフォーマンスを平均44%上回っています。

  • Meta AIは現在、このプロジェクトから得たモデリングの手法や学習成果を活用して、Facebook、Instagram、Wikipediaの翻訳品質を改善し、翻訳対象を拡大しています。

  • Meta AIでは、他の研究者が自分たちの翻訳ツールを改善したりMeta AIの取り組みを活用したりできるようにするため、NLLB-200モデル、FLORES-200、モデル学習コード、および学習データセット再作成用コードのオープンソース化に取り組んでいます。

言語は、私たちの文化であり、アイデンティティであり、世界とつながるための生命線です。しかし、高品質な翻訳ツールが存在しない言語が数百種類あるため、今でも数十億の人々が、自分の使用言語や母国語でデジタルコンテンツを利用することも、オンラインで自由に会話やコミュニティに参加することもできずにいます。この状況が特に当てはまるのは、アフリカとアジアのさまざまな言語を話す数億人の人々です。

何らかのエラーが発生しました
エラーが発生し、この動画を再生できませんでした。

そこでMeta AIの研究者は、人々が今すぐより良いつながりを築けるように、また将来メタバースに参加できるようにするため、世界のほとんどの言語をサポートする高品質機械翻訳の開発に取り組むNo Language Left Behind (NLLB)プロジェクトを立ち上げました。そして本日、Meta AIはNLLBの重要なブレイクスルーとして、単一のAIモデルで200種類の言語を翻訳して最高水準の翻訳結果が得られるNLLB-200を完成させたことをお知らせいたします。カンバ語やラオ語をはじめとするアフリカやアジアの多くの言語は、現存する最も高性能な翻訳ツールでも十分に(もしくはまったく)サポートされていません。広く使われている翻訳ツールでも、サポートされているアフリカの言語は25種類に満たず、その多くは翻訳品質が低いのが現状です。これに対して、NLLB-200は55種類のアフリカ言語をサポートし、高品質な翻訳を生成します。つまり、この1つのモデルだけで、世界の数十億の人々に話されている言語について、高品質な翻訳を提供できるのです。FLORES-101ベンチマークの10,000の翻訳方向すべてを対象としたBLEUスコアは、従来の最高水準のパフォーマンスを平均44%上回っていました。アフリカやインドの一部の言語については、最近の翻訳システムより70%以上高いパフォーマンスを記録しています。

Meta AIは現在、NLLB-200モデルのオープンソース化とさまざまな研究ツールの公開に取り組んでいます。その狙いは、他の研究者がこの取り組みをより多くの言語に拡大し、さらにインクルーシブなテクノロジーを構築できるようにすることです。また、非営利団体に最大20万ドルの助成金を提供し、NLLB-200を実世界で利用できるよう支援する予定です。

今後は、NLLBの研究成果が、Facebookニュースフィード、Instagram、およびその他のMetaのプラットフォームで日々生成される250億件以上の翻訳に活用されます。これにより、お気に入りのFacebookグループで見かけたイボ語やルガンダ語の投稿を、ボタンをクリックするだけで自分の言語で読めるようになります。また、より多くの言語でより正確な翻訳が提供されるようになれば、有害なコンテンツや偽情報の検出、公正な選挙の推進、オンラインでの性的搾取や人身売買の阻止に役立つ可能性があります。さらに、NLLBの研究から得られたモデリングの手法や学習成果が、Wikipedia編集者の使用している翻訳システムで活用される予定です。

翻訳は、人々の日常生活に及ぼす影響から、AIで最も期待される分野の1つとなっています。NLLBがもたらす成果は、ウェブ上のコンテンツが利用しやすくなることだけではありません。複数の言語で情報を提供したり共有したりすることがより簡単になるでしょう。取り組むべきことはまだありますが、私たちは最近の成果やMetaのミッションの達成状況を受けて、さらに研究への意欲を高めています。

世界中の文学作品をNLLB-200でどのように翻訳できるのかを示したデモはこちらから、研究論文はこちらからご覧いただけます。

さらに数十億の人々に翻訳ツールを提供

Meta AIは、Wikimedia財団(無料で知識を提供するWikipediaなどのプロジェクトを手がける非営利団体)と提携し、Wikipediaの翻訳システムの改善をサポートしています。Wikipediaには300種類以上の言語版が存在しますが、そのほとんどは記事の数が英語版(600万本以上)よりはるかに少ないのが現状です。この差が特に大きいのは、欧州と北米以外の地域で主に話されている言語版です。例えば、コンゴ民主共和国、コンゴ共和国、中央アフリカ共和国、および南スーダンで合わせて4,500万人に話されているリンガラ語の場合、Wikipediaの記事数は3,260本程度しかありません。これに対し、スウェーデンとフィンランドで合わせて1,000万人に話されているスウェーデン語は、記事数が250万本を超えています。

現在、Wikipediaの編集者はWikimedia財団のコンテンツ翻訳ツール経由でNLLB-200のテクノロジーを利用し、20以上の低リソース言語(AIシステムの学習に使える大規模なデータセットが存在しない言語)の記事を翻訳していますが、この中には同財団のプラットフォームの機械翻訳ツールがサポートしていない10の言語が含まれています。

数百言語をカバーする単一モデルの構築に関する課題

機械翻訳システムは、すべてのAIモデルと同じく、データを利用して学習を行います。テキスト翻訳システムの場合、このデータは通常、異なる言語間で注意深くマッチングされた数百万の文で構成されます。ところが、例えば英語とフラニ語の間では、大量の対訳文が存在しません。そのため、現在の翻訳モデルは、ウェブからのデータマイニングでこの問題を克服しようとしています。しかし、原文が言語ごとに異なるため、対訳文の質が低くなってしまうことがよくあります。また、スペルの誤りや不統一が数多く含まれていたり、アクセント記号などの発音区分符号が欠落していることが少なくありません。

もう1つの大きな課題は、パフォーマンスや翻訳品質を損なうことなく、単一のモデルを数百種類の言語に対して最適化することです。これまで、翻訳品質を最大限に高めるには、翻訳方向ごとに別々のモデルを作成する必要がありました。しかし、このアプローチでは言語を追加するほどパフォーマンスと翻訳品質が低下するため、拡張が難しくなります。

また、翻訳モデルが生成したエラーを発見するのが難しくなる場合があります。このようなシステムはテキスト生成に使われるニューラルネットワーク上に構築されているため、幻覚(事実ではないことを事実と確信して述べること)、誤った陳述、安全ではないコンテンツなどのエラーを必然的に生み出してしまう可能性があります。一般に、低リソース言語はベンチマークやデータセットが少ないため、モデルのテストや改良がきわめて困難です。

アーキテクチャ、データソーシング、ベンチマーキングなどにおけるイノベーション

Meta AIは近年、このような問題の克服において着実な進歩を遂げています。2020年には、100言語をサポートするM2M-100翻訳モデルを発表し、学習データを取得する新たな手法、パフォーマンスを落とさずにモデルサイズを拡張する新たなアーキテクチャ、結果を評価・改善するための新たな方法を導入しました。これをさらに100の言語に拡大するため、Metaは以下の3つの分野すべてで、さらなる進化を成し遂げました。

学習リソースを強化

より多くの言語で精度の高い対訳文を収集するために、Metaは自然言語処理(NLP)でゼロショット転移を行うツールキットのLASERを改良しました。新バージョンのLASER3は、LSTMの代わりに、マスク言語モデリングの目的で自己教師あり学習を行うTransformerモデルを使用します。さらに、教師・生徒学習の手法を利用し、言語群に特化したエンコーダーを作成することでパフォーマンスを高めた結果、LASER3の言語サポート範囲を拡大し、低リソース言語も含め、大量の対訳文を生成することが可能になりました。Meta AIは現在、LASER3の多言語埋め込み手法をオープンソース化し、他の研究者に開放する取り組みに着手しています。また、さまざまな言語ペアの数十億の対訳文を公開する予定です。これらの対訳文は、ここで説明した手法を用いてマイニングされ、クリーニングされたものです。

また、より多くの言語で学習用の例文を入手するために対象を広げた結果、例文の品質を維持することが重要になりました。そこで、データクリーニングパイプラインを一から見直して、対象を200言語に拡大。最初にLID-200モデルを使ってデータをフィルタリングしてから、インターネット規模のコーパスのノイズを高い精度で除去するなど、大規模なフィルタリングプロセスを追加しました。ほかにも、200言語すべてで有害リストを作成し、これらのリストを使って、幻覚を生じさせる可能性がある有害さの評価とフィルタリングを実行しました。こうしたステップにより、言語が正しく識別された、よりクリーンで害の少ないデータセットを準備することができたのです。翻訳品質を高め、幻覚による害悪(翻訳プロセスにおいてシステムが誤って有害なコンテンツを生成すること)として知られるもののリスクを軽減するには、このようなステップが重要になります。

高いパフォーマンスを維持しながらモデルサイズを拡張

多言語翻訳システムには、2つの大きなメリットがあります。その1つは、アッサム語とベンガル語のような類似の言語(どちらもベンガル文字で記述される)で、学習時のデータを共有できることです。低リソース言語の学習を類似の高リソース言語と同時に行うことで、低リソース言語の翻訳品質が大幅に向上します。また、研究者にとっては、数百あるいは数千の異なる2言語モデルを使うよりも、単一の多言語モデルを使った方が、反復、拡張、実験がはるかに簡単になります。

しかし、モデルを100言語から200言語に拡張するには、まだ大きな問題が残っています。学習データに含まれる低リソース言語のペアが増えると、モデルの学習を長期間行ったときに、多言語システムが過剰適合を始めるのです。この問題に対処するため、Meta AIは正則化、カリキュラム学習、自己教師あり学習の3つの分野でイノベーションを実現し、逆翻訳を多様化しました。

最初に行ったのは、共有の容量と専用の容量を持つ混合エキスパートネットワークを構築し、データの乏しい低リソース言語を、共有の容量を持つモデルに自動で転送できるようにすることでした。このモデルを適切に設計された正則化システムと組み合わせることで、過剰適合を回避できます。また、2段階のカリキュラム学習アプローチを導入し、最初に高リソース言語の学習を数エポック行ってから低リソース言語のペアを取り込むことで、やはり過剰適合の問題を減少させました。その後は、低リソース言語の対訳データの数が少ないことから、低リソース言語と類似の高リソース言語の両方で、単言語データを用いた自己教師あり学習を行い、モデルの全体的なパフォーマンスを向上させました。

最後に、Meta AIは逆翻訳データの最適な生成方法を分析しました。その結果、2言語の統計的機械翻訳モデルと多言語のニューラル機械翻訳モデルの両方から生成された逆翻訳データを混合することで、その生成された合成データの多様性が増し、低リソース言語のパフォーマンスが向上することがわかりました。540億のパラメーターを持つNLLB-200モデルの学習にあたっては、新たに構築した世界最速クラスのAIスーパーコンピューターResearch SuperCluster (RSC)を利用しました。

200言語をサポートする評価・緩和ツール

NLLB-200の評価と改善を行うために、Meta AIは多対多の独自の評価データセットであるFLORES-200を構築し、研究者が4万の言語方向についてパフォーマンスを評価できるようにしました。また、他の研究者が翻訳モデルのテストや改善をすばやく行えるようにするため、この新しいデータセットをオープンソース化しています。FLORES-200では、低リソース言語が話されている国や地域の医療パンフレット、映画、書籍、オンラインコンテンツなど、さまざまな用途について翻訳システムを評価できます。

200言語への拡張を行うにあたっては、有害コンテンツの生成リスクに対処する必要がありますが、多方向の翻訳システムでは管理が難しくなる場合があります。そのため、Meta AIはすべてのサポート言語に対応した有害リストを作成し、不適切なコンテンツやその他の不快なコンテンツを検出・除外できるようにしました。また、モデルのリスクを低減できるツールを他の研究者に提供するため、200種類の言語すべてで利用できる有害性評価リストとベンチマークの公開に取り組んでいます。

Meta AIは、自らの取り組みを責任ある形で拡大するために、言語学者、社会学者、倫理学者など、さまざまな専門分野のメンバーで構成されたチームと連携し、対象の各言語について詳しく学ぶ活動を続けています。

このグラフは、FLORES-101の英語と100言語との間の双方向の翻訳における平均BLEUスコアを示しています。左側は、100言語をサポートする公開済みの2つの最新モデル(M2MとDelta LM)のスコアです。右側は、200言語をサポートするモデルのスコアで、パラメーター数33億のTransformerモデルをベースラインとし、自己教師あり学習に対応したベースラインモデル(SSL)、逆翻訳に対応したベースラインモデル(BT)、および自己教師あり学習と逆翻訳の両方を活用する混合エキスパートベースの大規模モデル(NLLB-200)のスコアを示しています。

翻訳言語を増やしてインクルージョンを推進

高品質な翻訳ツールには、変化をもたらす力があります。今のウェブは、英語、北京語、スペイン語、アラビア語など、ごく少数の言語に独占されています。広く話されているこれらの言語を母語とする人々は、母語で情報を入手できることの重要性に気付いていないかもしれません。NLLBの狙いは、感情や内容が間違って伝わることの多い中間言語を介さずに情報を共有できるようにすることにあり、Meta AIはNLLBが言語の維持に役立つと確信しています。

また、NLLBは翻訳だけでなく、自然言語処理の他分野の発展にも貢献できます。例えば、ジャワ語やウズベク語などの言語に対応したアシスタントを開発したり、ボリウッド映画にスワヒリ語やオロモ語の正確な字幕を追加するシステムを開発したりすることが考えられます。メタバースが具現化しつつある今、数百または数千の言語をサポートするテクノロジーを構築できれば、仮想世界における新たな没入型体験へのアクセスの民主化にきっと役立つはずです。

わずか数年前まで、高品質の機械翻訳を利用できるのは、ほんの一握りの言語だけでした。しかし、NLLB-200のおかげで、あらゆる人とのコミュニケーションを可能にするシステムの登場が近づいています。このようなシステムは、現在の世界に何をもたらすのでしょうか。そして、機械翻訳の限界を押し広げた先にある未来の世界にとってどのような意味を持つのでしょうか。私たちの楽しみは尽きません。

この研究は、Meta AIのさまざまな専門分野のメンバーで構成されたチームによって進められています。主なメンバーは次の通りです。Bapi Akula、Pierre Andrews、Necip Fazil Ayan、Loic Barrault、Shruti Bhosale、Marta Ruiz Costa-jussa、James Cross、Onur Çelebi、Sergey Edunov、Maha Elbayad、Angela Fan、Cynthia Gao、Gabriel Mejia Gonzalez、Vedanuj Goswami、Francisco Guzmán、Prangthip Hansanti、Kennet Heafield、Kevin Heffernan、John Hoffman、Semarley Jarrett、Elahe Kalbassi、Philipp Koehn、Janice Lam、Daniel Licht、Jean Maillard、Alexandre Mourachko、Christophe Ropers、Kaushik Ram Sadagopan、Safiyyah Saleem、Holger Schwenk、Shannon Spruit、Anna Sun、Chau Tran、Skyler Wang、Guillaume Wenzek、Jeff Wang、Al Youngblood。