NLLB(No Language Left Behind: 어떤 언어로도 소통할 수 있도록)는 이전과 전혀 다른 형태의 혁신적인 AI 프로젝트로, 아스투리아스어, 루간다어, 우르두어 등 리소스가 적은 언어가 포함된 200개 언어 간에 평가를 거친 고품질의 번역을 바로 제공할 수 있는 오픈 소스 모델입니다. NLLB는 누구나 자신의 모국어로 웹 콘텐츠에 접근 및 공유하고, 각자 선호하는 언어에 상관없이 전 세계 모든 사람들과 소통할 수 있는 기회를 제공하는 것을 목표로 합니다.
NLLB(No Language Left Behind: 어떤 언어로도 소통할 수 있도록)는 이전과 전혀 다른 형태의 혁신적인 AI 프로젝트로, 아스투리아스어, 루간다어, 우르두어 등 리소스가 적은 언어가 포함된 200개 언어 간에 평가를 거친 고품질의 번역을 바로 제공할 수 있는 오픈 소스 모델입니다. NLLB는 누구나 자신의 모국어로 웹 콘텐츠에 접근 및 공유하고, 각자 선호하는 언어에 상관없이 전 세계 모든 사람들과 소통할 수 있는 기회를 제공하는 것을 목표로 합니다.
Meta는 모두가 더욱 가까워지는 세상을 만들기 위해 노력합니다. 이를 위해 Facebook과 Instagram에서 리소스가 적은 언어의 번역 품질 개선을 위해 모델링 기법과 NLLB 리서치를 통해 얻은 결과를 활용하고 있습니다. 이러한 기술을 프로덕션 번역 시스템에 적용함으로써, 누구나 자신이 선호하는 언어나 모국어를 사용할 수 있게 되어 더욱 진정성 있고 의미 있는 소통이 가능해질 것입니다. 또한 NLLB를 통해 얻은 결과를 향후 더 많은 Meta 앱에 적용할 수 있을 것으로 기대하고 있습니다.
Meta는 메타버스를 만드는 과정에서 메타버스에 실시간으로 수백 개의 언어로 된 AR/VR 텍스트를 번역하는 기능을 통합하는 작업을 우선순위로 두고 있습니다. 저희의 목표는 포용성에 대한 새로운 기준을 수립하는 것입니다. 언젠가 모든 사람이 가상 세계의 콘텐츠, 기기 및 경험을 이용하고 메타버스 안에서 모든 언어로 모든 사람과 소통할 수 있게 만들어줄 수준의 포용성 말입니다. 그리고 시간이 지나면서 전 세계적으로 사람들을 이어주기도 해야죠.
이제 Wikimedia Foundation의 콘텐츠 번역 도구에서도 활용할 수 있는 NLLB-200 모델의 기술 덕분에, 위키백과 편집자들은 수많은 정보를 더욱 쉽게 자신의 모국어와 선호하는 언어로 번역할 수 있게 되었습니다. 위키백과 편집자들은 이 기술을 바탕으로 루간다어, 아이슬란드어 등과 같은 소수 언어로 작성된 글을 더 효율적으로 번역 및 편집하고 있습니다. 이는 전 세계 위키백과 독자들이 더 많은 언어로 더 다양한 지식을 얻을 수 있게 되었음을 의미합니다. 오픈 소스 NLLB-200 모델은 관련 연구진들 및 관심 있는 위키백과 편집자 커뮤니티들이 Meta의 기술을 바탕으로 작업을 이어나가는 데도 도움이 될 것입니다.
NLLB의 최신 AI 고급 기술을 사용하는 Meta의 데모 프로그램, '번역으로 만나는 이야기(Stories Told Through Translation)'를 통해 AI 번역의 힘을 경험해보세요. 이 데모는 Meta의 AI 모델을 활용하여 인도네이사어, 소말리아어, 버마어 등으로 쓰여진 동화들이 다른 언어를 사용하는 수많은 독자를 만날 수 있도록 번역하며, 향후 몇 달 안에는 백 수십여 개 언어로 번역 범위가 확대될 예정입니다. 이로써 NLLB-200은 문학을 대규모로 번역할 수 있는 최초의 AI 모델이 되는 것이죠.
입력 언어와 원하는 출력 언어로 된 문장들이 포함된 학습 데이터가 수집됩니다.
수천 개의 학습 지침에 맞도록 조정된 학습 데이터를 만든 후 이 데이터를 Meta의 모델 학습 파이프라인에 투입합니다. 이러한 모델은 두 부분으로 구성되어 있습니다. 하나는 입력 문장을 내부 벡터 표현으로 변환하는 인코더이고, 다른 하나는 이 내부 벡터 표현을 취해 출력 문장을 정확하게 생성하는 디코더입니다. 모델은 수백 가지 번역 예를 토대로 학습하며 더 정확한 번역을 생성하는 법을 배웁니다.
마지막으로, Meta는 사람이 번역하는 문장 세트 번역을 기준으로 이 모델을 평가하여 번역 품질이 만족스러운지 확인합니다. 이 과정에서 저희가 지원되는 모든 언어에 대해 만드는 유해 언어 리스트를 사용하여 비속어와 기타 불쾌한 콘텐츠를 감지하고 필터링해냅니다. 그 결과, 한 언어를 바로 번역할 수 있는 잘 학습된 모델이 탄생합니다.
입력 언어와 원하는 출력 언어로 된 문장들이 포함된 학습 데이터가 수집됩니다.
수천 개의 학습 지침에 맞도록 조정된 학습 데이터를 만든 후 이 데이터를 Meta의 모델 학습 파이프라인에 투입합니다. 이러한 모델은 두 부분으로 구성되어 있습니다. 하나는 입력 문장을 내부 벡터 표현으로 변환하는 인코더이고, 다른 하나는 이 내부 벡터 표현을 취해 출력 문장을 정확하게 생성하는 디코더입니다. 모델은 수백 가지 번역 예를 토대로 학습하며 더 정확한 번역을 생성하는 법을 배웁니다.
마지막으로, Meta는 사람이 번역하는 문장 세트 번역을 기준으로 이 모델을 평가하여 번역 품질이 만족스러운지 확인합니다. 이 과정에서 저희가 지원되는 모든 언어에 대해 만드는 유해 언어 리스트를 사용하여 비속어와 기타 불쾌한 콘텐츠를 감지하고 필터링해냅니다. 그 결과, 한 언어를 바로 번역할 수 있는 잘 학습된 모델이 탄생합니다.
MT는 지도형 학습 과제입니다. 즉, 모델에 학습할 데이터가 필요한 것이죠. 여기에는 종종 오픈 소스 데이터 컬렉션의 샘플 번역이 사용됩니다. Meta는 단일어로 된 문서의 여러 컬렉션에서 문장들을 서로 짝 지어 자동으로 번역 쌍을 구성하는 솔루션을 사용합니다.
이 데이터 세트 만들기 과정에 사용되는 LASER 모델은 주로 리소스가 중간 정도인 언어부터 리소스가 많은 언어까지 지원하므로 리소스가 적은 언어의 경우 정확한 번역 쌍을 생성하기가 불가능합니다.
이중 언어 시스템을 바탕으로 다국어 MT 시스템이 개선되었습니다. 학습 데이터가 풍부한 언어 쌍에서 학습 리소스가 적은 다른 언어로 리소스를 '전달'할 수 있었기 때문입니다.
수백 개의 언어 쌍을 대상으로 함께 학습을 진행할 경우 단점이 있습니다. 동일한 모델을 통해 동일한 수의 매개변수를 사용하여 엄청나게 많은 수의 언어를 나타내야 하기 때문입니다. 이는 데이터 세트 규모의 불균형이 심할 때 문제가 됩니다. 과적합을 유발할 수 있기 때문입니다.
Meta의 모델을 통해 생성된 번역이 자체 품질 기준에 부합하는지 알아내려면 평가를 진행해야 합니다.
기계 번역 모델은 보통 기계로 번역된 문장을 사람의 번역과 비교하여 평가되지만 많은 언어에서 신뢰할 수 있는 번역 데이터가 부재한 상황입니다. 따라서 정확한 평가가 불가능합니다.
번역 가능한 언어 개수별로 모델의 발전 단계를 확인해보세요
NLP 커뮤니티에 공개적으로 공유된 대규모 다국어 문장 표현에 대한 첫 탐구를 성공적으로 진행했습니다. 인코더는 50개 언어로 의미가 동일한 문장들을 자동으로 짝 짓기 위한 임베딩(embedding)을 만듭니다.
Facebook AI 모델이 WMT 2019에서 다른 모든 모델을 능가하는 결과를 냈습니다. 여기에서는 견고한 시스템을 만들기 위해 대규모 샘플링 역번역, 잡음 통신로 모델링 및 데이터 정화 기법을 활용했습니다.
영어와 리소스가 적은 언어 간의 MT를 위한 벤치마킹 데이터 세트로, 2개 언어부터 시작하여 공정하고 철저한 평가 절차를 도입했습니다.
여러 언어에 걸쳐 병렬 문장을 추출한 것 중 가장 규모가 컸습니다. 더 나은 번역 모델을 만들기 위해 1,620개 언어 쌍에서 1억 3천 5백만 개의 Wikipedia 문장을 이중 텍스트 방식으로 추출했습니다.
영어 데이터에 의존하지 않고 100개 언어 중 임의의 쌍을 바로 번역할 수 있는 최초의 단일 다국어 기계 번역 모델입니다. 이전의 다국어 모델들보다 10배 더 많은 수준인 2,200개의 언어 방향을 바탕으로 학습이 진행되었습니다.
더 많은 언어, 특히 리소스가 적은 언어에 적용할 수 있는 개선된 번역 모델을 만들기 위한 고품질의 웹 기반 이중 텍스트로 구성된 최대 규모(576개 언어 쌍의 병렬 문장 45억 개)의 데이터 세트입니다.
100개 언어로 의미가 동일한 문장들을 자동으로 짝 짓기 위한 임베딩(embedding)을 만듭니다.
최초로, 단일 다국어 모델이 리소스가 적은 언어와 리소스가 많은 언어 모두에 대해 최고의 번역을 제공하며 14개 중 10개의 언어 쌍에 걸쳐 특별한 훈련을 거친 최고의 이중 언어 모델을 능가하는 결과를 내 WMT 2021에서 우승했습니다.
FLORES-101은 유례를 찾아보기 힘든 다대다 평가 데이터 세트로, 101개 언어를 다룹니다. 연구진은 이를 통해 빠르게 테스트를 완료하고 M2M-100과 같은 다국어 번역 모델을 개선할 수 있었습니다.
NLLB 모델은 200개 언어를 번역합니다.
FLORES 평가 데이터 세트를 확장한 것으로, 현재 200개 언어를 다룹니다.
200개 언어를 위해 구성되어 공개된 학습 데이터입니다.
200개 언어로 의미가 동일한 문장들을 자동으로 짝 짓기 위한 임베딩(embedding)을 만듭니다.
50개 언어 미만
50~100개 언어
100개 언어
200개 언어
NLP 커뮤니티에 공개적으로 공유된 대규모 다국어 문장 표현에 대한 첫 탐구를 성공적으로 진행했습니다. 인코더는 50개 언어로 의미가 동일한 문장들을 자동으로 짝 짓기 위한 임베딩(embedding)을 만듭니다.
Facebook AI 모델이 WMT 2019에서 다른 모든 모델을 능가하는 결과를 냈습니다. 여기에서는 견고한 시스템을 만들기 위해 대규모 샘플링 역번역, 잡음 통신로 모델링 및 데이터 정화 기법을 활용했습니다.
영어와 리소스가 적은 언어 간의 MT를 위한 벤치마킹 데이터 세트로, 2개 언어부터 시작하여 공정하고 철저한 평가 절차를 도입했습니다.
여러 언어에 걸쳐 병렬 문장을 추출한 것 중 가장 규모가 컸습니다. 더 나은 번역 모델을 만들기 위해 1,620개 언어 쌍에서 1억 3천 5백만 개의 Wikipedia 문장을 이중 텍스트 방식으로 추출했습니다.
영어 데이터에 의존하지 않고 100개 언어 중 임의의 쌍을 바로 번역할 수 있는 최초의 단일 다국어 기계 번역 모델입니다. 이전의 다국어 모델들보다 10배 더 많은 수준인 2,200개의 언어 방향을 바탕으로 학습이 진행되었습니다.
더 많은 언어, 특히 리소스가 적은 언어에 적용할 수 있는 개선된 번역 모델을 만들기 위한 고품질의 웹 기반 이중 텍스트로 구성된 최대 규모(576개 언어 쌍의 병렬 문장 45억 개)의 데이터 세트입니다.
100개 언어로 의미가 동일한 문장들을 자동으로 짝 짓기 위한 임베딩(embedding)을 만듭니다.
최초로, 단일 다국어 모델이 리소스가 적은 언어와 리소스가 많은 언어 모두에 대해 최고의 번역을 제공하며 14개 중 10개의 언어 쌍에 걸쳐 특별한 훈련을 거친 최고의 이중 언어 모델을 능가하는 결과를 내 WMT 2021에서 우승했습니다.
FLORES-101은 유례를 찾아보기 힘든 다대다 평가 데이터 세트로, 101개 언어를 다룹니다. 연구진은 이를 통해 빠르게 테스트를 완료하고 M2M-100과 같은 다국어 번역 모델을 개선할 수 있었습니다.
NLLB 모델은 200개 언어를 번역합니다.
FLORES 평가 데이터 세트를 확장한 것으로, 현재 200개 언어를 다룹니다.
200개 언어를 위해 구성되어 공개된 학습 데이터입니다.
200개 언어로 의미가 동일한 문장들을 자동으로 짝 짓기 위한 임베딩(embedding)을 만듭니다.
Acehnese (Latin script)
Arabic (Iraqi/Mesopotamian)
Arabic (Yemen)
Arabic (Tunisia)
Afrikaans
Arabic (Jordan)
Akan
Amharic
Arabic (Lebanon)
Arabic (MSA)
Arabic (Modern Standard Arabic)
Arabic (Saudi Arabia)
Arabic (Morocco)
Arabic (Egypt)
Assamese
Asturian
Awadhi
Aymara
Crimean Tatar
Welsh
Danish
German
French
Friulian
Fulfulde
Dinka(Rek)
Dyula
Dzongkha
Greek
English
Esperanto
Estonian
Basque
Ewe
Faroese
Iranian Persian
Icelandic
Italian
Javanese
Japanese
Kabyle
Kachin | Jinghpo
Kamba
Kannada
Kashmiri (Arabic script)
Kashmiri (Devanagari script)
Georgian
Kanuri (Arabic script)
Kanuri (Latin script)
Kazakh
Kabiye
Thai
Khmer
Kikuyu
South Azerbaijani
North Azerbaijani
Bashkir
Bambara
Balinese
Belarusian
Bemba
Bengali
Bhojpuri
Banjar (Latin script)
Tibetan
Bosnian
Buginese
Bulgarian
Catalan
Cebuano
Czech
Chokwe
Central Kurdish
Fijian
Finnish
Fon
Scottish Gaelic
Irish
Galician
Guarani
Gujarati
Haitian Creole
Hausa
Hebrew
Hindi
Chhattisgarhi
Croatian
Hugarian
Armenian
Igobo
IIocano
Indonesian
Kinyarwanda
Kyrgyz
Kimbundu
Konga
Korean
Kurdish (Kurmanji)
Lao
Latvian (Standard)
Ligurian
Limburgish
Lingala
Lithuanian
Lombard
Latgalian
Luxembourgish
Luba-Kasai
Ganda
Dholuo
Mizo
Foundational models
Latest news
Foundational models