Meta AI는 단일 AI 모델인 NLLB-200을 개발했습니다. 최초로 200개 언어를 탁월한 품질로 번역하는 이 AI 모델은 각각의 언어에 대한 광범위한 평가를 통해 검증되었습니다.
또한 새로운 평가 데이터 세트인 FLORES-200을 개발했으며, 각 언어에 대한 번역 품질이 우수한지 확인하기 위해 NLLB-200의 성능을 측정했습니다. NLLB-200은 이전에 비해 평균 44% 개선된 성능을 보여주었습니다.
Meta AI는 현재 Facebook, Instagram 및 Wikipedia의 번역을 개선하고 확장하는 프로젝트를 통해 학습한 내용과 모델링 기법을 사용하고 있습니다.
또한 다른 연구자들이 각자의 번역 도구를 개선하고 Meta AI의 작업에 기여할 수 있도록 하기 위해 NLLB-200 모델, FLORES-200, 모델 훈련 코드, 훈련 데이터 세트 재생성 코드를 오픈 소싱하고 있습니다.
언어는 우리의 문화이자 정체성인 동시에 세상을 돌아가게 하는 생명줄입니다. 하지만 수백 개 언어에 대한 고품질 번역 도구가 없기 때문에 현재 수십 억 인구가 모국어 또는 원하는 언어로 디지털 콘텐츠에 액세스하거나 대화 및 커뮤니티에 제대로 참여하지 못하고 있습니다. 특히 수억 명에 달하는 아프리카 및 아시아 지역의 다양한 언어 사용자가 이러한 문제를 겪고 있습니다.
사람들이 더 가깝게 교류하고 미래의 메타버스에 참여할 수 있도록 돕기 위해 Meta AI 연구자들은 세계 대부분의 언어를 위한 고품질 기계 번역 기능 개발 프로젝트인 NLLB(No Language Left Behind)를 시작했습니다. 오늘 저희는 NLLB의 중요한 성과를 발표하려고 합니다. Meta AI는 200개 언어를 탁월한 품질로 번역하는 단일 AI 모델인 NLLB-200을 개발했습니다. 이러한 언어 중 다수(예: 캄바어, 라오어)는 현존하는 최고의 번역 도구에서도 전혀, 또는 제대로 지원되지 않았습니다. 널리 사용되는 번역 도구에서 현재 지원되는 아프리카 언어는 25개가 채 되지 않으며, 그중에서도 다수 언어의 번역 품질은 형편없습니다. 이와 달리 NLLB-200은 55개 아프리카 언어를 지원하며 높은 품질의 번역 결과를 제공합니다. 전체적으로, 이 단일 모델은 전 세계 수십 억 인구가 사용하는 언어에 대해 뛰어난 품질의 번역을 제공할 수 있습니다. NLLB-200의 BLEU 점수는 FLORES-101 벤치마크의 1만 개 번역 방향 모두에 걸쳐 이전에 비해 평균 44% 개선되었습니다. 일부 아프리카 및 인도 언어의 경우 최신 번역 시스템에 비해 70% 더 우수합니다.
Meta AI는 현재 다른 연구자들이 더 많은 언어로 지원 범위를 확장하고 보다 포용적인 기술을 개발할 수 있도록 NLLB-200 모델을 오픈 소싱하고 있으며 다양한 연구 도구를 공개하고 있습니다. 또한 NLLB-200의 실제 적용을 위해 비영리 단체에 20만 달러 규모의 보조금도 제공하고 있습니다.
NLLB 연구 성과는 매일 Facebook 뉴스피드, Instagram 및 기타 Meta 플랫폼에서 제공되는 250억 개 이상의 번역을 지원할 것입니다. 좋아하는 Facebook 그룹을 방문해서 이그보우어 또는 루간다어로 작성된 게시물을 발견하고, 간단히 버튼을 클릭하여 여러분의 언어로 내용을 이해할 수 있게 되는 것을 떠올려보세요. 더 많은 언어에서 매우 정확한 번역을 사용할 수 있게 되면 유해한 콘텐츠와 잘못된 정보를 찾아내고, 선거 공정성을 보호하고, 온라인 공간에서의 성적 학대와 인신매매 사례를 근절하는 데도 도움이 될 수 있습니다. 모델링 기법과 NLLB 연구를 통해 학습한 내용은 현재 Wikipedia 편집자들이 사용하는 번역 시스템에도 적용되고 있습니다.
번역은 사람들의 일상 생활에 영향을 미치기 때문에 AI에서 가장 흥미로운 영역 중 하나입니다. NLLB는 사람들이 웹 콘텐츠에 더 편리하게 액세스할 수 있게 하는 것 이상을 목표로 합니다. 사람들이 여러 언어로 더 쉽게 기여하고 정보를 공유할 수 있게 할 것입니다. 앞으로 해야 할 일이 많지만, 저희는 최근의 진전 사항과 이를 바탕으로 Meta의 목표를 실현하는 데 한 걸음 더 다가간다는 것에서 힘을 얻고 있습니다.
여기서 NLLB-200 모델이 전 세계 소식을 어떻게 번역할 수 있는지 데모를 살펴보고 연구 보고서를 읽어보실 수 있습니다.
Meta AI는 Wikipedia 내 번역 시스템을 개선하기 위해 Wikipedia 및 기타 무료 지식 프로젝트를 호스팅하는 비영리 단체인 Wikimedia Foundation과 파트너십을 맺었습니다. Wikipedia는 300개 이상의 언어로 된 다양한 버전을 제공하지만, 영어로 이용 가능한 문서는 600만 개가 넘는 반면 기타 언어로 이용 가능한 문서는 훨씬 적습니다. 이러한 격차는 특히 유럽 및 북미 이외의 지역에서 주로 사용되는 언어에서 크게 벌어집니다. 예를 들어 콩고 민주 공화국, 콩고 공화국, 중앙아프리카 공화국, 남수단에서 4,500만 명이 사용하는 언어인 링갈라어로 작성된 Wikipedia 문서는 약 3,260개입니다. 이와 대조적으로 스웨덴어는 스웨덴과 핀란드에서 1,000만 명이 사용하지만 문서 수는 250만 개가 넘습니다.
Wikipedia 편집자들은 현재 Wikimedia Foundation의 콘텐츠 번역 도구를 통해 NLLB-200의 토대가 된 기술을 사용하여 리소스가 적은 언어(AI 시스템 훈련을 위한 데이터 세트가 충분하지 않은 언어) 20개 이상에 대한 번역을 제공하고 있으며, 여기에는 이전에 해당 플랫폼의 기계 번역 도구에서 지원되지 않았던 10개 언어도 포함되어 있습니다.
AI 모델과 같은 기계 번역 시스템은 데이터를 기반으로 훈련됩니다. 텍스트 번역 시스템의 경우 데이터는 일반적으로 여러 언어 간에 주의 깊게 매칭되는 수백만 개 문장으로 이루어집니다. 하지만 예를 들어 영어와 풀라어의 경우, 이 두 언어를 병렬로 매칭할 수 있는 문장의 양이 많지 않습니다. 현재 번역 모델은 웹에서 데이터를 마이닝하여 이 문제를 극복하려고 합니다. 그러나 각 언어에 대한 소스 텍스트가 다르기 때문에 번역 품질이 낮은 경우가 많습니다. 뿐만 아니라 부정확하거나 일관성 없는 철자가 많이 포함되어 있고 강세 표시와 기타 발음 구분 기호가 없는 경우도 많습니다.
또 다른 큰 문제는 성능 또는 번역 품질을 낮추지 않고 수백 개 언어에서 원활하게 작동하도록 단일 모델을 최적화하는 것입니다. 기존 방식으로는 최고의 번역 품질을 얻기 위해 각 언어 방향마다 별도의 모델이 필요했습니다. 하지만 언어 수가 늘어날수록 성능과 번역 품질이 낮아지기 때문에 이러한 방식을 확장하기는 어렵습니다.
또한 번역 모델은 포착하기 어려운 오류를 생성합니다. 이러한 시스템은 텍스트 생성에 사용되는 신경망을 토대로 빌드되었기 때문에 당연히 착각(사실이 아닌데도 불구하고 사실인 것으로 진술), 잘못된 서술, 안전하지 않은 콘텐츠와 같은 오류를 생성할 수 있습니다. 일반적으로 리소스가 적은 언어는 벤치마크와 데이터 세트가 매우 적기 때문에 모델을 테스트하고 개선하기가 훨씬 더 어렵습니다.
Meta AI는 최근 몇 년 동안 위에 설명한 문제들을 극복하기 위해 꾸준한 진전을 이루어 왔습니다. 저희는 2020년에 100개 언어의 M2M-100 번역 모델을 발표했습니다. 이 모델은 훈련 데이터를 수집하는 새로운 방식, 성능을 저하시키지 않고 모델 규모를 확장하기 위한 새로운 아키텍처, 결과를 평가하고 개선하기 위한 새로운 방법을 활용했습니다. 다른 100개 언어로 확장하기 위해 이 세 가지 영역을 모두 추가로 개선했습니다.
더 많은 언어에서 매우 정확한 병렬 텍스트를 수집하기 위해 자연어 처리(NLP)의 제로 샷 전송 툴킷인 LASER를 개선했습니다. LASER3의 새로운 버전에서는 LSTM 대신 마스킹된 언어 모델링을 목표로 자가 지도 방식으로 훈련된 Transformer 모델을 사용합니다. 또한 교사-학생 훈련 절차를 사용하고 언어 그룹별 인코더를 만들어 성능을 높여서 LASER3로 지원되는 언어 범위를 확장하고 리소스가 적은 언어를 포함해 문장 쌍을 대량으로 생성했습니다. Meta AI는 다른 연구자들이 사용할 수 있도록 LASER3 다국어 통합 방법을 오픈 소싱하고 있으며, 위에 설명한 기법을 통해 마이닝하고 정제한 다양한 언어 쌍의 병렬 문장도 수십억 개 제공하고 있습니다.
더 많은 언어에서 훈련 예시를 소싱할 때 폭넓은 범위를 대상으로 했기 때문에 예시 품질을 높게 유지하는 것이 중요했습니다. 200개 언어로 확장하기 위해 데이터 정제 파이프라인을 전체적으로 점검했으며, 인터넷 규모 말뭉치(코퍼스)로부터 높은 신뢰도로 데이터를 필터링하고 잡음을 삭제하기 위해 최초로 LID-200 모델을 사용하는 것을 포함한 주요 필터링 단계를 추가했습니다. 200개 언어 전체 세트에 대한 유독성 리스트를 개발한 다음 이를 활용하여 착각을 일으킬 가능성이 있는 유독성을 평가하고 필터링했습니다. 이러한 단계를 통해 정확하게 식별된 언어로 더욱 정제되고 유독성이 덜한 데이터 세트를 구축했습니다. 이는 번역 품질을 개선하고 착각을 일으키는 유독성의 위험을 줄이는 데 중요합니다. 이러한 유독성은 번역 과정 중에 유독한 콘텐츠가 시스템에 잘못 포함되게 합니다.
다국어 번역 시스템은 두 가지 중요한 이점을 제공합니다. 아삼어와 벵갈어처럼 유사한 두 언어(둘 다 벵갈어 문자로 작성됨)가 훈련 중에 데이터를 공유할 수 있습니다. 이렇게 하면 리소스가 적은 언어를 리소스가 많은 유사 언어와 함께 훈련하여 번역 품질을 크게 개선할 수 있습니다. 또한 연구자들은 단일 다국어 모델을 사용하여 수백, 수천 개에 달하는 이중 언어 모델을 사용하는 것보다 훨씬 쉽게 반복하고, 확장하고, 실험할 수 있습니다.
하지만 100개 언어를 위한 모델의 대상을 200개 언어로 확장할 때 여전히 중대한 어려움이 존재합니다. 훈련 데이터에 리소스가 적은 언어 쌍이 늘어나면 더 긴 기간 동안 모델을 훈련하기 때문에 다국어 시스템에서 과적합 문제가 발생합니다. 저희는 세 가지 요소를 바탕으로 혁신하여 이러한 문제를 해결했습니다. 바로 정규화와 커리큘럼 학습, 자가 지도 학습, 역번역 다양화입니다.
먼저 데이터가 별로 없어 리소스가 적은 언어가 자동으로 공유 역량을 이용할 수 있도록 전문 공유 역량을 갖춘 전문가 혼합 네트워크를 개발했습니다. 이를 더 잘 설계된 정규화 시스템과 함께 활용할 경우 과적합을 방지할 수 있습니다. 또한 2단계 커리큘럼 학습 방식을 따랐습니다. 먼저 리소스가 많은 언어를 몇 차례에 걸쳐 훈련한 다음 리소스가 적은 언어 쌍을 추가함으로써 과적합 문제를 더 줄였습니다. 그런 다음 리소스가 적은 언어에 대한 소량의 병렬 이중 텍스트 데이터를 사용하여 리소스가 적은 언어와 그와 유사한 리소스가 많은 언어 둘 다에 대해 단일 언어 데이터 기반의 자가 지도 학습을 활용함으로써 전체 모델 성능을 개선했습니다.
마지막으로, 역번역 데이터를 가장 잘 생성하는 방법을 분석하고 이중 언어 통계 기계 번역과 다국어 신경 기계 번역 모델에서 생성된 역번역 데이터를 혼합하는 것이 생성된 합성 데이터의 다양성을 높이기 때문에 리소스가 적은 언어의 번역 성능을 개선하는 데 도움이 되었다는 사실을 확인했습니다. 매개변수가 540억 개인 NLLB-200 모델을 훈련하기 위해 새로 개발된 Research SuperCluster(RSC)를 사용했습니다. 이는 세계에서 가장 빠른 AI 슈퍼컴퓨터 중 하나입니다.
저희는 NLLB-200를 평가하고 개선하기 위해 고유한 다대다 평가 데이터 세트인 FLORES-200을 개발했습니다. 연구자들은 FLORES-200을 사용하여 40,000개의 서로 다른 언어 방향에서 성능을 평가할 수 있습니다. 저희는 다른 연구자들이 각자의 번역 모델을 빠르게 테스트하고 개선할 수 있도록 하기 위해 이 새로운 데이터 세트를 오픈 소싱하고 있습니다. FLORES-200을 사용하면 리소스가 적은 언어를 여러 개 사용하는 국가나 지역에서 보건 팜플렛, 영화, 도서, 온라인 콘텐츠를 포함한 다양한 용도에 대해 번역 시스템을 평가할 수 있습니다.
200개 언어로 확장한다는 것은 유독한 콘텐츠가 생성될 위험을 없애는 것을 의미했습니다. 이는 여러 방향의 번역 시스템 내에서는 관리하기 어려울 수 있습니다. 저희는 지원되는 모든 언어에 대한 유독성 리스트를 만들어 비속어 및 기타 불쾌할 수 있는 콘텐츠를 감지하고 필터링할 수 있게 함으로써 이 문제를 해결했습니다. 현재 Meta AI는 다른 연구자들도 각자의 번역 모델에서 위험을 줄일 수 있도록 200개 언어 전체에 대한 유독성 리스트 및 벤치마크를 배포하고 있습니다.
또한 책임감 있는 방식으로 이러한 노력을 확대해나가기 위해 저희가 고려하는 각 언어에 대해 자세히 알아보고자 언어학자, 사회학자, 윤리학자를 포함한 다학제 팀과 협력하고 있습니다.
고품질 번역 도구는 큰 변화를 가져올 수 있습니다. 오늘날의 현실에서는 영어, 북경어, 스페인어, 아랍어를 포함한 소수 언어가 웹을 지배하고 있습니다. 이렇게 널리 사용되는 언어의 원어민들은 자신의 모국어로 무엇인가를 읽는다는 것이 얼마나 의미있는 일인지 간과하기 쉽습니다. 저희는 NLLB가 정서/콘텐츠를 잘못 전달할 가능성이 높은 중간 언어를 항상 필요로 하지 않고 원래 공유하려고 했던 언어 그대로 보존하는 데 도움이 될 것이라고 믿습니다.
NLLB는 번역에 국한되지 않고 다른 NLP 작업을 진행하는 데도 도움이 될 수 있습니다. 예를 들어 자바어, 우즈벡어와 같은 언어에서 원활하게 작동하는 지원 도구를 개발하거나 발리우드 영화에 스와힐리어나 오로모어로 정확한 자막을 추가하는 시스템을 개발하는 것 등입니다. 메타버스가 그 형태를 갖춰나가기 시작하면서 수백, 수천 개 언어로 원활하게 작동하는 기술을 개발할 수 있는 능력은 가상 세계의 새로운 몰입형 경험에 대한 접근을 민주화하는 데 진정으로 도움이 될 것입니다.
불과 몇 년 전까지만 해도 고품질의 기계 번역은 소수 언어만 지원했습니다. NLLB-200을 통해 사람들이 누구와도 의사소통할 수 있도록 지원하는 시스템을 사용하게 될 날이 더 가까이 다가왔습니다. 저희는 NLLB-200이 현재 제공할 이점과, 기계 번역의 한계를 지속적으로 넓혀감에 따라 미래에 제공할 수 있는 이점에 기대를 갖고 있습니다.
이 연구는 Meta AI 다학제 팀에서 수행되고 있으며, 이 팀에는 바비 아쿨라(Bapi Akula), 피에르 앤드루스(Pierre Andrews), 네킵 파질 아얀(Necip Fazil Ayan), 로이크 바로(Loic Barrault), 쉬루티 보세일(Shruti Bhosale), 마르타 루이즈 코스타후사(Marta Ruiz Costa-jussa), 제임스 크로스(James Cross), 오누르 셀레비(Onur Çelebi), 세르게이 에두노프(Sergey Edunov), 마하 엘바야드(Maha Elbayad), 안젤라 팬(Angela Fan), 신시아 가오(Cynthia Gao), 가브리엘 메야 곤잘레스(Gabriel Mejia Gonzalez), 베다누즈 고스와미(Vedanuj Goswami), 프란시스코 구즈만(Francisco Guzmán), 프랑팁 한사티(Prangthip Hansanti), 케네트 히필드(Kennet Heafield), 케빈 헤퍼넌(Kevin Heffernan), 존 호프먼(John Hoffman), 세말리 자렛(Semarley Jarrett), 엘라헤 칼바시(Elahe Kalbassi), 필립 코언(Philipp Koehn), 재니스 람(Janice Lam), 다니엘 리히트(Daniel Licht), 진 마이야르(Jean Maillard), 알렉산더 무라츠코(Alexandre Mourachko), 크리스토프 로퍼스(Christophe Ropers), 카우시크 람 사다고판(Kaushik Ram Sadagopan), 사피야 살림(Safiyyah Saleem), 홀거 슈웽크(Holger Schwenk), 섀넌 스프루트(Shannon Spruit), 애나 선(Anna Sun), 차우 트란(Chau Tran), 스카일러 왕(Skyler Wang), 기욤 웬젝(Guillaume Wenzek), 제프 왕(Jeff Wang), 그리고 Al Youngblood가 참여했습니다.
Foundational models
Latest news
Foundational models