No Language Left Behind (NLLB) — это инновационный проект в области ИИ, который предоставляет открытый доступ к моделям, способным обеспечивать высококачественный перевод на 200 языков, включая низкоресурсные языки (астурийский, луганда, урду и др.). Цель проекта — дать людям возможность получать и распространять веб-контент на родном языке, а также общаться где и с кем угодно независимо от языковых предпочтений.
No Language Left Behind (NLLB) — это инновационный проект в области ИИ, который предоставляет открытый доступ к моделям, способным обеспечивать высококачественный перевод на 200 языков, включая низкоресурсные языки (астурийский, луганда, урду и др.). Цель проекта — дать людям возможность получать и распространять веб-контент на родном языке, а также общаться где и с кем угодно независимо от языковых предпочтений.
Мы хотим помочь людям общаться друг с другом, поэтому используем технологии моделирования и другие разработки в рамках проекта NLLB, чтобы улучшить качество перевода низкоресурсных языков на Facebook и в Instagram. Внедрив эти технологии в системы перевода наших продуктов, мы поможем людям налаживать крепкие и значимые связи на их родном или предпочитаемом языке. В будущем мы планируем использовать технологии NLLB и в других приложениях Meta.
Один из наших приоритетов в процессе создания метавселенной — внедрение текстового перевода AR- и VR-продуктов в реальном времени на сотни языков. Мы стремимся создать новый стандарт инклюзивности, благодаря которому в будущем каждый сможет получить доступ к контенту, устройствам и приложениям виртуального мира, а также общаться в метавселенной с кем угодно на любом языке. Наша конечная цель — сделать возможным общение на глобальном уровне.
Технология модели NLLB-200 теперь доступна в инструменте перевода контента Фонда Викимедиа и помогает редакторам Википедии переводить информацию на родные и предпочитаемые языки. Редакторы Википедии используют эту технологию для эффективного перевода и редактирования статей на редко употребляемых языках, таких как луганда и исландский. Благодаря этому больше читателей по всему миру получат доступ к знаниям в Википедии. Модель NLLB-200, которая находится в открытом доступе, также упрощает работу сообществ исследователей и редакторов Википедии.
Демо-версия Stories Told Through Translation использует последние достижения в области ИИ, полученные в рамках проекта No Language Left Behind. Она позволяет переводить книги с исходного языка, например индонезийского, сомалийского или бирманского, на язык читателя. В ближайшие месяцы станут доступны несколько сотен языков. Благодаря этой инициативе NLLB-200 станет первой моделью искусственного интеллекта, способной переводить литературу в таком масштабе.
Выполняется сбор данных для обучения, которые содержат предложения на исходном и целевом языках.
Собрав и упорядочив данные, мы создаем тысячи направлений обучения и используем их в процессе обучения моделей. Каждая модель включает в себя два элемента: кодировщик, который преобразовывает исходное предложение во внутреннее векторное представление, и декодер, который принимает это представление и генерирует целевое предложение. Обрабатывая миллионы примеров, модели учатся генерировать более точные переводы.
Мы оцениваем модель, то есть сравниваем ее работу с набором предложений, переведенных человеком, чтобы проверить качество машинного перевода. Кроме того, модель выявляет и отфильтровывает нецензурные выражения и другой оскорбительный контент с помощью списков, которые мы создаем для всех поддерживаемых языков. Результат — хорошо обученная модель, которая выполняет прямой перевод на нужный язык.
Выполняется сбор данных для обучения, которые содержат предложения на исходном и целевом языках.
Собрав и упорядочив данные, мы создаем тысячи направлений обучения и используем их в процессе обучения моделей. Каждая модель включает в себя два элемента: кодировщик, который преобразовывает исходное предложение во внутреннее векторное представление, и декодер, который принимает это представление и генерирует целевое предложение. Обрабатывая миллионы примеров, модели учатся генерировать более точные переводы.
Мы оцениваем модель, то есть сравниваем ее работу с набором предложений, переведенных человеком, чтобы проверить качество машинного перевода. Кроме того, модель выявляет и отфильтровывает нецензурные выражения и другой оскорбительный контент с помощью списков, которые мы создаем для всех поддерживаемых языков. Результат — хорошо обученная модель, которая выполняет прямой перевод на нужный язык.
Машинный перевод — это задача обучения с учителем, предполагающая обучение модели на основе данных. Обычно для этого используются наборы данных с примерами перевода из открытых источников. Мы автоматически создаем пары перевода, связывая предложения из разных наборов одноязычных документов.
В процессе создания наборов данных используются модели LASER, которые поддерживают в основном средне- и высокоресурсные языки, поэтому генерировать точные пары перевода для низкоресурсных языков невозможно.
Многоязычные системы машинного перевода более эффективны, чем двуязычные, поскольку способны обеспечить передачу информации от языковых пар с большим объемом данных для обучения в другие языки с меньшим количеством ресурсов.
У одновременного обучения сотен языковых пар есть свои недостатки, поскольку одна модель должна представлять всё больше и больше языков при одинаковом количестве параметров. Эта проблема возникает, если наборы данных отличаются по размеру, что может привести к переобучению.
Чтобы понять, соответствует ли выполненный моделью перевод нашим стандартам качества, мы должны его оценить.
Обычно для оценки моделей машинного обучения переведенные ими предложения сравниваются с человеческим переводом. Однако для многих языков надежные данные по переводу недоступны, поэтому точная оценка невозможна.
Чтобы узнать больше о технологии проекта NLLB, ознакомьтесь с соответствующим документом и публикацией в блоге, а также скачайте модель и помогите нам с дальнейшим развитием проекта.
Этапы развития модели по количеству освоенных языков
Первая успешная попытка создания массовых многоязычных представлений предложений. Мы открыли к ней доступ сообществу специалистов в области NLP. Кодировщик создает встраивания и автоматически связывает предложения с одним и тем же смыслом на 50 языках.
Модели искусственного интеллекта Facebook оказались лучшими на конференции WMT-2019. Мы используем широкомасштабный выборочный обратный перевод, моделирование каналов с добавлением шума и технологии очистки данных, которые помогают создавать эффективные системы.
Стандартный набор данных для машинного перевода между английским и низкоресурсными языками, обеспечивающий точный процесс оценки на 2 языках.
Самая крупная коллекция параллельных предложений на разных языках: 135 миллионов предложений на 1 620 языковых парах, извлеченные компанией Bitext из Википедии, позволяют создавать эффективные модели перевода.
Первая и единственная многоязычная модель машинного перевода, которая обеспечивает прямой перевод в любых парах между 100 языками без использования данных на английском. Она обучена на основе 2 200 языковых направлений, что в 10 раз превышает показатели предыдущих многоязычных моделей.
Самый большой набор данных высококачественных параллельных текстов, извлеченных из Интернета, позволяет создавать эффективные модели перевода для большего количества языков, в частности низкоресурсных. Он содержит 4,5 миллиарда параллельных предложений на 576 языковых парах.
Создает встраивания и автоматически связывает предложения с одним и тем же смыслом на 100 языках.
Впервые одна многоязычная модель превзошла лучшие специально обученные двуязычные модели в 10 из 14 языковых пар. Наша модель победила на конференции WMT-2021, предоставив лучшие переводы как для низко-, так и для высокоресурсных языков.
FLORES-101 — это первый в своем роде набор данных для оценки типа "многие ко многим", который охватывает 101 язык и позволяет исследователям быстро тестировать и улучшать многоязычные модели перевода, такие как M2M-100.
Модель NLLB выполняет перевод с 200 языков.
Расширение набора данных для оценки FLORES, которое охватывает 200 языков.
Доступные тестовые данные для обучения на 200 языках.
Создает встраивания и автоматически связывает предложения с одним и тем же смыслом на 200 языках.
< 50 языков
50–100 языков
100 языков
200 языков
Первая успешная попытка создания массовых многоязычных представлений предложений. Мы открыли к ней доступ сообществу специалистов в области NLP. Кодировщик создает встраивания и автоматически связывает предложения с одним и тем же смыслом на 50 языках.
Модели искусственного интеллекта Facebook оказались лучшими на конференции WMT-2019. Мы используем широкомасштабный выборочный обратный перевод, моделирование каналов с добавлением шума и технологии очистки данных, которые помогают создавать эффективные системы.
Стандартный набор данных для машинного перевода между английским и низкоресурсными языками, обеспечивающий точный процесс оценки на 2 языках.
Самая крупная коллекция параллельных предложений на разных языках: 135 миллионов предложений на 1 620 языковых парах, извлеченные компанией Bitext из Википедии, позволяют создавать эффективные модели перевода.
Первая и единственная многоязычная модель машинного перевода, которая обеспечивает прямой перевод в любых парах между 100 языками без использования данных на английском. Она обучена на основе 2 200 языковых направлений, что в 10 раз превышает показатели предыдущих многоязычных моделей.
Самый большой набор данных высококачественных параллельных текстов, извлеченных из Интернета, позволяет создавать эффективные модели перевода для большего количества языков, в частности низкоресурсных. Он содержит 4,5 миллиарда параллельных предложений на 576 языковых парах.
Создает встраивания и автоматически связывает предложения с одним и тем же смыслом на 100 языках.
Впервые одна многоязычная модель превзошла лучшие специально обученные двуязычные модели в 10 из 14 языковых пар. Наша модель победила на конференции WMT-2021, предоставив лучшие переводы как для низко-, так и для высокоресурсных языков.
FLORES-101 — это первый в своем роде набор данных для оценки типа "многие ко многим", который охватывает 101 язык и позволяет исследователям быстро тестировать и улучшать многоязычные модели перевода, такие как M2M-100.
Модель NLLB выполняет перевод с 200 языков.
Расширение набора данных для оценки FLORES, которое охватывает 200 языков.
Доступные тестовые данные для обучения на 200 языках.
Создает встраивания и автоматически связывает предложения с одним и тем же смыслом на 200 языках.
Acehnese (Latin script)
Arabic (Iraqi/Mesopotamian)
Arabic (Yemen)
Arabic (Tunisia)
Afrikaans
Arabic (Jordan)
Akan
Amharic
Arabic (Lebanon)
Arabic (MSA)
Arabic (Modern Standard Arabic)
Arabic (Saudi Arabia)
Arabic (Morocco)
Arabic (Egypt)
Assamese
Asturian
Awadhi
Aymara
Crimean Tatar
Welsh
Danish
German
French
Friulian
Fulfulde
Dinka(Rek)
Dyula
Dzongkha
Greek
English
Esperanto
Estonian
Basque
Ewe
Faroese
Iranian Persian
Icelandic
Italian
Javanese
Japanese
Kabyle
Kachin | Jinghpo
Kamba
Kannada
Kashmiri (Arabic script)
Kashmiri (Devanagari script)
Georgian
Kanuri (Arabic script)
Kanuri (Latin script)
Kazakh
Kabiye
Thai
Khmer
Kikuyu
South Azerbaijani
North Azerbaijani
Bashkir
Bambara
Balinese
Belarusian
Bemba
Bengali
Bhojpuri
Banjar (Latin script)
Tibetan
Bosnian
Buginese
Bulgarian
Catalan
Cebuano
Czech
Chokwe
Central Kurdish
Fijian
Finnish
Fon
Scottish Gaelic
Irish
Galician
Guarani
Gujarati
Haitian Creole
Hausa
Hebrew
Hindi
Chhattisgarhi
Croatian
Hugarian
Armenian
Igobo
IIocano
Indonesian
Kinyarwanda
Kyrgyz
Kimbundu
Konga
Korean
Kurdish (Kurmanji)
Lao
Latvian (Standard)
Ligurian
Limburgish
Lingala
Lithuanian
Lombard
Latgalian
Luxembourgish
Luba-Kasai
Ganda
Dholuo
Mizo
Foundational models
Latest news
Foundational models