No Language Left Behind (ou NLLB, nenhuma língua fica para trás, em tradução livre) é um projeto pioneiro e inovador de IA, com modelos de código aberto capazes de fornecer traduções diretas, avaliadas e de alta qualidade para 200 idiomas, incluindo aqueles com poucos recursos, como asturiano, luganda e urdu, entre outros. O objetivo do projeto é dar às pessoas a oportunidade de acessar e compartilhar conteúdo da web na língua materna, além de se comunicar com qualquer pessoa em qualquer lugar, independentemente das preferências linguísticas.
No Language Left Behind (ou NLLB, nenhuma língua fica para trás, em tradução livre) é um projeto pioneiro e inovador de IA, com modelos de código aberto capazes de fornecer traduções diretas, avaliadas e de alta qualidade para 200 idiomas, incluindo aqueles com poucos recursos, como asturiano, luganda e urdu, entre outros. O objetivo do projeto é dar às pessoas a oportunidade de acessar e compartilhar conteúdo da web na língua materna, além de se comunicar com qualquer pessoa em qualquer lugar, independentemente das preferências linguísticas.
Temos o compromisso de aproximar as pessoas. É por isso que estamos usando técnicas de modelagem e aprendizados das nossas pesquisas sobre o NLLB para melhorar as traduções de idiomas com poucos recursos no Facebook e no Instagram. Com a aplicação dessas técnicas e aprendizados aos nossos sistemas que produzem traduções, as pessoas poderão criar conexões mais autênticas e significativas na língua materna ou no idioma de preferência. No futuro, esperamos expandir os nossos aprendizados do NLLB para outros apps da Meta.
Enquanto nos preparamos para o metaverso, a integração de traduções em tempo real de textos em AR/VR em centenas de idiomas é uma prioridade. Nosso objetivo é estabelecer um novo padrão de inclusão, em que todos um dia possam ter acesso a conteúdos, dispositivos e experiências no mundo virtual, além da habilidade de se comunicar com qualquer pessoa em qualquer idioma no metaverso. Ao longo do tempo, queremos aproximar as pessoas em escala global.
A ferramenta Tradutor de conteúdo, criada pela fundação Wikimedia, usa a tecnologia por trás do modelo NLLB-200 para ajudar revisores a traduzir informações para as próprias línguas maternas e idiomas de preferência. Os revisores da Wikipédia estão usando a tecnologia para obter mais eficiência ao traduzir e revisar artigos criados em idiomas raros, como luganda e islandês. Isso facilita a difusão de conhecimento em mais idiomas para os leitores da Wikipédia no mundo inteiro. O modelo de código aberto NLLB-200 também ajudará os pesquisadores e as comunidades de revisores interessados da Wikipedia a ir além a partir do nosso trabalho.
Experimente o poder da tradução de IA com Histórias contadas pela tradução, nossa demonstração que usa os mais recentes avanços de IA do projeto No Language Left Behind. Essa demonstração traduz livros dos idiomas de origem, como indonésio, somali e birmanês, para outros. Centenas de idiomas estarão disponíveis nos próximos meses. Por meio dessa iniciativa, o NLLB-200 será o primeiro modelo de IA capaz de traduzir literatura nessa escala.
Os dados de treinamento coletados contêm frases no idioma de entrada e no idioma de saída desejado.
Após a criação de dados correspondentes para o treinamento em milhares de direções, os dados são enviados ao pipeline de treinamento do modelo. Esses modelos se dividem em duas partes: o codificador, que converte a frase de entrada em uma representação vetorial interna, e o decodificador, que recebe essa representação vetorial interna e gera a frase de saída correta. Os modelos aprendem a gerar traduções mais precisas por meio do treinamento de milhões de exemplos de tradução.
Por fim, avaliamos o modelo em relação a um conjunto de frases traduzidas por humanos para confirmar se a qualidade da tradução é satisfatória. Isso inclui detectar e filtrar linguagem ofensiva e outros conteúdos prejudiciais com base em listas de toxicidade criadas para todos os idiomas compatíveis. O resultado é um modelo bem treinado que pode traduzir um idioma de maneira direta.
Os dados de treinamento coletados contêm frases no idioma de entrada e no idioma de saída desejado.
Após a criação de dados correspondentes para o treinamento em milhares de direções, os dados são enviados ao pipeline de treinamento do modelo. Esses modelos se dividem em duas partes: o codificador, que converte a frase de entrada em uma representação vetorial interna, e o decodificador, que recebe essa representação vetorial interna e gera a frase de saída correta. Os modelos aprendem a gerar traduções mais precisas por meio do treinamento de milhões de exemplos de tradução.
Por fim, avaliamos o modelo em relação a um conjunto de frases traduzidas por humanos para confirmar se a qualidade da tradução é satisfatória. Isso inclui detectar e filtrar linguagem ofensiva e outros conteúdos prejudiciais com base em listas de toxicidade criadas para todos os idiomas compatíveis. O resultado é um modelo bem treinado que pode traduzir um idioma de maneira direta.
A MT é uma tarefa de aprendizado supervisionada. Isso significa que o modelo precisa de dados com os quais aprender. Exemplos de traduções provenientes de coleções de dados de código aberto são usados com frequência. Nossa solução é a construção automática de pares de tradução por meio do emparelhamento de frases em diferentes coleções de documentos monolíngues.
Os modelos LASER usados para esse processo de criação de conjuntos de dados são compatíveis principalmente com idiomas com nível médio a alto de recursos. Isso torna impossível produzir pares de tradução precisos para idiomas com poucos recursos.
Sistemas de MT multilíngues foram aprimorados com base em sistemas bilíngues. Isso se deve à capacidade deles de permitir a "transferência" de pares de idiomas com muitos dados de treinamento para outros idiomas com menos recursos de treinamento.
O treinamento conjunto de centenas de pares de idiomas tem as suas desvantagens, já que o mesmo modelo deve representar um número cada vez maior de idiomas com o mesmo número de parâmetros. Isso é um problema quando os tamanhos dos conjuntos de dados não são equilibrados, uma vez que pode causar sobreajuste.
Para saber se uma tradução produzida pelo nosso modelo atende aos nossos padrões de qualidade, precisamos avaliá-la.
Os modelos de tradução automática normalmente são avaliados comparando frases traduzidas por máquina com traduções humanas. No entanto, para muitos idiomas, não há dados de tradução confiáveis disponíveis. Com isso, não é possível fazer avaliações precisas.
Para saber mais sobre a ciência por trás do NLLB, leia o nosso artigo técnico e o blog. Baixe o modelo para nos ajudar a levar esse projeto adiante.
Veja marcos dos modelos por número de idiomas lançados
A primeira exploração bem-sucedida de representações de frases multilíngues em massa, compartilhada publicamente com a comunidade de PNL. O codificador cria incorporações para emparelhar automaticamente frases que têm o mesmo significado em 50 idiomas.
Os modelos de IA do Facebook superaram todos os outros modelos na conferência WMT 2019. Eles usaram amostras de tradução reversa em grande escala, modelagem de canais com ruídos e técnicas de refinamento de dados para ajudar a criar um sistema robusto.
Um conjunto de dados de referência para MT entre o inglês e idiomas com poucos recursos, que lançou um processo de avaliação justo e rigoroso, começando com dois idiomas.
A maior extração de frases paralelas em vários idiomas. Foi extraído um corpus paralelo de 135 milhões de frases da Wikipedia em 1.620 pares de idiomas com o objetivo de criar modelos de tradução melhores.
O primeiro modelo de tradução automática multilíngue a traduzir diretamente entre qualquer par de 100 idiomas sem depender de dados em inglês. Treinado em 2.200 direções linguísticas, dez vezes mais do que os modelos multilíngues anteriores.
O maior conjunto de dados de corpus paralelo de alta qualidade baseados na web para a criação de modelos de tradução melhores, que funcionam com mais idiomas, especialmente idiomas com poucos recursos. São 4,5 bilhões de frases paralelas em 576 pares de idiomas.
Cria incorporações para emparelhar automaticamente frases que têm o mesmo significado em 100 idiomas.
Pela primeira vez, um único modelo multilíngue superou os melhores modelos bilíngues especialmente treinados em 10 dos 14 pares de idiomas e ganhou a WMT 2021. Ele forneceu as melhores traduções para idiomas com poucos e muitos recursos.
O FLORES-101 é o primeiro conjunto de dados de avaliação do tipo e abrange 101 idiomas. Ele permite que pesquisadores testem e melhorem rapidamente modelos de tradução multilíngues como o M2M-100.
O modelo NLLB traduz 200 idiomas.
Expansão do conjunto de dados de avaliação FLORES, que agora abrange 200 idiomas
Dados de treinamento construídos e lançados para 200 idiomas
Cria incorporações para emparelhar automaticamente frases que têm o mesmo significado em 200 idiomas.
Menos de 50 idiomas
50 a 100 idiomas
100 idiomas
200 idiomas
A primeira exploração bem-sucedida de representações de frases multilíngues em massa, compartilhada publicamente com a comunidade de PNL. O codificador cria incorporações para fazer a correspondência automática de frases que têm o mesmo significado em 50 idiomas.
Os modelos de IA do Facebook superaram todos os outros modelos na conferência WMT 2019. Eles usaram amostras de tradução reversa em grande escala, modelagem de canais com ruídos e técnicas de refinamento de dados para ajudar a criar um sistema robusto.
Um conjunto de dados referencial para a tradução automática entre o inglês e idiomas com poucos recursos, que lançou um processo de avaliação justo e rigoroso, começando com dois idiomas.
A maior extração de frases paralelas em vários idiomas. Foi extraído um corpus paralelo de 135 milhões de frases da Wikipédia em 1.620 pares de idiomas com o objetivo de criar modelos de tradução melhores.
O primeiro modelo de tradução automática multilíngue que traduz diretamente qualquer par entre 100 idiomas sem depender de dados em inglês. Treinado em 2.200 direções linguísticas, dez vezes mais do que os modelos multilíngues anteriores.
O maior conjunto de dados de corpus paralelo de alta qualidade extraído da web para a criação de modelos de tradução aprimorados que funcionam com mais idiomas, especialmente idiomas com poucos recursos. São 4,5 bilhões de frases paralelas em 576 pares de idiomas.
Cria incorporações para fazer a correspondência automática de frases que têm o mesmo significado em 100 idiomas.
Pela primeira vez, um modelo multilíngue superou os melhores modelos bilíngues especialmente treinados em dez dos 14 pares de idiomas e ganhou a WMT 2021. Ele forneceu as melhores traduções para idiomas com poucos e muitos recursos.
O FLORES-101 é o primeiro conjunto de dados avaliativo muitos-para-muitos que abrange 101 idiomas. Com ele, os pesquisadores podem testar e melhorar com rapidez os modelos de tradução multilíngues, como o M2M-100.
O modelo do NLLB traduz 200 idiomas.
Expansão do conjunto de dados avaliativo FLORES, que agora abrange 200 idiomas
Dados de treinamento construídos e lançados para 200 idiomas
Cria incorporações para fazer a correspondência automática de frases que têm o mesmo significado em 200 idiomas.
Acehnese (Latin script)
Arabic (Iraqi/Mesopotamian)
Arabic (Yemen)
Arabic (Tunisia)
Afrikaans
Arabic (Jordan)
Akan
Amharic
Arabic (Lebanon)
Arabic (MSA)
Arabic (Modern Standard Arabic)
Arabic (Saudi Arabia)
Arabic (Morocco)
Arabic (Egypt)
Assamese
Asturian
Awadhi
Aymara
Crimean Tatar
Welsh
Danish
German
French
Friulian
Fulfulde
Dinka(Rek)
Dyula
Dzongkha
Greek
English
Esperanto
Estonian
Basque
Ewe
Faroese
Iranian Persian
Icelandic
Italian
Javanese
Japanese
Kabyle
Kachin | Jinghpo
Kamba
Kannada
Kashmiri (Arabic script)
Kashmiri (Devanagari script)
Georgian
Kanuri (Arabic script)
Kanuri (Latin script)
Kazakh
Kabiye
Thai
Khmer
Kikuyu
South Azerbaijani
North Azerbaijani
Bashkir
Bambara
Balinese
Belarusian
Bemba
Bengali
Bhojpuri
Banjar (Latin script)
Tibetan
Bosnian
Buginese
Bulgarian
Catalan
Cebuano
Czech
Chokwe
Central Kurdish
Fijian
Finnish
Fon
Scottish Gaelic
Irish
Galician
Guarani
Gujarati
Haitian Creole
Hausa
Hebrew
Hindi
Chhattisgarhi
Croatian
Hugarian
Armenian
Igobo
IIocano
Indonesian
Kinyarwanda
Kyrgyz
Kimbundu
Konga
Korean
Kurdish (Kurmanji)
Lao
Latvian (Standard)
Ligurian
Limburgish
Lingala
Lithuanian
Lombard
Latgalian
Luxembourgish
Luba-Kasai
Ganda
Dholuo
Mizo
Foundational models
Latest news
Foundational models