A Meta AI criou um modelo único de IA, o NLLB-200. É o primeiro modelo a traduzir para 200 idiomas diferentes com qualidade de última geração validada através de extensas avaliações para cada um dos idiomas.
Também criámos um novo conjunto de dados de avaliação, o FLORES-200, e medimos o desempenho do NLLB-200 em cada idioma para confirmar que as traduções são de alta qualidade. O NLLB-200 ultrapassa a tecnologia de última geração anterior numa média de 44%.
Neste momento, estamos a utilizar aprendizagens e técnicas de elaboração de modelos baseadas no projeto para melhorar e expandir as traduções no Facebook, no Instagram e na Wikipedia.
Estamos a fazer o open-sourcing dos modelos do NLLB-200, do FLORES-200, do código de treino do modelo e do código para recriar o conjunto de dados de treino, de modo a ajudar outros investigadores a melhorarem as suas ferramentas de tradução e tirarem partido do nosso trabalho.
O idioma representa a nossa cultura, a nossa identidade e os nossos princípios perante o resto do mundo. Mas como não existem ferramentas de tradução de alta qualidade para centenas de idiomas, há milhares de milhões de pessoas que não conseguem aceder aos conteúdos digitais ou participar plenamente em conversas e comunidades online nos seus idiomas preferenciais ou nativos. Esta é a realidade de centenas de milhões de pessoas que falam os vários idiomas africanos e asiáticos.
Para ajudar as pessoas a interagirem melhor neste momento e a fazerem parte do metaverso do futuro, os investigadores da Meta AI criaram o projeto Nenhum Idioma Deixado para Trás (NLLB – No Language Left Behind), num esforço para desenvolver capacidades de tradução automática de alta qualidade para grande parte dos idiomas de todo o mundo. Hoje, estamos a anunciar um importante avanço no NLLB: criámos um modelo único de IA, designado NLLB-200, que traduz 200 idiomas diferentes com resultados de última geração. Muitos destes idiomas, como o kamba e o lao, não eram devidamente suportados, ou nem sequer eram suportados, pelas melhores ferramentas de tradução existentes neste momento. Atualmente, menos de 25 idiomas africanos são suportados por ferramentas de tradução amplamente utilizadas e muitas delas são de má qualidade. Em contrapartida, o NLLB-200 suporta 55 idiomas africanos com resultados de alta qualidade. No total, este modelo único pode fornecer traduções de alta qualidade para idiomas falados por milhares de milhões de pessoas em todo o mundo. No total, as pontuações BLEU do NLLB-200 são melhoradas, em comparação com a tecnologia de última geração anterior, numa média de 44% em todas as 10 mil direções da referência FLORES-101. No caso de alguns idiomas africanos e indianos, o aumento é superior a 70% em relação aos sistemas de tradução recentes.
Estamos a fazer o open-sourcing do modelo NLLB-200 e a publicar uma série de ferramentas de investigação para permitir que outros investigadores façam chegar este trabalho a mais idiomas e criem tecnologias mais inclusivas. A Meta AI está também a atribuir até 200 000 dólares de subsídios a organizações sem fins lucrativos para aplicações do NLLB-200 no mundo real.
Os progressos da investigação do NLLB vão apoiar mais de 25 mil milhões de traduções apresentadas todos os dias no Feed de Notícias do Facebook, no Instagram e nas nossas outras plataformas. Imagina aceder a um grupo favorito do Facebook, encontrar uma publicação em igbo ou luganda e conseguir compreendê-la no teu próprio idioma com apenas o clique de um botão. As traduções altamente precisas em mais idiomas também podem ajudar a detetar conteúdos prejudiciais e desinformação, proteger a integridade eleitoral e reduzir casos de exploração sexual e tráfico de pessoas online. Também estão a ser aplicadas aprendizagens e técnicas de elaboração de modelos da nossa investigação NLLB aos sistemas de tradução utilizados pelos editores da Wikipédia.
A tradução é uma das áreas mais entusiasmantes da IA devido ao seu impacto na vida diária das pessoas. O NLLB consiste em muito mais do que em apenas dar às pessoas um melhor acesso aos conteúdos na web. As pessoas vão poder contribuir e partilhar mais facilmente informações nos vários idiomas. Temos mais trabalho pela frente, mas estamos entusiasmados com os nossos progressos recentes e com a forma como nos estão a aproximar da concretização da missão da Meta.
Podes explorar uma demonstração do NLLB-200 aqui, que mostra como o modelo consegue traduzir histórias de todo o mundo, e ler o artigo de investigação aqui.
Estabelecemos uma parceria com a Wikimedia Foundation, a organização sem fins lucrativos que aloja a Wikipédia e outros projetos de conhecimento livre, para ajudar a melhorar os sistemas de tradução na Wikipédia. Existem versões da Wikipédia em mais de 300 idiomas, mas a maioria tem muito menos artigos do que os mais de 6 milhões disponíveis em inglês. Esta disparidade é especialmente significativa nos idiomas falados fora da Europa e da América do Norte. Por exemplo, existem cerca de 3260 artigos da Wikipédia em lingala, um idioma falado por 45 milhões de pessoas na República Democrática do Congo, na República do Congo, na República Centro-Africana e no Sudão do Sul. Compara isto com um idioma como o sueco, que tem 10 milhões de falantes na Suécia e na Finlândia e mais de 2,5 milhões de artigos.
Os editores da Wikipédia estão agora a utilizar a tecnologia do NLLB-200, através da Ferramenta de Tradução de Conteúdos da Wikimedia Foundation, para traduzir artigos em mais de 20 idiomas de poucos recursos (aqueles que não possuem conjuntos de dados extensos para treinar os sistemas de IA), incluindo 10 que não eram suportados por qualquer ferramenta de tradução automática na plataforma.
Os sistemas de tradução automática, como todos os modelos de IA, são treinados com base em dados. No caso dos sistemas de tradução de textos, isto consiste normalmente em milhões de frases cuidadosamente combinadas entre idiomas. Mas não há grandes volumes de frases paralelas em, digamos, inglês e fula. Os modelos de tradução atuais tentam ultrapassar esta questão com a extração de dados da web. Mas os resultados são muitas vezes de má qualidade, porque o texto original é diferente para cada um dos idiomas. Além disso, está frequentemente repleto de ortografias incorretas ou inconsistentes e falta de acentuação e de outros sinais diacríticos.
Outro desafio significativo consiste em otimizar um modelo único para trabalhar em centenas de idiomas sem comprometer o desempenho ou a qualidade da tradução. Tradicionalmente, a melhor qualidade da tradução resulta de haver um modelo separado para cada direção linguística. Mas é difícil escalar esta abordagem, uma vez que o desempenho e a qualidade da tradução são afetados à medida que se adicionam mais idiomas.
Os modelos de tradução também produzem erros cuja deteção pode ser difícil. Estes sistemas são criados com base em redes neurais utilizadas para a produção de texto. Por isso, podem naturalmente produzir erros como alucinações (declarar com confiança que algo é verdadeiro mesmo que não seja), declarações inexatas e conteúdos inseguros. De modo geral, existem menos referências e conjuntos de dados para idiomas de poucos recursos, o que torna muito mais difícil testar e melhorar os modelos.
Nos últimos anos, fizemos progressos contínuos para ultrapassar os desafios acima descritos. Em 2020, anunciámos o nosso modelo de tradução M2M-100 para 100 idiomas, que tirou partido de novos métodos para obter dados de treino, de novas arquiteturas para escalar o tamanho do modelo sem comprometer o desempenho e de novas formas de avaliar e melhorar os resultados. Para escalar para mais 100 idiomas, fizemos mais progressos nestas três áreas.
Para recolher textos paralelos altamente precisos em mais idiomas, melhorámos o LASER, o nosso kit de ferramentas para a transferência "zero-shot" no processamento de linguagem natural (PLN). Em vez do LSTM, a nova versão, o LASER3, utiliza um modelo Transformer que é treinado de forma automaticamente supervisionada, com um objetivo de modelação de linguagem mascarada. Melhorámos ainda mais o desempenho ao utilizar um procedimento de treino professor-aluno e ao criar codificadores específicos para grupos linguísticos, o que nos permitiu escalar a cobertura linguística do LASER3 e produzir grandes quantidades de pares de frases, mesmo para idiomas com poucos recursos. Estamos a fazer o open-sourcing do método de integração multilingue LASER3 para disponibilizá-lo a outros investigadores e estamos também a disponibilizar milhares de milhões de frases paralelas em diferentes pares de idiomas, que foram extraídas e limpas com as técnicas aqui descritas.
Como lançámos uma rede mais ampla na procura de exemplos de treino em mais idiomas, foi importante garantir que a qualidade dos exemplos se mantinha elevada. Reformulámos totalmente o nosso canal de limpeza de dados para escalar para os 200 idiomas, ao acrescentar passos de filtragem importantes que incluíram a utilização dos nossos modelos LID-200 para filtrar dados e remover ruído da corpora à escala da Internet com grande confiança. Elaborámos listas de toxicidade para o conjunto completo dos 200 idiomas e, depois, utilizámos essas listas para avaliar e filtrar a potencial toxicidade alucinada. Estes passos garantiram que temos conjuntos de dados mais limpos e menos tóxicos com idiomas corretamente identificados, o que é importante para melhorar a qualidade da tradução e reduzir o risco do que é conhecido como toxicidade alucinada, em que o sistema introduz incorretamente conteúdos tóxicos durante o processo de tradução.
Os sistemas de tradução multilingue proporcionam dois grandes benefícios. Permitem que idiomas semelhantes, como o assamês e o bengali, ambos escritos em bengali, partilhem dados durante o treino, o que ajuda a melhorar significativamente a qualidade da tradução para idiomas de poucos recursos, quando treinados em conjunto com idiomas semelhantes de muitos recursos. Além disso, os investigadores podem iterar, escalar e experimentar muito mais facilmente um modelo multilingue único do que centenas ou mesmo milhares de modelos bilingues diferentes.
Mas persistem desafios significativos ao expandir um modelo de 100 para 200 idiomas. Com mais pares de idiomas de poucos recursos nos dados de treino, os sistemas multilingues começam a sobreajustar-se à medida que treinamos os modelos durante períodos mais longos. Abordámos estas questões ao inovar em três frentes: regularização e aprendizagem curricular, aprendizagem automaticamente supervisionada e diversificação da retroversão.
Em primeiro lugar, desenvolvemos redes com vários especialistas que têm capacidade partilhada e especializada para que os idiomas de poucos recursos sem muitos dados possam ser automaticamente encaminhados para a capacidade partilhada. Isto, combinado com sistemas de regularização mais bem concebidos, evita o sobreajuste. Também seguimos uma abordagem de aprendizagem curricular de dois passos: primeiro, treinámos os idiomas com muitos recursos durante algumas épocas, antes de introduzirmos os pares de idiomas de poucos recursos, o que reduziu o problema de sobreajuste. Depois, tendo em consideração as reduzidas quantidades de dados bitext paralelos para idiomas de poucos recursos, tirámos partido da aprendizagem automaticamente supervisionada de dados monolingues, tanto nos idiomas de poucos recursos como nos idiomas semelhantes de muitos recursos, para melhorar o desempenho global do modelo.
Por último, analisámos a melhor forma de gerar dados de retroversão e descobrimos que a combinação de dados retrovertidos gerados pela tradução automática estatística bilingue e pelos modelos de tradução automática neural multilingue ajudou a melhorar o desempenho dos idiomas de poucos recursos, graças ao aumento da diversidade dos dados sintéticos gerados. Para treinar o modelo NLLB-200, que possui parâmetros 54B, aproveitámos o nosso modelo recém-criado Research SuperCluster (RSC), que está entre os supercomputadores de IA mais rápidos do mundo.
Para avaliar e melhorar o NLLB-200, construímos o FLORES-200, um conjunto único de dados de avaliação muitos-para-muitos que permite aos investigadores avaliarem o desempenho em 40 000 direções linguísticas diferentes. Estamos a fazer o open-sourcing deste novo conjunto de dados para ajudar outros investigadores a testarem e melhorarem rapidamente os seus modelos de tradução. O FLORES-200 pode ser utilizado para avaliar os sistemas de tradução num vasto leque de aplicações, incluindo panfletos sobre saúde, filmes, livros e conteúdos online nos países ou nas regiões onde se falam idiomas de poucos recursos.
Para escalar para 200 idiomas, foi necessário abordar os riscos de produção de conteúdos tóxicos, cuja gestão pode ser difícil num sistema de tradução multidirecional. Fizemo-lo ao criar listas de toxicidade para todos os idiomas suportados, de forma a ser possível detetar e filtrar profanidades e outros conteúdos potencialmente ofensivos. Estamos a lançar as listas de avaliação de toxicidade e as referências para todos os 200 idiomas. Assim, os investigadores têm as ferramentas para reduzir os riscos nos seus modelos.
Além disso, para garantir que expandimos os nossos esforços de forma responsável, estamos a trabalhar com uma equipa interdisciplinar que inclui linguistas, sociólogos e especialistas em ética para saber mais sobre cada um dos idiomas em questão.
As ferramentas de tradução de alta qualidade podem ser transformadoras. Atualmente, apenas um pequeno conjunto de idiomas, incluindo o inglês, o mandarim, o espanhol e o árabe, dominam a web. Os falantes nativos destes idiomas amplamente falados podem não estar cientes de como é significativo ler algo na própria língua materna. Acreditamos que o NLLB vai ajudar a preservar os idiomas tal como devem ser partilhados, em vez de ser sempre necessário um idioma intermediário que muitas vezes se engana nos sentimentos/conteúdos.
Também pode contribuir para o progresso noutras tarefas de PLN, para além da tradução, o que pode incluir a criação de assistentes que funcionam bem em idiomas como o javanês e o usbeque, ou a criação de sistemas para apresentar filmes de Bollywood e adicionar legendas precisas em suaíli ou oromo. À medida que o metaverso começa a ganhar forma, a capacidade de criar tecnologias que funcionem bem em centenas, ou mesmo milhares, de idiomas vai realmente ajudar a democratizar o acesso a experiências novas e imersivas em mundos virtuais.
Há poucos anos, a tradução automática de alta qualidade funcionava apenas para alguns idiomas. Com o NLLB-200, estamos mais próximos de um dia termos sistemas que permitam às pessoas comunicarem com quem quiserem. Estamos entusiasmados pelas novas oportunidades que isto cria no presente e com o que pode significar para o futuro, à medida que continuamos a ultrapassar os limites das traduções automáticas.
Este trabalho está a ser realizado por uma equipa multidisciplinar na Meta AI que inclui Bapi Akula, Pierre Andrews, Necip Fazil Ayan, Loic Barrault, Shruti Bhosale, Marta Ruiz Costa-jussa, James Cross, Onur Çelebi, Sergey Edunov, Maha Elbayad, Angela Fan, Cynthia Gao, Gabriel Mejia Gonzalez, Vedanuj Goswami, Francisco Guzmán, Prangthip Hansanti, Kennet Heafield, Kevin Heffernan, John Hoffman, Semarley Jarrett, Elahe Kalbassi, Philipp Koehn, Janice Lam, Daniel Licht, Jean Maillard, Alexandre Mourachko, Christophe Ropers, Kaushik Ram Sadagopan, Safiyyah Saleem, Holger Schwenk, Shannon Spruit, Anna Sun, Chau Tran, Skyler Wang, Guillaume Wenzek, Jeff Wang e Al Youngblood.
Foundational models
Latest news
Foundational models