Ямар ч хэл үлдээгүй (NLLB) гэдэг нь эх сурвалж багатай Астури, Луганда, Урду зэрэг хэлийг оролцуулаад нийт 200 хэлний хооронд, үнэлэгдсэн, өндөр чанартай орчуулгыг шууд хүргэх боломжтой нээлттэй эхийн загвар бүхий анхны хиймэл оюун ухааны нээлт төсөл юм. Энэ нь хүмүүст төрөлх хэлээрээ веб контент руу нэвтрэх, хуваалцах, хэлний сонголтоосоо үл хамааран хаанаас ч, хэнтэй ч харилцах боломжийг олгох зорилготой юм.
Ямар ч хэл үлдээгүй (NLLB) гэдэг нь эх сурвалж багатай Астури, Луганда, Урду зэрэг хэлийг оролцуулаад нийт 200 хэлний хооронд, үнэлэгдсэн, өндөр чанартай орчуулгыг шууд хүргэх боломжтой нээлттэй эхийн загвар бүхий анхны хиймэл оюун ухааны нээлт төсөл юм. Энэ нь хүмүүст төрөлх хэлээрээ веб контент руу нэвтрэх, хуваалцах, хэлний сонголтоосоо үл хамааран хаанаас ч, хэнтэй ч харилцах боломжийг олгох зорилготой юм.
Бид хүмүүсийг нэгтгэх зорилготой. Тийм ч учраас бид Facebook болон Instagram дээрх эх сурвалж багатай хэлнүүдийн орчуулгыг сайжруулахын тулд загварчлалын техник, NLLB судалгааныхаа мэдлэгээс ашиглаж байна. Эдгээр техник, мэдлэгийг манай бүтээмжийн орчуулгын системд хэрэглэснээр хүмүүс өөрсдийн дуртай хэл эсвэл төрөлх хэлээрээ илүү жинхэнэ, илүү утга учиртай холболт хийх боломжтой болно. Ирээдүйд бид NLLB-ээс эхлэн илүү олон Meta хэрэглүүрүүд рүү мэдлэгээ тэлэх болно гэж найдаж байна.
Метаверсийг бүтээхдээ олон зуун хэл дээр бодит цагийн AR/VR текст орчуулгыг нэгтгэх нь нэн тэргүүний зорилт юм. Бидний зорилго бол хэзээ нэгэн цагт хүн бүр виртуал ертөнцийн контент, төхөөрөмж, туршлагад хандах боломжтой, хэнтэй ч, ямар ч хэлээр метаверсэд харилцах боломжтой болох шинэ стандартыг тогтоох явдал юм. Цаг хугацаа өнгөрөхөд хүмүүсийг дэлхийн хэмжээнд нэгтгэх.
NLLB-200 загварын цаадах технологи нь одоо Wikimedia сангийн Контент орчуулгын хэрэгслээр дамжуулан Wikipedia редакторуудыг эх хэл рүүгээ болон дуртай хэл рүүгээ мэдээлэл орчуулахад нь дэмжлэг үзүүлж байна. Wikipedia редакторууд энэ технологийг Луганда, Исланд зэрэг дутуу илэрхийлэгддэг хэлнээс гаралтай нийтлэлүүдийг илүү үр дүнтэй орчуулж, засварлахад ашиглаж байна. Энэ нь дэлхийн өнцөг булан бүрд байгаа Wikipedia-гийн уншигчдад илүү олон хэлээр илүү их мэдлэг олгоход тусалдаг. Нээлттэй эхийн NLLB-200 загвар нь судлаачид болон сонирхож буй Wikipedia редакторуудын хүрээлэлд бидний ажлыг бүтээхэд туслах болно.
Орчуулгаар Өгүүлсэн Түүхүүдээр хиймэл оюуны орчуулгын хүчийг мэдрээрэй, Ямар ч хэл үлдээгүй төслийн хамгийн сүүлийн үеийн хиймэл оюун ухааны дэвшилтүүдийг ашигласан манай демо. Энэхүү демо нь Индонез, Сомали, Бирм зэрэг төрөлх хэлнээс нь номуудыг олон хэл рүү уншигчдад зориулан орчуулж, ирэх саруудад хэдэн зуугаараа уншигдах боломжтой болно. Энэхүү санаачилгаар NLLB-200 нь ийм хэмжээний уран зохиол орчуулах боломжтой анхны хиймэл оюун ухаантай загвар болох юм.
Оролтын хэл болон хүссэн гаралтын хэл дээрх өгүүлбэрүүдийг агуулсан сургалтын өгөгдлийг цуглуулдаг.
Олон мянган сургалтын чиглэлүүдэд тохирсон сургалтын өгөгдлийг үүсгэсний дараа энэ өгөгдлийг манай сургалтын загвар дамжуулах системд оруулдаг. Эдгээр загвар нь хоёр хэсгээс бүрдэнэ: оролтын өгүүлбэрийг дотоод вектор дүрслэл болгон хувиргадаг кодлогч; мөн энэ дотоод вектор дүрслэлийг авч, гаралтын өгүүлбэрийг үнэн зөв үүсгэдэг тайлж уншигч. Сая сая жишээ орчуулгад сургаснаар загварууд нь илүү нарийвчлалтай орчуулга үүсгэж сурдаг.
Эцэст нь орчуулгын чанарт сэтгэл хангалуун байгаагаа батлахын тулд бид загвараа хүний орчуулсан өгүүлбэрийн орчуулгатай харьцуулан үнэлдэг. Үүнд бидний дэмжигдсэн бүх хэлэнд зориулан гаргасан хортой байдлын жагсаалтыг ашиглан хараалын үг болон бусад доромжилсон контентыг илрүүлж, шүүх орно. Үр дүн нь хэлийг шууд орчуулах чадвартай, сайн бэлтгэгдсэн загвар юм.
Оролтын хэл болон хүссэн гаралтын хэл дээрх өгүүлбэрүүдийг агуулсан сургалтын өгөгдлийг цуглуулдаг.
Олон мянган сургалтын чиглэлүүдэд тохирсон сургалтын өгөгдлийг үүсгэсний дараа энэ өгөгдлийг манай сургалтын загвар дамжуулах системд оруулдаг. Эдгээр загвар нь хоёр хэсгээс бүрдэнэ: оролтын өгүүлбэрийг дотоод вектор дүрслэл болгон хувиргадаг кодлогч; мөн энэ дотоод вектор дүрслэлийг авч, гаралтын өгүүлбэрийг үнэн зөв үүсгэдэг тайлж уншигч. Сая сая жишээ орчуулгад сургаснаар загварууд нь илүү нарийвчлалтай орчуулга үүсгэж сурдаг.
Эцэст нь орчуулгын чанарт сэтгэл хангалуун байгаагаа батлахын тулд бид загвараа хүний орчуулсан өгүүлбэрийн орчуулгатай харьцуулан үнэлдэг. Үүнд бидний дэмжигдсэн бүх хэлэнд зориулан гаргасан хортой байдлын жагсаалтыг ашиглан хараалын үг болон бусад доромжилсон контентыг илрүүлж, шүүх орно. Үр дүн нь хэлийг шууд орчуулах чадвартай, сайн бэлтгэгдсэн загвар юм.
Машины орчуулга нь хяналттай сургалтын даалгавар бөгөөд энэ нь загварт суралцахын тулд өгөгдөл хэрэгтэй гэсэн үг юм. Нээлттэй эхийн өгөгдлийн цуглуулгаас орчуулсан жишээг ихэвчлэн ашигладаг. Бидний шийдэл бол нэг хэлтэй баримт бичгийн янз бүрийн цуглуулгад өгүүлбэрүүдийг хослуулах замаар орчуулгын хослолыг автоматаар бүтээх явдал юм.
Энэхүү өгөгдлийн багц үүсгэх үйл явцад ашигласан LASER загварууд нь дунд болон өндөр эх сурвалжтай хэлнүүдийг дэмждэг тул бага эх сурвалжтай хэлнүүдэд үнэн зөв орчуулга хийх боломжгүй болгодог.
Олон хэлний машины орчуулгын системийг хоёр хэлний систем дээр сайжруулсан. Энэ нь сургалтын өгөгдөл ихтэй хос хэлнээс сургалтын нөөц багатай бусад хэл рүү “шилжүүлэх” чадвартай холбоотой юм.
Олон зуун хэлний хослолыг хамт сургах нь сул талуудтай, учир нь ижил загвар нь ижил тооны параметр бүхий улам олон тооны хэлийг илэрхийлэх ёстой. Энэ нь өгөгдлийн багцын хэмжээ тэнцвэргүй байх үед тохиолддог асуудал бөгөөд энэ нь хэт тохируулга үүсгэж болзошгүй юм.
Манай загвараар хийсэн орчуулга нь манай чанарын стандартад нийцэж байгаа эсэхийг мэдэхийн тулд бид үүнийг үнэлэх ёстой.
Машины орчуулгын загварыг ихэвчлэн машин орчуулсан өгүүлбэрийг хүний орчуулгатай харьцуулах замаар үнэлдэг боловч олон хэлний хувьд орчуулгын найдвартай өгөгдөл байдаггүй. Тиймээс үнэн зөв үнэлгээ өгөх боломжгүй.
NLLB-ийн цаадах шинжлэх ухааны талаар илүү ихийг олж мэдэхийн тулд манай танилцуулга болон блогийг уншиж, энэ төслийг цаашид хэрэгжүүлэхэд туслах загварыг татаж аваарай.
Загварын үе шатуудыг гаргасан # хэлээр харна уу
NLP хүрээлэлтэй олон нийтэд хуваалцсан олон хэл дээрх өгүүлбэрүүдийн анхны амжилттай судалгаа. Кодлогч нь 50 хэл дээрх ижил утгатай өгүүлбэрүүдийг автоматаар хослуулахын тулд оруулга үүсгэдэг.
FB хиймэл оюун ухааны загварууд нь WMT 2019-д бусад бүх загвараас давж, том хэмжээний түүвэрчилсэн орчуулга, дуу чимээтэй сувгийн загварчлал, өгөгдөл цэвэрлэх арга техникийг ашиглан хүчирхэг системийг бий болгосон.
2 хэлнээс эхлээд шударга бөгөөд нарийн үнэлгээний үйл явцыг нэвтрүүлсэн англи хэл болон бага эх сурвалжтай хэлнүүдийн хоорондын машины орчуулгын жишиг өгөгдлийн багц.
Олон хэл дээрх зэрэгцээ өгүүлбэрүүдийн хамгийн том задрал: Илүү сайн орчуулгын загвар бүтээхийн тулд 1620 хэлний хослолоор 135 сая Wikipedia өгүүлбэрийг бит текстээр задалсан.
Англи хэл дээрх өгөгдөлд найдахгүйгээр дурын хос 100 хэлний хооронд шууд орчуулах анхны, олон хэл дээрх машин орчуулгын загвар. Өмнөх олон хэлтэй загваруудаас 10 дахин их—2200 хэлний чиглэлээр сургасан.
Илүү олон хэл, ялангуяа эх сурвалж багатай хэлнүүдтэй ажиллах илүү сайн орчуулгын загвар бүтээхэд зориулсан өндөр чанартай, вебэд суурилсан бит текстүүдийн хамгийн том өгөгдлийн багц: 576 хос хэлний 4,5 тэрбум зэрэгцээ өгүүлбэр.
100 хэл дээр ижил утгатай өгүүлбэрүүдийг автоматаар хослуулахын тулд шигтгээ үүсгэдэг.
Дан олон хэлтэй загвар нь анх удаагаа WMT 2021-д 14 хэлний хосын 10-д нь тусгайлан бэлтгэгдсэн хос хэлний шилдэг загваруудыг гүйцэж түрүүлж, бага болон их эх сурвалжтай хэлний аль алинд нь хамгийн сайн орчуулга хийсэн.
FLORES-101 нь 101 хэлийг хамарсан анхны, олноос олонд үнэлгээний өгөгдлийн багц бөгөөд судлаачдад M2M-100 гэх мэт олон хэл дээрх орчуулгын загварыг хурдан турших, сайжруулах боломжийг олгодог.
NLLB загвар нь 200 хэл орчуулдаг.
Одоо 200 хэлийг хамарсан FLORES үнэлгээний өгөгдлийн багцын өргөжилт
200 хэлний сургалтын өгөгдлийг бүтээж, гаргасан
200 хэл дээр ижил утгатай өгүүлбэрүүдийг автоматаар хослуулахын тулд шигтгээ үүсгэдэг.
< 50 хэл
50—100 хэл
100 хэл
200 хэл
NLP хүрээлэлтэй олон нийтэд хуваалцсан олон хэл дээрх өгүүлбэрүүдийн анхны амжилттай судалгаа. Кодлогч нь 50 хэл дээрх ижил утгатай өгүүлбэрүүдийг автоматаар хослуулахын тулд оруулга үүсгэдэг.
FB хиймэл оюун ухааны загварууд нь WMT 2019-д бусад бүх загвараас давж, том хэмжээний түүвэрчилсэн орчуулга, дуу чимээтэй сувгийн загварчлал, өгөгдөл цэвэрлэх арга техникийг ашиглан хүчирхэг системийг бий болгосон.
2 хэлнээс эхлээд шударга бөгөөд нарийн үнэлгээний үйл явцыг нэвтрүүлсэн англи хэл болон бага эх сурвалжтай хэлнүүдийн хоорондын машины орчуулгын жишиг өгөгдлийн багц.
Олон хэл дээрх зэрэгцээ өгүүлбэрүүдийн хамгийн том задрал: Илүү сайн орчуулгын загвар бүтээхийн тулд 1620 хэлний хослолоор 135 сая Wikipedia өгүүлбэрийг бит текстээр задалсан.
Англи хэл дээрх өгөгдөлд найдахгүйгээр дурын хос 100 хэлний хооронд шууд орчуулах анхны, олон хэл дээрх машин орчуулгын загвар. Өмнөх олон хэлтэй загваруудаас 10 дахин их—2200 хэлний чиглэлээр сургасан.
Илүү олон хэл, ялангуяа эх сурвалж багатай хэлнүүдтэй ажиллах илүү сайн орчуулгын загвар бүтээхэд зориулсан өндөр чанартай, вебэд суурилсан бит текстүүдийн хамгийн том өгөгдлийн багц: 576 хос хэлний 4,5 тэрбум зэрэгцээ өгүүлбэр.
100 хэл дээр ижил утгатай өгүүлбэрүүдийг автоматаар хослуулахын тулд шигтгээ үүсгэдэг.
Дан олон хэлтэй загвар нь анх удаагаа WMT 2021-д 14 хэлний хосын 10-д нь тусгайлан бэлтгэгдсэн хос хэлний шилдэг загваруудыг гүйцэж түрүүлж, бага болон их эх сурвалжтай хэлний аль алинд нь хамгийн сайн орчуулга хийсэн.
FLORES-101 нь 101 хэлийг хамарсан анхны, олноос олонд үнэлгээний өгөгдлийн багц бөгөөд судлаачдад M2M-100 гэх мэт олон хэл дээрх орчуулгын загварыг хурдан турших, сайжруулах боломжийг олгодог.
NLLB загвар нь 200 хэл орчуулдаг.
Одоо 200 хэлийг хамарсан FLORES үнэлгээний өгөгдлийн багцын өргөжилт
200 хэлний сургалтын өгөгдлийг бүтээж, гаргасан
200 хэл дээр ижил утгатай өгүүлбэрүүдийг автоматаар хослуулахын тулд шигтгээ үүсгэдэг.
Acehnese (Latin script)
Arabic (Iraqi/Mesopotamian)
Arabic (Yemen)
Arabic (Tunisia)
Afrikaans
Arabic (Jordan)
Akan
Amharic
Arabic (Lebanon)
Arabic (MSA)
Arabic (Modern Standard Arabic)
Arabic (Saudi Arabia)
Arabic (Morocco)
Arabic (Egypt)
Assamese
Asturian
Awadhi
Aymara
Crimean Tatar
Welsh
Danish
German
French
Friulian
Fulfulde
Dinka(Rek)
Dyula
Dzongkha
Greek
English
Esperanto
Estonian
Basque
Ewe
Faroese
Iranian Persian
Icelandic
Italian
Javanese
Japanese
Kabyle
Kachin | Jinghpo
Kamba
Kannada
Kashmiri (Arabic script)
Kashmiri (Devanagari script)
Georgian
Kanuri (Arabic script)
Kanuri (Latin script)
Kazakh
Kabiye
Thai
Khmer
Kikuyu
South Azerbaijani
North Azerbaijani
Bashkir
Bambara
Balinese
Belarusian
Bemba
Bengali
Bhojpuri
Banjar (Latin script)
Tibetan
Bosnian
Buginese
Bulgarian
Catalan
Cebuano
Czech
Chokwe
Central Kurdish
Fijian
Finnish
Fon
Scottish Gaelic
Irish
Galician
Guarani
Gujarati
Haitian Creole
Hausa
Hebrew
Hindi
Chhattisgarhi
Croatian
Hugarian
Armenian
Igobo
IIocano
Indonesian
Kinyarwanda
Kyrgyz
Kimbundu
Konga
Korean
Kurdish (Kurmanji)
Lao
Latvian (Standard)
Ligurian
Limburgish
Lingala
Lithuanian
Lombard
Latgalian
Luxembourgish
Luba-Kasai
Ganda
Dholuo
Mizo
Foundational models
Latest news
Foundational models