No Language Left Behind (NLLB) gosni isaa kan jalqabaa ta’ee, pirojektii argannoo AI kan modeelota hiikkaawwan keeddeebi'amoo qulqullina qaban kallattiin Astuuriyaan, Lugaandaa, Urduu fi kanneen biroo dabalatee afaanota 200'tiin dhiyeessuu danda'an banaa kan godhudha. Filannoolee afaan isaanii ilaalcha keessa osoo hin galchiin, bakka kamittuu, carraa qabiyyee marsaariitii afaan dhalootaa isaaniitiin argachuu fi qooduu, akkasumas nama kamuu waliin haasa’uu namootaaf kennuu kan kaayyeffatedha.
No Language Left Behind (NLLB) gosni isaa kan jalqabaa ta’ee, pirojektii argannoo AI kan modeelota hiikkaawwan keeddeebi'amoo qulqullina qaban kallattiin Astuuriyaan, Lugaandaa, Urduu fi kanneen biroo dabalatee afaanota 200'tiin dhiyeessuu danda'an banaa kan godhudha. Filannoolee afaan isaanii ilaalcha keessa osoo hin galchiin, bakka kamittuu, carraa qabiyyee marsaariitii afaan dhalootaa isaaniitiin argachuu fi qooduu, akkasumas nama kamuu waliin haasa’uu namootaaf kennuu kan kaayyeffatedha.
Namoota walitti fiduu irratti kutannoo qabna. Kanaafidha Facebook fi Instagram irratti hiikkaawwan afaanota madda-gadaanaa fooyyessuuf kan nuti qorannoo NLLB keenya irraa maloota fi barnoota modeeliingii fayyadamaa jirruuf. Maloota fi barnoota kana sirnoota hiikkaa oomishaa keenya irratti raawwachiisuutiin, namootni afaan filataniin ykn afaan dhalootaa isaaniitiin walitti dhufeenya caalaatti dhuga qabeessa, caalaatti hiika qabu uumuu danda’u. Fuulduratti, barnoota keenya NLLB irraa gara appilikeeshinoota Meta dabalataatti babal’isuuf abdii qabna.
Yeroo metaverse’f ijaarrutti, hiikkaa barreeffamaa AR/VR yeroo-qabatamaa afaanota dhibbatti lakkaa’aman keessatti walfudhachiisuun dhimma dursi kennamuufiidha. Akeekni keenya ulaagaa ida'uu haaraa qopheessuudha—bakka guyyaa tokko namni hunduu qabiyyee, meeshaalee fi muuxannoolee addunyaa-abjaataa argachuu danda'u, afaan metaverse keessa jiru kamiinuu dandeettii nama kamuu waliin waliigaluu kan qabu. Akkasumammoo yeroo keessa, sadarkaa idil-addunyaattii namoota walitti fiduu.
Teknoloojiin modeelii NLLB-200 duuba jiru, amma karaa meeshaa Hiikkaa Qabiyyee Dhaabbata Wikimedia kan argamu, gulaaltotni Wikipedia yeroo odeeffannoo gara afaan dhalootaa isaaniitti fi afaan filatanitti hiikan isaan deeggaraa jira. Gulaaltotni Wikipedia afaanota bakka bu’ummaa gadaanaa qaban kan akka Afaan Lugaandaa fi Afaan Ayislaandiitiin barruulee as bahan ga’umsa olaanaan hiikuu fi gulaaluuf teknoloojii fayyadamaa jiru. Kun dubbistoota Wikipedia guutuu addunyaa irra jiraniif beekumsi dabalataa afaanota dabalataatiin akka argamu gochuuf gargaara. Modeeliin NLLB-200 madda-banaa qorattootni fi hawaasotni gulaalli Wikipedia fedha qaban hojii keenya irratti akka ijaaran akkasuma ni gargaara.
Humna hiikkaa AI Seenaawwan Hiikkaatiin Himamaniin itti bari, daadessa keenya pirojektii No Language Left Behind irraa guddina AI yeroo dhiyoo fayyadamu. Daadessi kun kitaabota afaanota jalqabaa isaanii kan akka Afaan Indooneeshiyaa, Somaalii fi Burmiis irraa gara afaanota dabalataatti dubbistootaaf hiika—ji'oota ittaanan keessa dhibbatti kan lakkaa'aman ni argamu. Karaa inisheetiivii kanaa, NLLB-200 modeelii AI jalqabaa barreeffama sadarkaa kanaan hiikuu danda’u ta’a.
Suu Neeyiin Chaaniitiin
Qonnaan bulaan ganda roozii qofa oomishan keessa jiraata. Ija midhaanii haaraa ta’e kan saanduqa mana lafa jalaa isaa keessaa arge yeroo dhaabu maaltu ta’a?
Piruum Kuntaarootiin
Yeroo ilmoon arbaa gara mana isaaniitti fiigdu, Botom xiyyeeffannaa argattu irratti hinaaffaa qabdi. Botom arbicha manaa baasuu dandeessii, ykn uumama nama mararu waliin hiriyyaa taatii?
Nabilaa Adaaniitiin
Mucaan dubaraa yeroo guddattu maal ta'uu akka dandeessu yaaduuf ramaddii hojii mana barumsaatiin kaka'umsa gonfatte. Abjuun ishee maal akka taatuuf ishee kakaasa?
Mohaammed Umariitiin
Samaad bineeldota jaallata ture. Abjuun isaa guyyaa tokko guutuu bosona keessatti dabarsuu fi muka jala rafuu ture. Saamad hiriyyoota dinqisiisoo fi argannoowwan ajaa'ibaa bakka raawwatetti hojii raajii kana irratti isa hordofi. Bosona keessa seenuun baay'ee gammachiisaa ta'ee hin beeku.
Wulaan Muliyaa Piraatiwiitiin
Ilmi mootii bosona keessatti bade. Qeerransi isa hordofaa jira. Maal godha?
Daataan leenjii kan himoota afaan naqaa fi afaan bahaa barbaadamu qabu walitti qabama
Qajeelfamoota leenjii kumaatamaaf daataa leenjii walsimataa erga uumnee booda, daataan kun sarara ujummoo leenjii modeelii keenyaa keessa galchama. Modeelotni kunniin qaamota lama irraa tolfamu: lakkaddeessituu, kun hima naqaa gara bakka bu'insa vekterii keessootti kan geeddaru yeroo ta’u, lakkaddaa diigduu, kunimmoo bakka bu’insa vekterii keessoo fudhatee hima bahaa sirriitti kan maddisiisudha. Hiikkaawwan fakkeenyaa miliyoonota irratti shaakaluutiin, modeelotni hiikkaawwan caalaatti sirrii ta’an maddisiisuu baru.
Dhumarratti, qulqullinni hiikkaa nu quubsuu isaa mirkaneeffachuuf, modeelii keenya tuuta hiikkaawwan himaa namaatiin hiikamaniin walbira qabnee madaalla. Kun karaa fayyadama tarreewwan summaa'ummaa kan nuti afaanota deeggaraman hundaaf ijaarruutiin jechoota arrabsoo fi qabiyyee mufachiisoo biroo adda baasuu fi calaluu hammata. Bu’aan isaa modeelii daran leenji’aa kan afaan kallattiin hiikuu danda’udha.
Daataan leenjii kan himoota afaan naqaa fi afaan bahaa barbaadamu qabu walitti qabama
Qajeelfamoota leenjii kumaatamaaf daataa leenjii walsimataa erga uumnee booda, daataan kun sarara ujummoo leenjii modeelii keenyaa keessa galchama. Modeelotni kunniin qaamota lama irraa tolfamu: lakkaddeessituu, kun hima naqaa gara bakka bu'insa vekterii keessootti kan geeddaru yeroo ta’u, lakkaddaa diigduu, kunimmoo bakka bu’insa vekterii keessoo fudhatee hima bahaa sirriitti kan maddisiisudha. Hiikkaawwan fakkeenyaa miliyoonota irratti shaakaluutiin, modeelotni hiikkaawwan caalaatti sirrii ta’an maddisiisuu baru.
Dhumarratti, qulqullinni hiikkaa nu quubsuu isaa mirkaneeffachuuf, modeelii keenya tuuta hiikkaawwan himaa namaatiin hiikamaniin walbira qabnee madaalla. Kun karaa fayyadama tarreewwan summaa'ummaa kan nuti afaanota deeggaraman hundaaf ijaarruutiin jechoota arrabsoo fi qabiyyee mufachiisoo biroo adda baasuu fi calaluu hammata. Bu’aan isaa modeelii daran leenji’aa kan afaan kallattiin hiikuu danda’udha.
MT hojii barnootaa hordoffiin irratti godhamudha, kana jechuunis modeelichi daataa irraa baratu isa barbaachisa jechuudha. Hiikkaawwan fakkeenyaa kuufama daataa madda-banaa irraa yeroo baay’ee itti fayyadamamu. Falli keenya himoota kuufamoota garagaraa kan sanadoota aftokkeetiin cimdeessuutiin cimdiiwwan hiikkaa battalumatti ijaaruudha.
Modeelotni LASER adeemsa uumaa tuuta daataa kanaatiif oolan jalqabatti afaanota galtee giddugaleessaa hanga olaanaa qaban deeggaru, kunis afaanota madda gadaanaa qabaniif cimdiiwwan hiikkaa sirrii ta’an oomishuun akka hin danda’amne godha.
Sirnootni MT afbaay’ee sirnoota aflamee olitti fooyya’aniiru. Kunis dandeettii "dabarsa" cimdiiwwan afaanii kan daataa leenjii baay’ee qaban irraa gara afaanota biroo maddawwan leenjii muraasa qabanitti gochuu waan dandeessisaniifidha.
Modeeliin walfakkaataan afaanota ulaagaalee walfakkaatoo qaban kan baay'inni isaaanii yeroodhaa gara yerootti dabalaa dhufe bakka bu'uu waan qabaniif, cimdiiwwan afaanii dhibbatti lakkaa'aman bakka tokkotti waliin leenjisuun miidhaa qaba. Itti ta'uu humnaan olii fiduu waan danda'uuf yeroo hangi tuuta daataa wal hin madaalletti kun rakkoo uuma.
Hiikkaan modeelii keenyaatiin oomishame sadarkaalee qulqullinaa keenya guutuu isaa beekuuf, isa madaaluu qabna.
Modeelotni hiikkaa maashinii haaluma barameetiin himoota maashiniitiin hiikaman kan namootaan hiikaman bukkee qabuutiin madaalamu, ta’ullee afaanota baay’eetiif, daataan hiikkaa amansiisaa ta’e hin argamu. Kanaafuu madaalliin dogoggora irraa bilisa ta’e hin danda’amu.
Qajeelcha fi biloogii keenya dubbisuutiin, akkasumas pirojektii kana fuulduratti akka tarkaanfachiisnu nu gargaaruuf modeelicha buufachuutiin, waa’ee saayinsii NLLB duuba jiruu bal’inaan bari.
# afaanota gadhiisamaniin taateewwan murteessoo modeela ta’an ilaali
Aloolli milkaa'inaa bakka bu'insa hima afbaay'ee jumlaa jalqabaa hawaasa NLP'tiif banamaatti qoodame. Lakkaddeessitichi himoota afaan 50'n hiika walfakkaataa qaban battalumatti cimdeessuuf idaatii uuma.
Sirna jabaa ijaaruu gargaaruuf, hiikkaa-duubaa bal’inaan fakkeenya fudhatame, modeeliingii sarara wacaa fi tooftaalee qulqulleessa daataa fayyadamuutiin, WMT 2019 irratti modeelotni FB AI modeelota kanneen biroo hunda caalanii ture.
Afaan 2 irraa eegalee, adeemsa madaallii haqaa fi cimaa beeksisuuf, Afaan Ingilizii fi afaanota galteewwan gadaanaa qaban gidduutti MT'f tuuta daataa ka'umsa godhannaa.
Afaanota hedduu irratti cuunfaa guddaa himoota walmaddii: Modeelota hiikkaa fooyya’oo ijaaruudhaaf, cimdii afaanotaa 1,620’tiin cuunfaa Bitext himoota Wikipedia miliyoona 135.
Daataa Afaan Ingilizii irratti osoo hin hundaa’iin cimdii afaanota 100 kamuu gidduutti kallattiin hiikuuf, modeelii hiikkaa maashinii afbaay’ee tokkicha, kan jalqabaa. Qajeelfamoota afaaanii 2,200 irratti leenji’eera— modeelota afbaay’ee kanaan duraa olitti 10x.
Modeelota hiikkaa fooyya’oo kan afaanota dabalataa, addattimmoo afaanota galtee-gadaanaan hojjetu ijaaruuf, tuuta daataa guddaa qulqullina-olaanaa, bitexts marsaariitii irratti hundaa’e: Himoota walmaddii biliyoona 4.5 cimdiiwwan afaanii 576’tiin.
Himoota afaan 100'n hiika walfakkaataa qaban battalumatti cimdeessuuf idaatii uuma.
Yeroo jalqabaatiif, afaanota galteewwan gadaanaa fi olaanaa qaban lamaaniifuu hiikkaa filatamaa dhiyeessuutiin, cimdiiwwan afaanii 14 keessaa 10 irratti modeelota aflamee filatamoo addatti leenji’an caalee modeelii afbaay’ee qeenxee WMT 2021 injifate.
FLORES-101 gosni isaa kan jalqabaa ta'ee, tuuta daataa madaallii baay'ee gara baay'ee kan afaanota 101 haguugu yoo ta'u, kunis qorattootni modeelota hiikkaa afbaay'ee kan akka M2M-100 ariitiin akka yaalaniifi fooyyessan isaan dandeessisa.
Modeeliin NLLB afaanota 200 hiika.
Babal’inni tuuta daataa madaallii FLORES amma afaanota 200 haguuga
Afaanota 200’tiif daataa leenjii ijaarame fi gadhiisame
Himoota afaan 200'n hiika walfakkaataa qaban battalumatti cimdeessuuf idaatii uuma.
Afaanota < 50
Afaanota 50-100
Afaanota 100
Afaanota 200
Aloolli milkaa'inaa bakka bu'insa hima afbaay'ee jumlaa jalqabaa hawaasa NLP'tiif banamaatti qoodame. Lakkaddeessitichi himoota afaan 50'n hiika walfakkaataa qaban battalumatti cimdeessuuf idaatii uuma.
Sirna jabaa ijaaruu gargaaruuf, hiikkaa-duubaa bal’inaan fakkeenya fudhatame, modeeliingii sarara wacaa fi tooftaalee qulqulleessa daataa fayyadamuutiin, WMT 2019 irratti modeelotni FB AI modeelota kanneen biroo hunda caalanii ture.
Afaan 2 irraa eegalee, adeemsa madaallii haqaa fi cimaa beeksisuuf, Afaan Ingilizii fi afaanota galteewwan gadaanaa qaban gidduutti MT'f tuuta daataa ka'umsa godhannaa.
Afaanota hedduu irratti cuunfaa guddaa himoota walmaddii: Modeelota hiikkaa fooyya’oo ijaaruudhaaf, cimdii afaanotaa 1,620’tiin cuunfaa Bitext himoota Wikipedia miliyoona 135.
Daataa Afaan Ingilizii irratti osoo hin hundaa’iin cimdii afaanota 100 kamuu gidduutti kallattiin hiikuuf, modeelii hiikkaa maashinii afbaay’ee tokkicha, kan jalqabaa. Qajeelfamoota afaaanii 2,200 irratti leenji’eera— modeelota afbaay’ee kanaan duraa olitti 10x.
Modeelota hiikkaa fooyya’oo kan afaanota dabalataa, addattimmoo afaanota galtee-gadaanaan hojjetu ijaaruuf, tuuta daataa guddaa qulqullina-olaanaa, bitexts marsaariitii irratti hundaa’e: Himoota walmaddii biliyoona 4.5 cimdiiwwan afaanii 576’tiin.
Himoota afaan 100'n hiika walfakkaataa qaban battalumatti cimdeessuuf idaatii uuma.
Yeroo jalqabaatiif, afaanota galteewwan gadaanaa fi olaanaa qaban lamaaniifuu hiikkaa filatamaa dhiyeessuutiin, cimdiiwwan afaanii 14 keessaa 10 irratti modeelota aflamee filatamoo addatti leenji’an caalee modeelii afbaay’ee qeenxee WMT 2021 injifate.
FLORES-101 gosni isaa kan jalqabaa ta'ee, tuuta daataa madaallii baay'ee gara baay'ee kan afaanota 101 haguugu yoo ta'u, kunis qorattootni modeelota hiikkaa afbaay'ee kan akka M2M-100 ariitiin akka yaalaniifi fooyyessan isaan dandeessisa.
Modeeliin NLLB afaanota 200 hiika.
Babal’inni tuuta daataa madaallii FLORES amma afaanota 200 haguuga
Afaanota 200’tiif daataa leenjii ijaarame fi gadhiisame
Himoota afaan 200'n hiika walfakkaataa qaban battalumatti cimdeessuuf idaatii uuma.
Acehnese (Latin script)
Arabic (Iraqi/Mesopotamian)
Arabic (Yemen)
Arabic (Tunisia)
Afrikaans
Arabic (Jordan)
Akan
Amharic
Arabic (Lebanon)
Arabic (MSA)
Arabic (Modern Standard Arabic)
Arabic (Saudi Arabia)
Arabic (Morocco)
Arabic (Egypt)
Assamese
Asturian
Awadhi
Aymara
Crimean Tatar
Welsh
Danish
German
French
Friulian
Fulfulde
Dinka(Rek)
Dyula
Dzongkha
Greek
English
Esperanto
Estonian
Basque
Ewe
Faroese
Iranian Persian
Icelandic
Italian
Javanese
Japanese
Kabyle
Kachin | Jinghpo
Kamba
Kannada
Kashmiri (Arabic script)
Kashmiri (Devanagari script)
Georgian
Kanuri (Arabic script)
Kanuri (Latin script)
Kazakh
Kabiye
Thai
Khmer
Kikuyu
South Azerbaijani
North Azerbaijani
Bashkir
Bambara
Balinese
Belarusian
Bemba
Bengali
Bhojpuri
Banjar (Latin script)
Tibetan
Bosnian
Buginese
Bulgarian
Catalan
Cebuano
Czech
Chokwe
Central Kurdish
Fijian
Finnish
Fon
Scottish Gaelic
Irish
Galician
Guarani
Gujarati
Haitian Creole
Hausa
Hebrew
Hindi
Chhattisgarhi
Croatian
Hugarian
Armenian
Igobo
IIocano
Indonesian
Kinyarwanda
Kyrgyz
Kimbundu
Konga
Korean
Kurdish (Kurmanji)
Lao
Latvian (Standard)
Ligurian
Limburgish
Lingala
Lithuanian
Lombard
Latgalian
Luxembourgish
Luba-Kasai
Ganda
Dholuo
Mizo
Foundational models
Latest news
Foundational models