• Meta AI បានបង្កើតគំរូ AI តែមួយគឺ NLLB-200 ដែលជាគំរូដំបូងគេក្នុងការបកប្រែភាសា 200 ផ្សេងៗគ្នាដោយគុណភាពទំនើបបំផុតដែលត្រូវបានផ្ទៀងផ្ទាត់តាមរយៈការវាយតម្លៃយ៉ាងទូលំទូលាយសម្រាប់ភាសានីមួយៗ។

  • យើងក៏បានបង្កើតសំណុំទិន្នន័យវាយតម្លៃថ្មីគឺ FLORES-200 និងបានវាស់ស្ទង់ប្រតិបត្តិការរបស់ NLLB-200 ជាភាសានីមួយៗ ដើម្បីបញ្ជាក់ថាការបកប្រែមានគុណភាពខ្ពស់។ NLLB-200 លើសពីបច្ចេកវិទ្យាពីមុនជាមធ្យម 44 ភាគរយ។

  • ឥឡូវនេះ យើងកំពុងប្រើបច្ចេកទេសធ្វើគំរូ និងការរៀនសូត្រពីគម្រោងដើម្បីកែលម្អ និងពង្រីកការបកប្រែនៅលើ Facebook, Instagram និង Wikipedia។

  • យើងកំពុងផ្តល់ប្រភពបើកចំហរគំរូ NLLB-200, FLORES-200, កូដបណ្តុះបណ្តាលគំរូ និងកូដសម្រាប់បង្កើតសំណុំទិន្នន័យបណ្តុះបណ្តាលឡើងវិញ ដើម្បីជួយអ្នកស្រាវជ្រាវផ្សេងទៀតធ្វើការកែលម្អឧបករណ៍បកប្រែរបស់ពួកគេ និងកសាងបន្ថែមលើការងាររបស់យើង។

ភាសាគឺជាវប្បធម៌ អត្តសញ្ញាណ និងជាអ្វីដែលយើងពឹងផ្អែកលើចំពោះពិភពលោក។ ប៉ុន្តែដោយសារតែឧបករណ៍បកប្រែដែលមានគុណភាពខ្ពស់មិនមានវត្តមានសម្រាប់រាប់រយភាសា ដូច្នេះមនុស្សរាប់ពាន់លាននាក់សព្វថ្ងៃនេះមិនអាចចូលប្រើខ្លឹមសារឌីជីថល ឬចូលរួមបានពេញលេញក្នុងការសន្ទនា និងសហគមន៍តាមអ៊ីនធឺណិតជាភាសាដែលពួកគេចង់បាន ឬជាភាសាកំណើតរបស់ពួកគេនោះទេ។ នេះជារឿងពិតជាពិសេសសម្រាប់មនុស្សរាប់រយលាននាក់ដែលនិយាយភាសាជាច្រើនរបស់ទ្វីបអាហ្រ្វិក និងអាស៊ី។

មានអ្វីម្យ៉ាងដំណើរការខុសប្រក្រតី
យើង​កំពុងមានបញ្ហាក្នុងការចាក់វីដេអូនេះ។

ដើម្បីជួយមនុស្សឱ្យភ្ជាប់ទំនាក់ទំនងកាន់តែប្រសើរឡើងនៅថ្ងៃនេះ និងជាផ្នែកនៃ metaverse សម្រាប់ថ្ងៃស្អែក អ្នកស្រាវជ្រាវ Meta AI បានបង្កើតកម្មវិធី “គ្មានភាសាណាមួយត្រូវបានទុកចោលឡើយ” No Language Left Behind (NLLB) ដែលជាកិច្ចខិតខំប្រឹងប្រែងដើម្បីអភិវឌ្ឍសមត្ថភាពបកប្រែដោយម៉ាស៊ីនដែលមានគុណភាពខ្ពស់សម្រាប់ភាសាភាគច្រើនរបស់ពិភពលោក។ ថ្ងៃនេះ យើងកំពុងប្រកាសអំពីរបកគំហើញដ៏សំខាន់មួយនៅក្នុង NLLB៖ យើងបានបង្កើតគំរូ AI តែមួយដែលមានឈ្មោះថា NLLB-200 ដែលបកប្រែ 200 ភាសាផ្សេងៗគ្នាដោយផ្ដល់នូវ​លទ្ធផលយ៉ាងទំនើបទាន់សម័យ។ ភាសាទាំងនេះជាច្រើនដូចជា កាំបា និងឡាវមិនត្រូវបានគាំទ្របានល្អទេ ឬមិនត្រូវបានគាំទ្រទាល់តែសោះសូម្បីតែឧបករណ៍បកប្រែដ៏ល្អបំផុតដែលមានស្រាប់នាពេលបច្ចុប្បន្ននេះក៏ដោយ។ បច្ចុប្បន្ននេះ ភាសាអាហ្រ្វិកតិចជាង 25 ត្រូវបានគាំទ្រដោយឧបករណ៍បកប្រែដែលត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយ — ដែលភាគច្រើនមានគុណភាពអន់។ ផ្ទុយទៅវិញ NLLB-200 គាំទ្រ 55 ភាសាអាហ្រ្វិក ដោយផ្ដល់ជូនូវលទ្ធផលដែលមានគុណភាពខ្ពស់។ សរុបមក គំរូតែមួយនេះអាចផ្តល់នូវការបកប្រែដែលមានគុណភាពខ្ពស់សម្រាប់ភាសាដែលនិយាយដោយមនុស្សរាប់ពាន់លាននាក់ជុំវិញពិភពលោក។ សរុបមក ពិន្ទុ BLEU របស់ NLLB-200 មានភាពប្រសើរឡើងលើសបច្ចេទវិទ្យាពីមុនជាមធ្យម 44 ភាគរយនៅទូទាំងទិសដៅចំនួន 10 ពាន់ នៃគំរូស្តង់ដារ FLORES-101។ សម្រាប់ភាសាអាហ្រ្វិក និងឥណ្ឌាមួយចំនួន ការកើនឡើងគឺច្រើនជាង 70 ភាគរយលើប្រព័ន្ធបកប្រែថ្មីៗ។

ឥឡូវនេះយើងកំពុងផ្តល់ប្រភពបើកចំហរគំរូ NLLB-200 និងបោះពុម្ពផ្សាយនូវឧបករណ៍ស្រាវជ្រាវមួយចំនួន ដើម្បីឱ្យអ្នកស្រាវជ្រាវផ្សេងទៀតពង្រីកការងារនេះទៅជាភាសាកាន់តែច្រើន និងបង្កើតបច្ចេកវិទ្យាដែលមានលក្ខណៈរួមបញ្ចូលបន្ថែមទៀត។ Meta AI ក៏កំពុងផ្តល់ជំនួយរហូតដល់ $200,000 ដល់អង្គការមិនរកប្រាក់ចំណេញសម្រាប់ការប្រើប្រាស់ NLLB-200 ជាក់ស្ដែង។

វឌ្ឍនភាពនៃការស្រាវជ្រាវពី NLLB នឹងគាំទ្រការបកប្រែច្រើនជាង 25 ពាន់លានដែលត្រូវបានបម្រើជារៀងរាល់ថ្ងៃនៅលើ Facebook News Feed, Instagram និងវេទិកាផ្សេងទៀតរបស់យើង។ សូមស្រមៃថាការចូលទៅកាន់ក្រុម Facebook ដែលអ្នកពេញចិត្ត ដោយចូលមើលសារបង្ហោះជាភាសាអ៊ីកបូ (Igbo) ឬលូហ្កាន់ដា (Luganda) ហើយអាចយល់អំពីវាជាភាសារបស់អ្នកដោយគ្រាន់តែចុចប៊ូតុងមួយ។ ការបកប្រែដែលមានភាពត្រឹមត្រូវខ្ពស់ជាភាសាជាច្រើនទៀតក៏អាចជួយរកមើលខ្លឹមសារដែលបង្កគ្រោះថ្នាក់ និងព័ត៌មានមិនពិត ការពារសុចរិតភាពនៃការបោះឆ្នោត និងទប់ស្កាត់ករណីការកេងប្រវ័ញ្ចផ្លូវភេទតាមអ៊ីនធឺណិត និងការជួញដូរមនុស្ស។ បច្ចេកទេសធ្វើគំរូ និងការរៀនសូត្រពីការស្រាវជ្រាវ NLLB របស់យើងឥឡូវនេះក៏ត្រូវបានអនុវត្តចំពោះប្រព័ន្ធបកប្រែដែលប្រើដោយអ្នកកែសម្រួលវិគីភីឌាផងដែរ។

ការបកប្រែគឺជាផ្នែកមួយដែលគួរឱ្យរំភើបបំផុតនៅក្នុងវិស័យ AI ដោយសារតែវាមានឥទ្ធិពលលើជីវិតប្រចាំថ្ងៃរបស់មនុស្ស។ NLLB គឺ​លើសពី​ការ​ផ្តល់​ឱ្យ​មនុស្ស​នូវលទ្ធភាពចូល​ដំណើរ​ការខ្លឹមសារ​នៅ​លើ​ប​ណ្តា​ញ​បានកាន់តែប្រសើរ។ វា​នឹងធ្វើឱ្យមនុស្ស​កាន់តែងាយស្រួលក្នុង​ការ​ចូលរួម​ចំណែក និង​ចែករំលែក​ព័ត៌មាន​ជាភាសានានា។ យើងមានការងារជាច្រើនទៀតនៅពេលខាងមុខ ប៉ុន្តែយើងមានកម្លាំងថាមពលដោយសារតែវឌ្ឍនភាពថ្មីៗរបស់យើង និងរបៀបដែលវាកំពុងជំរុញឱ្យយើងខិតទៅរកការបំពេញបេសកកម្មរបស់ Meta

អ្នកអាចស្វែងរកការបង្ហាញសាកល្បងអំពី NLLB-200 នៅទីនេះ ដោយបង្ហាញពីរបៀបដែលគំរូអាចបកប្រែសាច់រឿងពីជុំវិញពិភពលោក ហើយអានឯកសារស្រាវជ្រាវនៅទីនេះ។

ការដោះសោឧបករណ៍បកប្រែសម្រាប់មនុស្សរាប់ពាន់លាននាក់ទៀត

យើង​បាន​​សហការ​ជាមួយ Wikimedia Foundation ដែលជា​អង្គការ​មិន​រក​ប្រាក់​កម្រៃ​ដែល​រៀបចំ​កម្មវិធី Wikipedia និង​គម្រោង​ផ្ដល់ចំណេះដឹង​ឥតគិតថ្លៃ​ផ្សេងទៀត ដើម្បីជួយ​កែលម្អ​ប្រព័ន្ធ​បកប្រែ​នៅលើ Wikipedia។ មានកំណែ Wikipedia ច្រើនជាង 300 ភាសា ប៉ុន្តែភាគច្រើនមានអត្ថបទតិចជាង 6+ លានដែលមានជាភាសាអង់គ្លេស។ ភាពខុសគ្នានេះគឺមានទំហំធំជាពិសេសសម្រាប់ភាសាដែលនិយាយជាចម្បងនៅខាងក្រៅអឺរ៉ុប និងអាមេរិកខាងជើង។ ជាឧទាហរណ៍ មានអត្ថបទ Wikipedia ប្រហែល 3,260 ជាភាសាលីងហ្កាឡា (Lingala) ដែលជាភាសានិយាយដោយមនុស្ស 45 លាននាក់នៅក្នុងសាធារណរដ្ឋប្រជាធិបតេយ្យកុងហ្គោ សាធារណរដ្ឋកុងហ្គោ សាធារណរដ្ឋអាហ្វ្រិកកណ្តាល និងស៊ូដង់ខាងត្បូង។ ផ្ទុយ​ទៅ​វិញ​ជាមួយ​នឹង​ភាសា​ដូច​ជា​ស៊ុយអែត ដែល​មាន​អ្នក​និយាយ ​10​ លាន​នាក់​ក្នុង​ប្រទេស​ស៊ុយអែត និង​ហ្វាំងឡង់ និង​មានជាង 2.5 ​លាន​អត្ថបទ។

អ្នកកែសម្រួល Wikipedia ឥឡូវនេះកំពុងប្រើប្រាស់បច្ចេកវិទ្យានៅពីក្រោយ NLLB-200 តាមរយៈឧបករណ៍បកប្រែខ្លឹមសាររបស់ Wikimedia Foundation ដើម្បីបកប្រែអត្ថបទជាជាង 20 ភាសាដែលមានធនធានតិចតួច (ដែលមិនមានសំណុំទិន្នន័យទូលំទូលាយដើម្បីបណ្តុះបណ្តាលប្រព័ន្ធ AI) រួមទាំង 10 ភាសាដែលពីមុនមិនត្រូវបានគាំទ្រដោយឧបករណ៍បកប្រែដោយម៉ាស៊ីនណាមួយនៅលើវេទិកា។

បញ្ហាប្រឈមនៃការកសាងគំរូតែមួយសម្រាប់រាប់រយភាសា

ប្រព័ន្ធបកប្រែដោយម៉ាស៊ីន ដូចជាគំរូ AI ទាំងអស់ដែរ ត្រូវបានបណ្តុះបណ្តាលលើទិន្នន័យ។ សម្រាប់​ប្រព័ន្ធ​បកប្រែ​អត្ថបទ នេះ​ជា​ធម្មតា​មាន​ប្រយោគ​រាប់​លាន​ដែល​ត្រូវ​បាន​ផ្គូផ្គង​យ៉ាង​ប្រុងប្រយ័ត្ន​រវាង​ភាសា​នានា។ ប៉ុន្តែ​វា​មិន​មាន​ប្រយោគ​ស្រប​គ្នា​ច្រើន​ទេពោលគឺ​នៅ​លើភាសាអង់គ្លេស និងហ្វូឡា (Fula)។ គំរូបកប្រែបច្ចុប្បន្នព្យាយាមយកឈ្នះលើបញ្ហានេះដោយការជីករ៉ែទិន្នន័យពីបណ្តាញ។ ប៉ុន្តែលទ្ធផលជាញឹកញាប់មានគុណភាពអន់ ដោយសារអត្ថបទប្រភពគឺខុសគ្នាសម្រាប់ភាសានីមួយៗ។ លើសពីនេះ វាច្រើនតែពោរពេញដោយអក្ខរាវិរុទ្ធមិនត្រឹមត្រូវ ឬមិនស៊ីសង្វាក់គ្នា ហើយបាត់សញ្ញាសង្កត់សំឡេង និងសញ្ញាសម្គាល់ផ្សេងៗ។

បញ្ហាប្រឈមដ៏សំខាន់មួយទៀតគឺការបង្កើនប្រសិទ្ធភាពនូវគំរូតែមួយដើម្បីដំណើរការលើរាប់រយភាសាដោយមិនធ្វើឱ្យប៉ះពាល់ដល់ដំណើរការ ឬសមត្ថភាពនៃការបកប្រែ។ កាលពីមុនមក គុណភាពបកប្រែល្អបំផុតបានមកពីការមានគំរូដាច់ដោយឡែកសម្រាប់ទិសដៅភាសានីមួយៗ។ ប៉ុន្តែវាពិបាកក្នុងការធ្វើមាត្រដ្ឋានវិធីសាស្រ្តនេះ ដោយសារសមត្ថភាព និងគុណភាពនៃការបកប្រែជួបនឹងការលំបាក ដោយសារភាសាកាន់តែច្រើនត្រូវបានបន្ថែម។

គំរូបកប្រែក៏បង្កើតកំហុសដែលអាចពិបាកចាប់បានផងដែរ។ ប្រព័ន្ធទាំងនេះត្រូវបានបង្កើតឡើងនៅលើបណ្តាញសរសៃប្រសាទដែលប្រើសម្រាប់ការបង្កើតអត្ថបទ ដូច្នេះពួកគេអាចបង្កើតកំហុសដូចជាការយល់ច្រលំ (ដោយជឿជាក់លើអ្វីមួយថាជាការពិត ទោះបីជាវាមិនមែនក៏ដោយ) សេចក្ដីថ្លែងមិនត្រឹមត្រូវ និងខ្លឹមសារមិនមានសុវត្ថិភាព។ ជាទូទៅ មានគំរូស្តង់ដារ និងសំណុំទិន្នន័យតិចជាងមុនសម្រាប់ភាសាដែលមានធនធានតិចតួច ដែលធ្វើឱ្យវាកាន់តែពិបាកក្នុងការសាកល្បង និងកែលម្អគំរូ។

ការបង្កើតថ្មីផ្នែកស្ថាបត្យកម្ម ការទាញយកប្រភពទិន្នន័យ ការកំណត់គំរូស្តង់ដារ និងច្រើនទៀត

ក្នុងរយៈពេលប៉ុន្មានឆ្នាំចុងក្រោយនេះ យើងមានការរីកចម្រើនជាលំដាប់ ដើម្បីជម្នះឧបសគ្គដែលបានពណ៌នាពីខាងលើ។ នៅឆ្នាំ 2020 យើងបានប្រកាសអំពីគំរូបកប្រែ M2M-100 ចំនួន 100-ភាសារបស់យើង ដែលបង្កើនប្រសិទ្ធភាពវិធីសាស្រ្តថ្មីដើម្បីទទួលបានទិន្នន័យបណ្តុះបណ្តាល ស្ថាបត្យកម្មថ្មីដើម្បីធ្វើមាត្រដ្ឋានទំហំគំរូដោយមិនប៉ះពាល់ដល់ដំណើរការ និងវិធីថ្មីដើម្បីវាយតម្លៃ និងកែលម្អលទ្ធផល។ ដើម្បីធ្វើមាត្រដ្ឋានទៅកាន់ 100 ភាសាផ្សេងទៀត យើងបានអភិវឌ្ឍបន្ថែមទៀតនៅក្នុងផ្នែកទាំងបីនេះឱ្យកាន់តែទំនើប។

បានពង្រីកធនធានបណ្តុះបណ្តាល

ដើម្បីប្រមូលអត្ថបទស្របគ្នាដែលមានភាពត្រឹមត្រូវខ្ពស់ជាភាសាជាច្រើនទៀត យើងបានកែលម្អ LASER ដែលជាប្រអប់ឧបករណ៍របស់យើងសម្រាប់ការផ្ទេរទិន្នន័យថ្មីនៅក្នុងដំណើរការភាសាលក្ខណៈធម្មជាតិ (NLP) ។ ជំនួសឱ្យ LSTM, កំណែថ្មីគឺ LASER3 ប្រើគំរូ Transformer ដែលត្រូវបានបណ្តុះបណ្តាលក្នុងលក្ខណៈគ្រប់គ្រងដោយខ្លួនឯងជាមួយនឹងគោលបំណងគំរូភាសាបិទបាំង។ យើងបានជំរុញដល់សមត្ថភាពបន្ថែមទៀត ដោយប្រើនីតិវិធីបណ្តុះបណ្តាលគ្រូ និងសិស្ស និងបង្កើតឧបករណ៍បំប្លែងភាសាក្រុមជាក់លាក់ ដែលអាចឱ្យយើងធ្វើមាត្រដ្ឋានគ្របដណ្តប់ភាសារបស់ LASER3 និងបង្កើតចំនួនគូប្រយោគយ៉ាងច្រើន សូម្បីតែសម្រាប់ភាសាដែលមានធនធានតិចតួចក៏ដោយ។ យើងកំពុងស្វែងរកប្រភពបើកចំហនៃវិធីសាស្ត្របង្កប់ពហុភាសារបស់ LASER3 ដើម្បីធ្វើឱ្យវាអាចប្រើបានសម្រាប់អ្នកស្រាវជ្រាវផ្សេងទៀត ហើយយើងក៏កំពុងចេញផ្សាយប្រយោគស្របគ្នារាប់ពាន់លានជាគូភាសាផ្សេងៗ ដែលត្រូវបានទាញយក និងសម្អាតដោយប្រើបច្ចេកទេសដែលបានពណ៌នានៅទីនេះ។

ដោយសារយើងដាក់សំណាញ់កាន់តែទូលំទូលាយនៅពេលទាញយកប្រភពនៃឧទាហរណ៍ស្ដីពីការបណ្ដុះបណ្ដាលជាភាសាកាន់តែច្រើន វាជាការសំខាន់ក្នុងការធ្វើឱ្យប្រាកដថាគុណភាពនៃឧទាហរណ៍នៅតែមានកម្រិតខ្ពស់។ យើងបានរើជួសជុលឡើងវិញទាំងស្រុងនូវបំពង់សម្អាតទិន្នន័យរបស់យើងដើម្បីធ្វើមាត្រដ្ឋានដល់ 200 ភាសា ដោយបន្ថែមជំហានតម្រងសំខាន់ៗដែលរួមបញ្ចូលដំបូងដោយប្រើគំរូ LID-200 របស់យើង ដើម្បីត្រងទិន្នន័យ និងលុបសំឡេងរំខានចេញពីសាជីវកម្មខ្នាតអ៊ីនធឺណិតដោយមានទំនុកចិត្តខ្ពស់។ យើងបានបង្កើតបញ្ជីពាក្យពេចន៍មិនល្អសម្រាប់សំណុំពេញលេញនៃ 200 ភាសា ហើយបន្ទាប់មកបានប្រើបញ្ជីទាំងនោះដើម្បីវាយតម្លៃ និងត្រងពាក្យពេចន៍មិនល្អដែលអាចនាំឱ្យមានការភាន់ច្រឡំ។ ជំហានទាំងនេះបានធានាថា យើងមានសំណុំទិន្នន័យដែលកាន់តែស្អាត និងមានពាក្យពេចន៍មិនល្អតិចជាងមុន ជាមួយនឹងភាសាដែលបានកំណត់អត្តសញ្ញាណត្រឹមត្រូវ។ នេះមានសារៈសំខាន់សម្រាប់ការកែលម្អគុណភាពនៃការបកប្រែ និងកាត់បន្ថយហានិភ័យនៃអ្វីដែលត្រូវបានគេស្គាល់ថាជពាក្យពេចន៍មិនល្អដែលអាចនាំឱ្យមានការភាន់ច្រឡំ ដែលប្រព័ន្ធណែនាំដោយច្រឡំនូវខ្លឹមលសារមិនល្អក្នុងអំឡុងពេលដំណើរការបកប្រែ។

ធ្វើមាត្រដ្ឋានទំហំគំរូខណៈរក្សាបាននូវសមត្ថភាពខ្ពស់

ប្រព័ន្ធបកប្រែពហុភាសាផ្តល់អត្ថប្រយោជន៍សំខាន់ពីរ។ ប្រព័ន្ធនេះបើកភាសាស្រដៀងគ្នា — ដូចជាអាសាំមីស (Assamese) និងបង់ហ្គាលី (Bengali) ដែលទាំងពីរត្រូវបានសរសេរជាអក្សរបង់ហ្គាលី — ដើម្បីចែករំលែកទិន្នន័យក្នុងអំឡុងពេលបណ្តុះបណ្តាល។ នេះជួយកែលម្អគុណភាពនៃការបកប្រែយ៉ាងសំខាន់សម្រាប់ភាសាដែលមានធនធានតិចតួច នៅពេលដែលត្រូវបានបណ្តុះបណ្តាលរួមគ្នាជាមួយនឹងភាសាដែលមានធនធានច្រើនដែលស្រដៀងគ្នា។ ដូចគ្នានេះផងដែរ អ្នកស្រាវជ្រាវអាចអះអាងឡើងវិញ ធ្វើមាត្រដ្ឋាន និងពិសោធន៍ជាមួយគំរូពហុភាសាតែមួយបានយ៉ាងងាយស្រួលជាងជាមួយនឹងគំរូពីរភាសាផ្សេងគ្នារាប់រយ ឬរាប់ពាន់។

ប៉ុន្តែនៅតែមានបញ្ហាប្រឈមសំខាន់ៗនៅពេលពង្រីកគំរូពី 100 ទៅ 200 ភាសា។ ដោយគូភាសាដែលមានធនធានតិចតួចកាន់តែច្រើននៅក្នុងទិន្នន័យបណ្តុះបណ្តាល ប្រព័ន្ធពហុភាសាចាប់ផ្តើមដំណើរការហួសកម្រិត នៅពេលដែលយើងបណ្តុះបណ្តាលគំរូសម្រាប់រយៈពេលយូរ។ យើងបានដោះស្រាយបញ្ហាទាំងនេះដោយការច្នៃប្រឌិតលើផ្នែកបី៖ ការធ្វើឱ្យទៀងទាត់ និងការរៀនតាមកម្មវិធីសិក្សា ការរៀនដែលគ្រប់គ្រងដោយខ្លួនឯង និងការធ្វើពិពិធកម្មការបកប្រែត្រឡប់

ទីមួយ យើងបានបង្កើតការួចបញ្ចូលគ្នានៃបណ្តាញអ្នកជំនាញដែលមានសមត្ថភាពចែករំលែក និងឯកទេស ដើម្បីឱ្យភាសាដែលមានធនធានតិចតួចដោយគ្មានទិន្នន័យច្រើនអាចត្រូវបានបញ្ជូនដោយស្វ័យប្រវត្តិទៅកាន់សមត្ថភាពដែលត្រូវបានចែករំលែក។ នេះ រួមផ្សំជាមួយនឹងប្រព័ន្ធធ្វើឱ្យទៀងទាត់ដែលបានរចនាកាន់តែប្រសើរឡើង ជៀសវាងភាពលើលកម្រិត។ យើងក៏បានអនុវត្តតាមវិធីសាស្រ្តសិក្សាកម្មវិធីសិក្សាពីរជំហានផងដែរ ដែលដំបូងយើងបានបណ្តុះបណ្តាលភាសាដែលមានធនធានច្រើនសម្រាប់សម័យកាលមួយចំនួន មុននឹងណែនាំគូភាសាដែលមានធនធានតិចតួច ដែលកាត់បន្ថយបញ្ហាលើសកម្រិតម្តងទៀត។ បន្ទាប់មក ដោយផ្តល់បរិមាណទាបនៃទិន្នន័យ bitext ស្របគ្នាសម្រាប់ភាសាដែលមានធនធានតិចតួច យើងបានប្រើប្រាស់ការរៀនគ្រប់គ្រងដោយខ្លួនឯងលើទិន្នន័យភាសាតែមួយសម្រាប់ទាំងភាសាដែលមានធនធានតិចតួច និងធនធានច្រើនដែលស្រដៀងគ្នា ដើម្បីបង្កើនប្រសិទ្ធភាពនៃគំរូទាំងមូល។

ជាចុងក្រោយ យើងបានវិភាគពីរបៀបបង្កើតទិន្នន័យបកប្រែត្រឡប់មកវិញបានល្អបំផុត ហើយបានរកឃើញថាការរួមបញ្ចូលទិន្នន័យដែលបានបកប្រែត្រឡប់មកវិញដែលបានបង្កើតពីការបកប្រែដោយម៉ាស៊ីនស្ថិតិពីរភាសា និងគំរូបកប្រែដោយម៉ាស៊ីនប្រើប្រព័ន្ធប្រសាទពហុភាសាបានជួយកែលម្អដំណើរការសម្រាប់ភាសាដែលមានធនធានតិចតួច ដោយសារការកើនឡើងនៃភាពចម្រុះរបស់ទិន្នន័យសំយោគដែលត្រូវបានបង្កើតឡើង។ ដើម្បីបណ្តុះបណ្តាលគំរូ NLLB-200 ដែលមានប៉ារ៉ាម៉ែត្រ 54B យើងបានប្រើប្រាស់ Research SuperCluster (RSC) ដែលទើបបង្កើតថ្មីរបស់យើង ដែលស្ថិតក្នុងចំណោមកុំព្យូទ័រទំនើប AI ដែលមានល្បឿនលឿនបំផុតនៅលើ​ពិភពលោក។

ឧបករណ៍វាយតម្លៃ និងកាត់បន្ថយសម្រាប់ 200 ភាសា

ដើម្បីវាយតម្លៃ និងកែលម្អ NLLB-200 យើងបានបង្កើត FLORES-200 ដែលជាសំណុំទិន្នន័យវាយតម្លៃពីច្រើនទៅច្រើន ដែលអាចឱ្យអ្នកស្រាវជ្រាវវាយតម្លៃការអនុវត្តក្នុងទិសដៅភាសាផ្សេងៗគ្នាចំនួន 40,000។ យើងកំពុងស្វែងរកប្រភពបើកចំហនៃសំណុំទិន្នន័យថ្មីនេះ ដើម្បីជួយអ្នកស្រាវជ្រាវផ្សេងទៀតបានយ៉ាងឆាប់រហ័សក្នុងការសាកល្បង និងកែលម្អគំរូបកប្រែរបស់ពួកគេ។ អាចប្រើ FLORES-200 ដើម្បីវាយតម្លៃប្រព័ន្ធបកប្រែសម្រាប់កម្មវិធីជាច្រើន រួមទាំងខិត្តបណ្ណសុខភាព ភាពយន្ត សៀវភៅ និងខ្លឹមសារលើអ៊ីនធឺណិតក្នុងប្រទេស ឬតំបន់ដែលមានភាសាដែលមានធនធានតិចតួចមួយចំនួនត្រូវបាននិយាយ។

ការធ្វើមាត្រដ្ឋានទៅ 200 ភាសាមានន័យថាការដោះស្រាយហានិភ័យនៃការបង្កើតខ្លឹមសារមានពាក្យពេចន៍មិនល្អ ដែលអាចពិបាកក្នុងការគ្រប់គ្រងនៅក្នុងប្រព័ន្ធបកប្រែពហុទិសដៅ។ យើងបានធ្វើវាដោយបង្កើតបញ្ជីពាក្យពេចន៍មិនល្អសម្រាប់ភាសាដែលគាំទ្រទាំងអស់ ដើម្បីធ្វើឱ្យវាអាចរកឃើញ និងត្រងពាក្យប្រមាថ និងខ្លឹមសារដែលអាចនឹងមានការប្រមាថដ៏ទៃទៀត។ យើងកំពុងចេញផ្សាយបញ្ជីវាយតម្លៃពាក្យពេចន៍មិនល្អ និងគំរូស្តង់ដារសម្រាប់ភាសាទាំង 200 ដើម្បីផ្តល់ឱ្យអ្នកស្រាវជ្រាវផ្សេងទៀតនូវឧបករណ៍ដើម្បីកាត់បន្ថយហានិភ័យនៅក្នុងគំរូរបស់ពួកគេ។

ហើយដើម្បីធានាថាយើងកំពុងពង្រីកកិច្ចខិតខំប្រឹងប្រែងរបស់យើងក្នុងលក្ខណៈដែលមានទំនួលខុសត្រូវ យើងកំពុងធ្វើការជាមួយក្រុមអន្តរកម្មសិក្សាដែលរួមមានអ្នកភាសាវិទ្យា អ្នកសង្គមវិទ្យា និងអ្នកសីលធម៌ ដើម្បីស្វែងយល់បន្ថែមអំពីភាសានីមួយៗដែលយើងពិចារណា។

ក្រាហ្វិកនេះបង្ហាញពិន្ទុ BLEU ជាមធ្យមលើការបកប្រែ FLORES-101 ទៅ និងពីភាសាអង់គ្លេសទៅជា 100 ភាសា។ នៅខាងឆ្វេងមានគំរូទំនើបចុងក្រោយដែលបានបោះពុម្ពផ្សាយពីរគឺ M2M និង Delta LM ដែលគាំទ្រ 100 ភាសា។ ម៉ូដែលនៅខាងស្តាំគាំទ្រ 200 ភាសា៖ គំរូ Transformer មូលដ្ឋានដែលមានប៉ារ៉ាម៉ែត្រ 3.3B, គំរូបន្ទាត់មូលដ្ឋានជាមួយនឹងការរៀនដែលគ្រប់គ្រងដោយខ្លួនឯង (SSL), គំរូបន្ទាត់មូលដ្ឋានជាមួយនឹងការបកប្រែត្រលប់ក្រោយ (BT) និង NLLB-200 ដែលជាគំរូដែលមានមូលដ្ឋានលើអ្នកជំនាញចម្រុះដ៏ធំដែលប្រើប្រាស់ទាំងការរៀនដែលគ្រប់គ្រងដោយខ្លួនឯង និងការបកប្រែត្រឡប់។

ការបកប្រែកាន់តែច្រើន និងការរួមបញ្ចូលកាន់តែច្រើន

ឧបករណ៍បកប្រែដែលមានគុណភាពខ្ពស់អាចធ្វើឱ្យមានការផ្លាស់ប្ដូរ។ ការពិតសព្វថ្ងៃនេះគឺថា ភាសាមួយចំនួនតូច — រួមទាំងភាសាអង់គ្លេស ចិនកុកងឺ អេស្ប៉ាញ និងអារ៉ាប់ — ជាភាសាប្រើច្រើនលើបណ្តាញ។ អ្នកនិយាយភាសាដើមនៃភាសាដែលត្រូវបានប្រើយ៉ាងទូលំទូលាយទាំងនេះអាចនឹងលែងយល់ថាតើវាមានន័យយ៉ាងណាក្នុងការអានអ្វីមួយជាភាសាកំណើតរបស់អ្នក។ យើងជឿថា NLLB នឹងជួយរក្សាភាសា ដោយសារភាសាគឺមានគោលបំណងក្នុងការចែករំលែក ជាជាងការទាមទារភាសាអន្តរការី ដែលតែងតែធ្វើឱ្យអារម្មណ៍/ខ្លឹមសារមានភាពខុសឆ្គង។

វាក៏អាចជួយជំរុញកិច្ចការ NLP ផ្សេងទៀតផងដែរ លើសពីការបកប្រែ។ នេះអាចរួមបញ្ចូលជំនួយការការកសាងដែលធ្វើការបានយ៉ាងល្អជាភាសាដូចជា ភាសាជ្វា (Javanese) និងអ៊ូសបេក (Uzbek) ឬបង្កើតប្រព័ន្ធដើម្បីយកភាពយន្តបូលីវូដ និងបញ្ចូលអក្សររត់ត្រឹមត្រូវជាភាសាស្វាហ៊ីលី (Swahili) ឬអូរ៉ូម៉ូ (Oromo)។ នៅពេលដែល metaverse ចាប់ផ្តើមមានរូបរាង សមត្ថភាពក្នុងការបង្កើតបច្ចេកវិទ្យាដែលដំណើរការល្អជារាប់រយ ឬរាប់ពាន់ភាសា នឹងជួយឱ្យលទ្ធិប្រជាធិបតេយ្យទទួលបានបទពិសោធន៍ថ្មី និងអស្ចារ្យនៅក្នុងពិភពនិម្មិត។

កាលពីប៉ុន្មានឆ្នាំមុន ការបកប្រែដោយម៉ាស៊ីនដែលមានគុណភាពខ្ពស់បានដំណើរការជាភាសាមួយចំនួនតូចប៉ុណ្ណោះ។ តាមរយៈ NLLB-200 យើងកាន់តែខិតទៅជិតមួយថ្ងៃដែលមានប្រព័ន្ធដែលអាចឱ្យមនុស្សធ្វើការទំនាក់ទំនងជាមួយអ្នកណាក៏ដោយដែលពួកគេជ្រើសរើស។ យើងមានការរំភើបជាមួយនឹងអ្វីដែលមុខងារនេះបើកបង្ហាញឱ្យឃើញក្នុងពេលបច្ចុប្បន្ន និងអ្វីដែលអាចជាអត្ថន័យសម្រាប់ពេលអនាគត នៅពេលដែលយើងបន្តជំរុញដល់ព្រំដែននៃការបកប្រែដោយម៉ាស៊ីន។

ការងារនេះកំពុងត្រូវបានអនុវត្តដោយក្រុមពហុជំនាញនៅ Meta AI ដែលរួមមាន Bapi Akula, Pierre Andrews, Necip Fazil Ayan, Loic Barrault, Shruti Bhosale, Marta Ruiz Costa-jussa, James Cross, Onur Çelebi, Sergey Edunov, Maha Elbayad, Angela Fan , Cynthia Gao, Gabriel Mejia Gonzalez, Vedanuj Goswami, Francisco Guzmán, Prangthip Hansanti, Kennet Heafield, Kevin Heffernan, John Hoffman, Semarley Jarrett, Elahe Kalbassi, Philipp Koehn, Janice Lam, Daniel Licht, Alexand Maillourer Kaushik Ram Sadagopan, Safiyyah Saleem, Holger Schwenk, Shannon Sruit, Anna Sun, Chau Tran, Skyler Wang, Guillaume Wenzek, Jeff Wang និង Al Youngblood។