បច្ចេកវិទ្យាដែលបានអនុវត្តចំពោះការបង្វែរលំដាប់នៃភីកសែលដែលបង្ហាញនៅលើរូបភាពទៅជាពាក្យដែលមានបញ្ញាសិប្បនិម្មិតគឺមិនដូចដើមកាលពី XNUMX ឬច្រើនជាងឆ្នាំមុននោះទេ។ ការអនុវត្តកាន់តែប្រសើរ ភាពត្រឹមត្រូវ និងភាពជឿជាក់ធ្វើឱ្យការដាក់ចំណងជើងរូបភាពរលូន និងមានប្រសិទ្ធភាពអាចធ្វើទៅបានក្នុងផ្នែកផ្សេងៗគ្នា - ពីប្រព័ន្ធផ្សព្វផ្សាយសង្គមរហូតដល់ពាណិជ្ជកម្មអេឡិចត្រូនិក។ ការបង្កើតស្លាកដោយស្វ័យប្រវត្តិត្រូវគ្នានឹងរូបថតដែលបានទាញយក។ បច្ចេកវិទ្យានេះអាចជួយមនុស្សពិការភ្នែកឱ្យរកឃើញពិភពលោកជុំវិញពួកគេ។
អត្ថបទនេះគ្របដណ្តប់លើការប្រើប្រាស់ករណីនៃបច្ចេកវិទ្យាដាក់ចំណងជើងរូបភាព រចនាសម្ព័ន្ធមូលដ្ឋាន គុណសម្បត្តិ និងគុណវិបត្តិរបស់វា។ ដូចគ្នានេះផងដែរ យើងដាក់ពង្រាយគំរូដែលមានសមត្ថភាពបង្កើតការពិពណ៌នាប្រកបដោយអត្ថន័យនៃអ្វីដែលត្រូវបានបង្ហាញនៅលើរូបភាពបញ្ចូល។
ក្នុងនាមជាគោលបំណងភាសាចក្ខុវិស័យ ការដាក់ចំណងជើងរូបភាពអាចត្រូវបានដោះស្រាយដោយជំនួយពីចក្ខុវិស័យកុំព្យូទ័រ និង NLP ។ ផ្នែក AI នៅលើយន្តហោះ CNNs (បណ្តាញសរសៃប្រសាទ convolutional) និង RNNs (បណ្តាញសរសៃប្រសាទកើតឡើងវិញ) ឬគំរូដែលអាចអនុវត្តបានដើម្បីទៅដល់គោលដៅ។
មុននឹងឈានទៅរកព័ត៌មានលម្អិតបច្ចេកទេស សូមស្វែងយល់ពីកន្លែងដែលដាក់ចំណងជើងរូបភាព។
ការដាក់ស្លាករូបភាពដែលជំរុញដោយ AI និងការពិពណ៌នាប្រើករណី
"ការដាក់ចំណងជើងរូបភាពគឺជាសមត្ថភាពចក្ខុវិស័យកុំព្យូទ័រស្នូលមួយដែលអាចបើកឱ្យមានសេវាកម្មយ៉ាងទូលំទូលាយ"។ Xuedong Huangដែលជាអ្នកបច្ចេកទេសរបស់ក្រុមហ៊ុន Microsoft និង CTO នៃ Azure AI Cognitive Services នៅ Redmond, Washington ។
គាត់មានចំណុចមួយ ដោយសារវាមានវិសាលភាពដ៏ធំនៃផ្នែកសម្រាប់បច្ចេកវិទ្យាដាក់ចំណងជើងរូបភាព ពោលគឺ៖ ការដាក់ស្លាករូបភាពសម្រាប់ពាណិជ្ជកម្មអេឡិចត្រូនិក សេវាកម្មចែករំលែករូបថត និងកាតាឡុកអនឡាញ។
ក្នុងករណីនេះ ការបង្កើតស្លាកដោយស្វ័យប្រវត្តិតាមរូបថតកំពុងត្រូវបានអនុវត្ត។ ជាឧទាហរណ៍ វាអាចធ្វើអោយជីវិតរបស់អ្នកប្រើប្រាស់មានភាពសាមញ្ញ នៅពេលដែលពួកគេបង្ហោះរូបភាពទៅកាតាឡុកអនឡាញ។ ក្នុងករណីនេះ, AI ទទួលស្គាល់រូបភាព និងបង្កើតគុណលក្ខណៈ – ទាំងនេះអាចជាហត្ថលេខា ប្រភេទ ឬការពិពណ៌នា។ បច្ចេកវិទ្យាក៏អាចកំណត់ប្រភេទនៃធាតុ សម្ភារៈ ពណ៌ លំនាំ និងសមនៃសម្លៀកបំពាក់សម្រាប់ហាងអនឡាញ។
ក្នុងពេលជាមួយគ្នានេះ ការដាក់ចំណងជើងរូបភាពអាចត្រូវបានអនុវត្តដោយសេវាកម្មចែករំលែករូបថត ឬកាតាឡុកអនឡាញណាមួយ ដើម្បីបង្កើតការពណ៌នាប្រកបដោយអត្ថន័យដោយស្វ័យប្រវត្តិនៃរូបភាពសម្រាប់ SEO ឬគោលបំណងចាត់ថ្នាក់។ ជាងនេះទៅទៀត ចំណងជើងអនុញ្ញាតឱ្យពិនិត្យមើលថាតើរូបភាពសមនឹងច្បាប់របស់វេទិកាដែលវានឹងត្រូវបានបោះពុម្ពដែរឬទេ។ នៅទីនេះវាបម្រើជាជម្រើសមួយសម្រាប់ការចាត់ថ្នាក់របស់ CNN និងជួយបង្កើនចរាចរណ៍ និងប្រាក់ចំណូល។
ចំណាំ: ការបង្កើតការពិពណ៌នាសម្រាប់វីដេអូគឺជាកិច្ចការស្មុគស្មាញជាង។ ទោះយ៉ាងណាក៏ដោយ ស្ថានភាពបច្ចេកវិទ្យាបច្ចុប្បន្ន ធ្វើឱ្យវាអាចទៅរួច។
កំណត់ចំណាំរូបភាពដោយស្វ័យប្រវត្តិសម្រាប់មនុស្សពិការភ្នែក
ដើម្បីអភិវឌ្ឍដំណោះស្រាយបែបនេះ យើងត្រូវបំប្លែងរូបភាពទៅជាអត្ថបទ ហើយបន្ទាប់មកទៅជាសំឡេង។ នេះគឺជាកម្មវិធីល្បីពីរនៃបច្ចេកវិទ្យា Deep Learning ។
កម្មវិធីមួយដែលគេហៅថា មើលអាយអេ បង្កើតឡើងដោយក្រុមហ៊ុន Microsoft អនុញ្ញាតឱ្យមនុស្សដែលមានបញ្ហាភ្នែកមើលឃើញពិភពលោកជុំវិញពួកគេដោយប្រើស្មាតហ្វូន។ កម្មវិធីអាចអានអត្ថបទនៅពេលដែលកាមេរ៉ាត្រូវបានចង្អុលទៅវា ហើយផ្តល់ការដាស់តឿនសំឡេង។ វាអាចសម្គាល់ទាំងអត្ថបទដែលបានបោះពុម្ព និងសរសេរដោយដៃ ព្រមទាំងកំណត់អត្តសញ្ញាណវត្ថុ និងមនុស្សផងដែរ។
ក្រុមហ៊ុន google ក៏បានណែនាំឧបករណ៍ដែលអាចបង្កើតការពិពណ៌នាអត្ថបទសម្រាប់រូបភាព ដែលអនុញ្ញាតឱ្យមនុស្សពិការភ្នែក ឬអ្នកដែលមានបញ្ហាភ្នែកយល់អំពីបរិបទនៃរូបភាព ឬក្រាហ្វិក។ ឧបករណ៍រៀនម៉ាស៊ីននេះមានស្រទាប់ជាច្រើន។ ម៉ូដែលទីមួយស្គាល់អក្សរ និងលេខសរសេរដោយដៃនៅក្នុងរូបភាព។ បន្ទាប់មក ម៉ូដែលមួយទៀតសម្គាល់វត្ថុសាមញ្ញៗនៃពិភពលោកជុំវិញ ដូចជារថយន្ត ដើមឈើ សត្វជាដើម។ ហើយស្រទាប់ទីបីគឺជាគំរូកម្រិតខ្ពស់ដែលមានសមត្ថភាពស្វែងរកគំនិតចម្បងនៅក្នុងការពិពណ៌នាអត្ថបទពេញលេញ។
ការដាក់ចំណងជើងរូបភាព AI សម្រាប់ប្រព័ន្ធផ្សព្វផ្សាយសង្គម
ចំណងជើងរូបភាពដែលបានបង្កើតដោយមានជំនួយពីឧបករណ៍ដែលមានមូលដ្ឋានលើ AI មានរួចហើយសម្រាប់ Facebook និង Instagram ។ លើសពីនេះ គំរូកាន់តែឆ្លាតវៃគ្រប់ពេល ដោយរៀនស្គាល់វត្ថុ សកម្មភាព និងគំរូថ្មីៗ។
Facebook បានបង្កើតប្រព័ន្ធមួយដែលមានសមត្ថភាពបង្កើតការពិពណ៌នាអក្សរ Alt ជិតប្រាំឆ្នាំមុន។ សព្វថ្ងៃវាបានក្លាយជាការត្រឹមត្រូវជាងមុន។ ពីមុនវាពិពណ៌នារូបភាពដោយប្រើពាក្យទូទៅ ប៉ុន្តែឥឡូវនេះប្រព័ន្ធនេះអាចបង្កើតការពិពណ៌នាលម្អិត។
ការកំណត់អត្តសញ្ញាណរូបសញ្ញាជាមួយ AI
បច្ចេកវិជ្ជាដាក់ចំណងជើងរូបភាពកំពុងត្រូវបានដាក់ឱ្យប្រើប្រាស់ជាមួយបច្ចេកវិទ្យា AI ផ្សេងទៀតផងដែរ។ ឧទាហរណ៍ DeepLogo គឺជាបណ្តាញសរសៃប្រសាទដែលមានមូលដ្ឋានលើ TensorFlow Object Detection API។ ហើយវាអាចស្គាល់ប្រភេទឡូហ្គោ។ ឈ្មោះនៃប្រភេទនិមិត្តសញ្ញាដែលបានកំណត់បង្ហាញជាចំណងជើងនៅលើរូបភាព។ នេះ។ ការស្រាវជ្រាវ នៅលើគំរូសំយោគនិមិត្តសញ្ញាដែលមានមូលដ្ឋានលើ GAN អាចនាំមកនូវពន្លឺដល់របៀបដែល GANs ដំណើរការ។
ការស្រាវជ្រាវគំរូសិក្សាជ្រៅជ្រះសម្រាប់ការដាក់ចំណងជើងរូបភាព
យើងបានអនុវត្តគំរូដែលបង្កើតការពិពណ៌នាអត្ថបទដែលមានអត្ថន័យសម្រាប់រូបភាព ដោយចងចាំករណីប្រើប្រាស់ដែលអាចប្រើបាន។ ឧទាហរណ៍ ចំណងជើងអាចពណ៌នាអំពីសកម្មភាព និងវត្ថុដែលជាវត្ថុសំខាន់នៅលើរូបភាពនីមួយៗ។ សម្រាប់ការបណ្តុះបណ្តាល យើងបានប្រើសំណុំទិន្នន័យ Microsoft COCO 2014 ។
សំណុំទិន្នន័យ COCO គឺជាការរកឃើញវត្ថុទ្រង់ទ្រាយធំ ការបែងចែក និងសំណុំទិន្នន័យចំណងជើង។ វាមានប្រហែល 1.5 លានវត្ថុផ្សេងៗគ្នា ចែកជា 80 ប្រភេទ។ រូបភាពនីមួយៗត្រូវបានកត់ចំណាំជាមួយនឹងចំណងជើងដែលបង្កើតដោយមនុស្សចំនួនប្រាំ។
យើងបានដាក់ពាក្យ ការបណ្តុះបណ្តាល សុពលភាព និងការបំបែកការធ្វើតេស្តរបស់ Andrej Karpathy សម្រាប់ការបែងចែកសំណុំទិន្នន័យ ដើម្បីបណ្តុះបណ្តាល ធ្វើឱ្យមានសុពលភាព និងផ្នែកសាកល្បង។ ដូចគ្នានេះផងដែរ យើងត្រូវការ Metrics ដូចជា BLEU, ROUGE, METEOR, CIDER, SPICE ដើម្បីវាយតម្លៃលទ្ធផល។
ការប្រៀបធៀបម៉ូដែល ML សម្រាប់ដាក់ចំណងជើងរូបភាព
ជាធម្មតា ស្ថាបត្យកម្មមូលដ្ឋានសម្រាប់ដាក់ចំណងជើងរូបភាព បំប្លែងការបញ្ចូលទៅក្នុងទម្រង់ថេរ ហើយឌិកូដវា ពាក្យមួយពាក្យទៅជាលំដាប់។
កម្មវិធីអ៊ិនកូដឌ័រអ៊ិនកូដរូបភាពបញ្ចូលជាមួយឆានែលពណ៌បីចូលទៅក្នុងការបោះពុម្ពតូចជាងជាមួយឆានែល "បានរៀន" ។ រូបភាពដែលបានអ៊ិនកូដតូចជាងនេះគឺជាតំណាងសង្ខេបនៃអ្វីដែលមានប្រយោជន៍នៅក្នុងរូបភាពដើម។ សម្រាប់ការអ៊ិនកូដ ស្ថាបត្យកម្ម CNN ណាមួយអាចត្រូវបានអនុវត្ត។ ដូចគ្នានេះផងដែរ យើងអាចប្រើការរៀនផ្ទេរសម្រាប់ផ្នែកបំលែងកូដ។
ឧបករណ៍ឌិកូដមើលរូបភាពដែលបានបំប្លែងកូដ ហើយបង្កើតចំណងជើងតាមពាក្យ។ បន្ទាប់មក ពាក្យព្យាករណ៍នីមួយៗត្រូវបានប្រើដើម្បីបង្កើតពាក្យបន្ទាប់។
មុននឹងឈានទៅមុខ សូមក្រឡេកមើលអ្វីដែលយើងបានទទួលជាលទ្ធផលនៃការបង្កើតគំរូ និងការធ្វើតេស្តជាមួយនឹងម៉ូដែល Meshed-Memory transformer។
ការពិពណ៌នារូបភាពផ្អែកលើ AI
យើងក៏បានសិក្សាឧទាហរណ៍ដែលនាំឱ្យមានកំហុស។ មានហេតុផលជាច្រើនដែលកំហុសលេចឡើង។ កំហុសទូទៅបំផុតគឺគុណភាពរូបភាពមិនល្អ និងអវត្តមាននៃធាតុមួយចំនួននៅក្នុងសំណុំទិន្នន័យដំបូង។ គំរូនេះត្រូវបានបណ្តុះបណ្តាលលើសំណុំទិន្នន័យដែលមានរូបភាពទូទៅ ដូច្នេះវាធ្វើឱ្យមានកំហុសនៅពេលដែលវាមិនស្គាល់ខ្លឹមសារ ឬមិនអាចកំណត់អត្តសញ្ញាណវាបានត្រឹមត្រូវ។ នេះគឺជាវិធីដូចគ្នាដែលខួរក្បាលរបស់មនុស្សធ្វើការ។
នេះគឺជាករណីមួយផ្សេងទៀតដើម្បីបង្ហាញពីរបៀបដែលបណ្តាញសរសៃប្រសាទដំណើរការ។ មិនមានខ្លានៅក្នុងគំរូសំណុំទិន្នន័យទេ។ ផ្ទុយទៅវិញ AI បានជ្រើសរើសវត្ថុដែលនៅជិតបំផុតដែលវាដឹង – វាដូចគ្នាទៅនឹងខួរក្បាលរបស់យើងទាក់ទងនឹងអ្វីដែលមិនស្គាល់។
គំរូការយកចិត្តទុកដាក់ឡើងលើសម្រាប់ការដាក់ចំណងជើងរូបភាព
នេះគឺជាគំរូដំបូងគេដែលប្រៀបធៀប។ យន្តការឡើងលើចុះក្រោម រួមបញ្ចូលគ្នារវាងបាតឡើងលើ និងយន្តការយកចិត្តទុកដាក់ពីលើចុះក្រោម។
លឿនជាងមុន R-CNN ត្រូវបានប្រើដើម្បីបង្កើតការតភ្ជាប់រវាងការរកឃើញវត្ថុ និងភារកិច្ចដាក់ចំណងជើងរូបភាព។ គំរូសំណើតំបន់ត្រូវបានបណ្តុះបណ្តាលជាមុនលើសំណុំទិន្នន័យស្វែងរកវត្ថុ ដោយសារការប្រើប្រាស់ចំណេះដឹងឆ្លងដែន។ ជាងនេះទៅទៀត មិនដូចយន្តការយកចិត្តទុកដាក់ផ្សេងទៀតទេ ម៉ូដែលទាំងពីរប្រើការយកចិត្តទុកដាក់តែមួយជាមួយយន្តការឡើងលើ។
លឿនជាងមុន R-CNN (រូបភាព 5a) ត្រូវបានប្រើសម្រាប់ការទាញយកលក្ខណៈពិសេសរូបភាព។ Faster R-CNN គឺជាគំរូរាវរកវត្ថុដែលត្រូវបានរចនាឡើងដើម្បីកំណត់អត្តសញ្ញាណវត្ថុដែលជាកម្មសិទ្ធិរបស់ថ្នាក់ជាក់លាក់ និងធ្វើមូលដ្ឋានីយកម្មពួកវាជាមួយនឹងប្រអប់ព្រំដែន។ លឿនជាងមុន R-CNN រកឃើញវត្ថុជាពីរដំណាក់កាល។
ដំណាក់កាលដំបូងដែលត្រូវបានពិពណ៌នាថាជាបណ្តាញសំណើតំបន់ (RPN) ព្យាករណ៍ពីសំណើវត្ថុ។ ដោយប្រើការគាបសង្កត់ដែលមិនមែនជាអតិបរិមានៃលោភលន់ជាមួយនឹងកម្រិតប្រសព្វ-លើសសហជីព (IoU) សំណើប្រអប់កំពូលត្រូវបានជ្រើសរើសជាការបញ្ចូលទៅដំណាក់កាលទីពីរ។
នៅដំណាក់កាលទីពីរ ការដាក់បញ្ចូលតំបន់ចំណាប់អារម្មណ៍ (RoI) ត្រូវបានប្រើដើម្បីទាញយកផែនទីលក្ខណៈពិសេសតូចមួយ (ឧទាហរណ៍ 14×14) សម្រាប់សំណើប្រអប់នីមួយៗ។ បន្ទាប់មកផែនទីលក្ខណៈពិសេសទាំងនេះត្រូវបានបញ្ចូលគ្នាជាធាតុបញ្ចូលទៅក្នុងស្រទាប់ចុងក្រោយនៃ CNN ។ ដូច្នេះ លទ្ធផលគំរូចុងក្រោយមានការចែកចាយ softmax លើស្លាកថ្នាក់ និងការកែលម្អប្រអប់កំណត់ថ្នាក់ជាក់លាក់សម្រាប់សំណើប្រអប់នីមួយៗ។ គ្រោងការណ៍គឺយកចេញពី ផ្ទាំងរូបភាពផ្លូវការ។
ដោយទទួលបានលក្ខណៈពិសេសរបស់រូបភាព V គំរូដាក់ចំណងជើងដែលបានស្នើប្រើយន្តការយកចិត្តទុកដាក់ពីកំពូលចុះក្រោម 'ទន់' ដើម្បីថ្លឹងថ្លែងលក្ខណៈនីមួយៗក្នុងអំឡុងពេលបង្កើតចំណងជើង។ នេះគឺជា LSTM ដែលមានយន្តការយកចិត្តទុកដាក់បន្ថែមពីលើចុះក្រោម។ បើក។ នេះគឺជា LSTM ដែលមានយន្តការយកចិត្តទុកដាក់បន្ថែមពីលើចុះក្រោម។ នៅកម្រិតខ្ពស់ គំរូដាក់ចំណងជើងមានស្រទាប់ LSTM ពីរ។
Meshed-Memory Transformer Model សម្រាប់ដាក់ចំណងជើងរូបភាព
គំរូមួយផ្សេងទៀតដែលយើងបានយកដើម្បីដោះស្រាយភារកិច្ចដាក់ចំណងជើងរូបភាពគឺ Meshed-Memory Transformer. វាមានផ្នែកបំលែងកូដ និងផ្នែកឌិកូដ។ ពួកគេទាំងពីរត្រូវបានធ្វើពីជង់នៃស្រទាប់យកចិត្តទុកដាក់។ ឧបករណ៍បំលែងកូដក៏រួមបញ្ចូលស្រទាប់បញ្ជូនបន្តផងដែរ ហើយឧបករណ៍ឌិកូដមានយន្តការដែលអាចរៀនបានជាមួយនឹងទម្ងន់។
តំបន់នៃរូបភាពត្រូវបានអ៊ិនកូដក្នុងទម្រង់ពហុកម្រិត។ គំរូយកទៅក្នុងគណនីទាំងទំនាក់ទំនងកម្រិតទាប និងកម្រិតខ្ពស់។ ចំណេះដឹងដែលបានរៀនត្រូវបានអ៊ិនកូដជាវ៉ិចទ័រនៃការចងចាំ។ ស្រទាប់នៃផ្នែកបំលែងកូដ និងផ្នែកឌិកូដត្រូវបានតភ្ជាប់ក្នុងរចនាសម្ព័ន្ធដូចសំណាញ់។ ឧបករណ៍ឌិកូដអានពីលទ្ធផលនៃស្រទាប់ការអ៊ិនកូដនីមួយៗ ហើយអនុវត្តការយកចិត្តទុកដាក់ដោយខ្លួនឯងលើពាក្យ និងការយកចិត្តទុកដាក់ឆ្លងកាត់ស្រទាប់ការអ៊ិនកូដទាំងមូល បន្ទាប់ពីលទ្ធផលនោះត្រូវបានកែប្រែ និងបូកសរុប។
ដូច្នេះ គំរូអាចប្រើមិនត្រឹមតែមាតិកាដែលមើលឃើញនៃរូបភាពប៉ុណ្ណោះទេ ប៉ុន្តែក៏មានចំណេះដឹងពីមុនអំពីឧបករណ៍បំលែងកូដផងដែរ។ គ្រោងការណ៍ត្រូវបានដកចេញពី ក្រដាសផ្លូវការ.
ការប្រៀបធៀបគំរូពីរសម្រាប់ការដាក់ចំណងជើងរូបភាព
ដោយផ្អែកលើការស្រាវជ្រាវរបស់យើង យើងអាចប្រៀបធៀបម៉ូដែល Up-down និងម៉ូដែល M2transform ដូចដែលពួកគេត្រូវបានបណ្តុះបណ្តាលលើទិន្នន័យដូចគ្នា។ តារាងខាងក្រោមផ្តល់នូវសេចក្តីសង្ខេបនៃម៉ូដែលទាំងពីរ។
តារាង - សូចនាករវាយតម្លៃ
BLEU1 | BLEU2 | ស៊ីឌី | ក្រហម | METEOR | |
ម៉ូដែលចុះក្រោម | 0.8 | 0.358 | 1.16 | 0.573 | 0.275 |
M2 Transformer | 0.8078 | 0.3834 | 1.278 | 0.58 | 0.2876 |
តារាង - ពេលវេលានិងការចងចាំ
ពេលវេលា | អង្គចងចាំ | |||
ស៊ីភីយូ | GPU | ស៊ីភីយូ | GPU | |
ម៉ូដែលចុះក្រោម | 104.47 | 17 | 1479mb | 1181mb |
M2 Transformer | ១២ ម ២៦.៤៦១ ស | ១ ម ៥ | 1423mb | 1310mb |
ចំណងជើងរូបភាព៖ ការវិភាគលទ្ធផល និងទស្សនវិស័យនាពេលអនាគត
ម៉ូដែលដែលបានប្រើទាំងពីរបានបង្ហាញលទ្ធផលល្អគួរសម។ ដោយមានជំនួយរបស់ពួកគេ យើងអាចបង្កើតចំណងជើងដែលមានអត្ថន័យសម្រាប់រូបភាពភាគច្រើនពីសំណុំទិន្នន័យរបស់យើង។ ជាងនេះទៅទៀត ដោយសារលក្ខណៈពិសេសដែលបានស្រង់ចេញជាមុនជាមួយ Faster-RCNN ដែលត្រូវបានបណ្តុះបណ្តាលជាមុនលើសំណុំទិន្នន័យ Visual Genome ដ៏ធំនោះ គំរូនេះអាចសម្គាល់វត្ថុ និងសកម្មភាពជាច្រើនពីជីវិតប្រចាំថ្ងៃរបស់មនុស្ស ដូច្នេះហើយពណ៌នាបានត្រឹមត្រូវ។
តើអ្វីជាភាពខុសគ្នា?
ម៉ូដែល Updown គឺលឿន និងទម្ងន់ស្រាលជាង M2Transformer ។ ហេតុផលគឺថា M2Transformer ប្រើបច្ចេកទេសជាច្រើនទៀត ដូចជាការតភ្ជាប់បន្ថែម (“សំណាញ់”) រវាងឧបករណ៍បំប្លែង និងឌិកូដ និងវ៉ិចទ័រអង្គចងចាំសម្រាប់ចងចាំបទពិសោធន៍អតីតកាល។ ដូចគ្នានេះផងដែរម៉ូដែលទាំងនេះប្រើយន្តការផ្សេងគ្នានៃការយកចិត្តទុកដាក់។
ការយកចិត្តទុកដាក់លើការចុះក្រោមអាចត្រូវបានអនុវត្តនៅក្នុងការឆ្លងកាត់តែមួយខណៈពេលដែលការយកចិត្តទុកដាក់ពហុក្បាលដែលត្រូវបានប្រើនៅក្នុង M2Transformer គួរតែដំណើរការស្របគ្នាជាច្រើនដង។ ទោះជាយ៉ាងណាក៏ដោយយោងទៅតាមរង្វាស់ដែលទទួលបាន M2Transormer ទទួលបានលទ្ធផលប្រសើរជាងមុន។ ដោយមានជំនួយរបស់វា យើងអាចបង្កើតអក្សររត់បានត្រឹមត្រូវ និងផ្លាស់ប្តូរកាន់តែច្រើន។ ការទស្សន៍ទាយ M2Transformer មានភាពមិនត្រឹមត្រូវតិចតួចក្នុងការពិពណ៌នា ទាំងរូបភាពពីសំណុំទិន្នន័យ និងសម្រាប់រូបភាពពាក់ព័ន្ធមួយចំនួនទៀត។ ដូច្នេះហើយ វាធ្វើកិច្ចការសំខាន់បានល្អជាង។
យើងបានប្រៀបធៀបម៉ូដែលពីរ ប៉ុន្តែក៏មានវិធីសាស្រ្តផ្សេងទៀតចំពោះភារកិច្ចនៃការដាក់ចំណងជើងរូបភាពផងដែរ។ វាអាចទៅរួចក្នុងការផ្លាស់ប្តូរឧបករណ៍ឌិកូដ និងឧបករណ៍បំលែងកូដ ប្រើវ៉ិចទ័រពាក្យផ្សេងៗ ផ្សំសំណុំទិន្នន័យ និងអនុវត្តការរៀនផ្ទេរ។
គំរូនេះអាចត្រូវបានកែលម្អដើម្បីសម្រេចបានលទ្ធផលល្អប្រសើរដែលសមរម្យសម្រាប់អាជីវកម្មជាក់លាក់ ទាំងជាកម្មវិធីសម្រាប់អ្នកដែលមានបញ្ហាចក្ខុវិស័យ ឬជាឧបករណ៍បន្ថែមដែលបានបង្កប់នៅក្នុងវេទិកាពាណិជ្ជកម្មអេឡិចត្រូនិក។ ដើម្បីសម្រេចបាននូវគោលដៅនេះ គំរូគួរតែត្រូវបានបណ្តុះបណ្តាលលើសំណុំទិន្នន័យដែលពាក់ព័ន្ធ។ ជាឧទាហរណ៍ សម្រាប់ប្រព័ន្ធដើម្បីពណ៌នាយ៉ាងត្រឹមត្រូវអំពីក្រណាត់ វាជាការប្រសើរក្នុងការដំណើរការការហ្វឹកហាត់លើសំណុំទិន្នន័យជាមួយនឹងសម្លៀកបំពាក់។
ផ្លាតូអាអាយ។ គេហទំព័រ ៣ ។ ទិន្នន័យវៃឆ្លាតត្រូវបានធ្វើឱ្យប្រសើរឡើង។
ចុចត្រង់នេះដើម្បីចូលប្រើ។
ប្រភព៖ https://www.iotforall.com/deep-learning-image-captioning-technology-for-business-applications