និមិត្តសញ្ញា Zephyrnet

ការរៀនជ្រៅជ្រះ បច្ចេកវិទ្យាដាក់ចំណងជើងរូបភាពសម្រាប់កម្មវិធីអាជីវកម្ម

កាលបរិច្ឆេទ:

ការសិក្សាជ្រៅជ្រះ បច្ចេកវិទ្យាដាក់ចំណងជើងរូបភាពសម្រាប់កម្មវិធីអាជីវកម្ម
ឧទាហរណ៍៖ © IoT សម្រាប់ទាំងអស់គ្នា

បច្ចេកវិទ្យាដែលបានអនុវត្តចំពោះការបង្វែរលំដាប់នៃភីកសែលដែលបង្ហាញនៅលើរូបភាពទៅជាពាក្យដែលមានបញ្ញាសិប្បនិម្មិតគឺមិនដូចដើមកាលពី XNUMX ឬច្រើនជាងឆ្នាំមុននោះទេ។ ការអនុវត្តកាន់តែប្រសើរ ភាពត្រឹមត្រូវ និងភាពជឿជាក់ធ្វើឱ្យការដាក់ចំណងជើងរូបភាពរលូន និងមានប្រសិទ្ធភាពអាចធ្វើទៅបានក្នុងផ្នែកផ្សេងៗគ្នា - ពីប្រព័ន្ធផ្សព្វផ្សាយសង្គមរហូតដល់ពាណិជ្ជកម្មអេឡិចត្រូនិក។ ការបង្កើតស្លាកដោយស្វ័យប្រវត្តិត្រូវគ្នានឹងរូបថតដែលបានទាញយក។ បច្ចេកវិទ្យានេះអាចជួយមនុស្សពិការភ្នែកឱ្យរកឃើញពិភពលោកជុំវិញពួកគេ។

អត្ថបទនេះគ្របដណ្តប់លើការប្រើប្រាស់ករណីនៃបច្ចេកវិទ្យាដាក់ចំណងជើងរូបភាព រចនាសម្ព័ន្ធមូលដ្ឋាន គុណសម្បត្តិ និងគុណវិបត្តិរបស់វា។ ដូចគ្នានេះផងដែរ យើងដាក់ពង្រាយគំរូដែលមានសមត្ថភាពបង្កើតការពិពណ៌នាប្រកបដោយអត្ថន័យនៃអ្វីដែលត្រូវបានបង្ហាញនៅលើរូបភាពបញ្ចូល។

ក្នុងនាមជាគោលបំណងភាសាចក្ខុវិស័យ ការដាក់ចំណងជើងរូបភាពអាចត្រូវបានដោះស្រាយដោយជំនួយពីចក្ខុវិស័យកុំព្យូទ័រ និង NLP ។ ផ្នែក AI នៅលើយន្តហោះ CNNs (បណ្តាញសរសៃប្រសាទ convolutional) និង RNNs (បណ្តាញសរសៃប្រសាទកើតឡើងវិញ) ឬគំរូដែលអាចអនុវត្តបានដើម្បីទៅដល់គោលដៅ។

មុន​នឹង​ឈាន​ទៅ​រក​ព័ត៌មាន​លម្អិត​បច្ចេកទេស សូម​ស្វែង​យល់​ពី​កន្លែង​ដែល​ដាក់​ចំណង​ជើង​រូបភាព។

ការ​ដាក់​ស្លាក​រូបភាព​ដែល​ជំរុញ​ដោយ AI និង​ការ​ពិពណ៌នា​ប្រើ​ករណី

"ការ​ដាក់​ចំណង​ជើង​រូបភាព​គឺ​ជា​សមត្ថភាព​ចក្ខុវិស័យ​កុំព្យូទ័រ​ស្នូល​មួយ​ដែល​អាច​បើក​ឱ្យ​មាន​សេវាកម្ម​យ៉ាង​ទូលំទូលាយ"។ Xuedong Huangដែលជាអ្នកបច្ចេកទេសរបស់ក្រុមហ៊ុន Microsoft និង CTO នៃ Azure AI Cognitive Services នៅ Redmond, Washington ។

គាត់មានចំណុចមួយ ដោយសារវាមានវិសាលភាពដ៏ធំនៃផ្នែកសម្រាប់បច្ចេកវិទ្យាដាក់ចំណងជើងរូបភាព ពោលគឺ៖ ការដាក់ស្លាករូបភាពសម្រាប់ពាណិជ្ជកម្មអេឡិចត្រូនិក សេវាកម្មចែករំលែករូបថត និងកាតាឡុកអនឡាញ។

ក្នុងករណីនេះ ការបង្កើតស្លាកដោយស្វ័យប្រវត្តិតាមរូបថតកំពុងត្រូវបានអនុវត្ត។ ជាឧទាហរណ៍ វាអាចធ្វើអោយជីវិតរបស់អ្នកប្រើប្រាស់មានភាពសាមញ្ញ នៅពេលដែលពួកគេបង្ហោះរូបភាពទៅកាតាឡុកអនឡាញ។ ក្នុងករណី​នេះ, AI ទទួលស្គាល់រូបភាព និងបង្កើតគុណលក្ខណៈ – ទាំងនេះអាចជាហត្ថលេខា ប្រភេទ ឬការពិពណ៌នា។ បច្ចេកវិទ្យាក៏អាចកំណត់ប្រភេទនៃធាតុ សម្ភារៈ ពណ៌ លំនាំ និងសមនៃសម្លៀកបំពាក់សម្រាប់ហាងអនឡាញ។

ក្នុងពេលជាមួយគ្នានេះ ការដាក់ចំណងជើងរូបភាពអាចត្រូវបានអនុវត្តដោយសេវាកម្មចែករំលែករូបថត ឬកាតាឡុកអនឡាញណាមួយ ដើម្បីបង្កើតការពណ៌នាប្រកបដោយអត្ថន័យដោយស្វ័យប្រវត្តិនៃរូបភាពសម្រាប់ SEO ឬគោលបំណងចាត់ថ្នាក់។ ជាងនេះទៅទៀត ចំណងជើងអនុញ្ញាតឱ្យពិនិត្យមើលថាតើរូបភាពសមនឹងច្បាប់របស់វេទិកាដែលវានឹងត្រូវបានបោះពុម្ពដែរឬទេ។ នៅទីនេះវាបម្រើជាជម្រើសមួយសម្រាប់ការចាត់ថ្នាក់របស់ CNN និងជួយបង្កើនចរាចរណ៍ និងប្រាក់ចំណូល។

ចំណាំ: ការបង្កើតការពិពណ៌នាសម្រាប់វីដេអូគឺជាកិច្ចការស្មុគស្មាញជាង។ ទោះយ៉ាងណាក៏ដោយ ស្ថានភាពបច្ចេកវិទ្យាបច្ចុប្បន្ន ធ្វើឱ្យវាអាចទៅរួច។

កំណត់ចំណាំរូបភាពដោយស្វ័យប្រវត្តិសម្រាប់មនុស្សពិការភ្នែក

ដើម្បីអភិវឌ្ឍដំណោះស្រាយបែបនេះ យើងត្រូវបំប្លែងរូបភាពទៅជាអត្ថបទ ហើយបន្ទាប់មកទៅជាសំឡេង។ នេះគឺជាកម្មវិធីល្បីពីរនៃបច្ចេកវិទ្យា Deep Learning ។

កម្មវិធីមួយដែលគេហៅថា មើលអាយអេ បង្កើតឡើងដោយក្រុមហ៊ុន Microsoft អនុញ្ញាតឱ្យមនុស្សដែលមានបញ្ហាភ្នែកមើលឃើញពិភពលោកជុំវិញពួកគេដោយប្រើស្មាតហ្វូន។ កម្មវិធីអាចអានអត្ថបទនៅពេលដែលកាមេរ៉ាត្រូវបានចង្អុលទៅវា ហើយផ្តល់ការដាស់តឿនសំឡេង។ វាអាចសម្គាល់ទាំងអត្ថបទដែលបានបោះពុម្ព និងសរសេរដោយដៃ ព្រមទាំងកំណត់អត្តសញ្ញាណវត្ថុ និងមនុស្សផងដែរ។

ក្រុមហ៊ុន google ក៏បានណែនាំឧបករណ៍ដែលអាចបង្កើតការពិពណ៌នាអត្ថបទសម្រាប់រូបភាព ដែលអនុញ្ញាតឱ្យមនុស្សពិការភ្នែក ឬអ្នកដែលមានបញ្ហាភ្នែកយល់អំពីបរិបទនៃរូបភាព ឬក្រាហ្វិក។ ឧបករណ៍រៀនម៉ាស៊ីននេះមានស្រទាប់ជាច្រើន។ ម៉ូដែលទីមួយស្គាល់អក្សរ និងលេខសរសេរដោយដៃនៅក្នុងរូបភាព។ បន្ទាប់មក ម៉ូដែលមួយទៀតសម្គាល់វត្ថុសាមញ្ញៗនៃពិភពលោកជុំវិញ ដូចជារថយន្ត ដើមឈើ សត្វជាដើម។ ហើយស្រទាប់ទីបីគឺជាគំរូកម្រិតខ្ពស់ដែលមានសមត្ថភាពស្វែងរកគំនិតចម្បងនៅក្នុងការពិពណ៌នាអត្ថបទពេញលេញ។

ការដាក់ចំណងជើងរូបភាព AI សម្រាប់ប្រព័ន្ធផ្សព្វផ្សាយសង្គម

ចំណងជើងរូបភាពដែលបានបង្កើតដោយមានជំនួយពីឧបករណ៍ដែលមានមូលដ្ឋានលើ AI មានរួចហើយសម្រាប់ Facebook និង Instagram ។ លើសពីនេះ គំរូកាន់តែឆ្លាតវៃគ្រប់ពេល ដោយរៀនស្គាល់វត្ថុ សកម្មភាព និងគំរូថ្មីៗ។

Facebook បាន​បង្កើត​ប្រព័ន្ធ​មួយ​ដែល​មាន​សមត្ថភាព​បង្កើត​ការ​ពិពណ៌នា​អក្សរ Alt ជិត​ប្រាំ​ឆ្នាំ​មុន។ សព្វ​ថ្ងៃ​វា​បាន​ក្លាយ​ជា​ការ​ត្រឹមត្រូវ​ជាង​មុន។ ពីមុនវាពិពណ៌នារូបភាពដោយប្រើពាក្យទូទៅ ប៉ុន្តែឥឡូវនេះប្រព័ន្ធនេះអាចបង្កើតការពិពណ៌នាលម្អិត។

ការកំណត់អត្តសញ្ញាណរូបសញ្ញាជាមួយ AI

បច្ចេកវិជ្ជាដាក់ចំណងជើងរូបភាពកំពុងត្រូវបានដាក់ឱ្យប្រើប្រាស់ជាមួយបច្ចេកវិទ្យា AI ផ្សេងទៀតផងដែរ។ ឧទាហរណ៍ DeepLogo គឺជាបណ្តាញសរសៃប្រសាទដែលមានមូលដ្ឋានលើ TensorFlow Object Detection API។ ហើយវាអាចស្គាល់ប្រភេទឡូហ្គោ។ ឈ្មោះនៃប្រភេទនិមិត្តសញ្ញាដែលបានកំណត់បង្ហាញជាចំណងជើងនៅលើរូបភាព។ នេះ។ ការស្រាវជ្រាវ នៅលើគំរូសំយោគនិមិត្តសញ្ញាដែលមានមូលដ្ឋានលើ GAN អាចនាំមកនូវពន្លឺដល់របៀបដែល GANs ដំណើរការ។

ការ​ស្រាវជ្រាវ​គំរូ​សិក្សា​ជ្រៅជ្រះ​សម្រាប់​ការ​ដាក់​ចំណង​ជើង​រូបភាព

យើង​បាន​អនុវត្ត​គំរូ​ដែល​បង្កើត​ការ​ពិពណ៌នា​អត្ថបទ​ដែល​មាន​អត្ថន័យ​សម្រាប់​រូបភាព ដោយ​ចងចាំ​ករណី​ប្រើប្រាស់​ដែល​អាច​ប្រើ​បាន។ ឧទាហរណ៍ ចំណងជើងអាចពណ៌នាអំពីសកម្មភាព និងវត្ថុដែលជាវត្ថុសំខាន់នៅលើរូបភាពនីមួយៗ។ សម្រាប់ការបណ្តុះបណ្តាល យើងបានប្រើសំណុំទិន្នន័យ Microsoft COCO 2014 ។

សំណុំទិន្នន័យ COCO គឺជាការរកឃើញវត្ថុទ្រង់ទ្រាយធំ ការបែងចែក និងសំណុំទិន្នន័យចំណងជើង។ វាមានប្រហែល 1.5 លានវត្ថុផ្សេងៗគ្នា ចែកជា 80 ប្រភេទ។ រូបភាពនីមួយៗត្រូវបានកត់ចំណាំជាមួយនឹងចំណងជើងដែលបង្កើតដោយមនុស្សចំនួនប្រាំ។

យើងបានដាក់ពាក្យ ការបណ្តុះបណ្តាល សុពលភាព និងការបំបែកការធ្វើតេស្តរបស់ Andrej Karpathy សម្រាប់ការបែងចែកសំណុំទិន្នន័យ ដើម្បីបណ្តុះបណ្តាល ធ្វើឱ្យមានសុពលភាព និងផ្នែកសាកល្បង។ ដូចគ្នានេះផងដែរ យើងត្រូវការ Metrics ដូចជា BLEU, ROUGE, METEOR, CIDER, SPICE ដើម្បីវាយតម្លៃលទ្ធផល។

ការប្រៀបធៀបម៉ូដែល ML សម្រាប់ដាក់ចំណងជើងរូបភាព

ជាធម្មតា ស្ថាបត្យកម្មមូលដ្ឋានសម្រាប់ដាក់ចំណងជើងរូបភាព បំប្លែងការបញ្ចូលទៅក្នុងទម្រង់ថេរ ហើយឌិកូដវា ពាក្យមួយពាក្យទៅជាលំដាប់។

កម្មវិធីអ៊ិនកូដឌ័រអ៊ិនកូដរូបភាពបញ្ចូលជាមួយឆានែលពណ៌បីចូលទៅក្នុងការបោះពុម្ពតូចជាងជាមួយឆានែល "បានរៀន" ។ រូបភាពដែលបានអ៊ិនកូដតូចជាងនេះគឺជាតំណាងសង្ខេបនៃអ្វីដែលមានប្រយោជន៍នៅក្នុងរូបភាពដើម។ សម្រាប់ការអ៊ិនកូដ ស្ថាបត្យកម្ម CNN ណាមួយអាចត្រូវបានអនុវត្ត។ ដូចគ្នានេះផងដែរ យើងអាចប្រើការរៀនផ្ទេរសម្រាប់ផ្នែកបំលែងកូដ។

ឧបករណ៍​ឌិកូដ​មើល​រូបភាព​ដែល​បាន​បំប្លែង​កូដ ហើយ​បង្កើត​ចំណង​ជើង​តាម​ពាក្យ។ បន្ទាប់មក ពាក្យព្យាករណ៍នីមួយៗត្រូវបានប្រើដើម្បីបង្កើតពាក្យបន្ទាប់។

មុននឹងឈានទៅមុខ សូមក្រឡេកមើលអ្វីដែលយើងបានទទួលជាលទ្ធផលនៃការបង្កើតគំរូ និងការធ្វើតេស្តជាមួយនឹងម៉ូដែល Meshed-Memory transformer។

ឧទាហរណ៍នៃការប្រើប្រាស់គំរូសិក្សាជ្រៅសម្រាប់ការដាក់ចំណងជើងរូបភាព
ឧទាហរណ៍នៃការប្រើប្រាស់គំរូសិក្សាជ្រៅសម្រាប់ការដាក់ចំណងជើងរូបភាព
ឧទាហរណ៍នៃការប្រើប្រាស់គំរូសិក្សាជ្រៅសម្រាប់ការដាក់ចំណងជើងរូបភាព

ការពិពណ៌នារូបភាពផ្អែកលើ AI

យើងក៏បានសិក្សាឧទាហរណ៍ដែលនាំឱ្យមានកំហុស។ មានហេតុផលជាច្រើនដែលកំហុសលេចឡើង។ កំហុសទូទៅបំផុតគឺគុណភាពរូបភាពមិនល្អ និងអវត្តមាននៃធាតុមួយចំនួននៅក្នុងសំណុំទិន្នន័យដំបូង។ គំរូនេះត្រូវបានបណ្តុះបណ្តាលលើសំណុំទិន្នន័យដែលមានរូបភាពទូទៅ ដូច្នេះវាធ្វើឱ្យមានកំហុសនៅពេលដែលវាមិនស្គាល់ខ្លឹមសារ ឬមិនអាចកំណត់អត្តសញ្ញាណវាបានត្រឹមត្រូវ។ នេះគឺជាវិធីដូចគ្នាដែលខួរក្បាលរបស់មនុស្សធ្វើការ។

កំហុសដែលធ្វើឡើងដោយការដាក់ចំណងជើងរូបភាព AI
កំហុសដែលធ្វើឡើងដោយគំរូដាក់ចំណងជើងរូបភាព AI

នេះគឺជាករណីមួយផ្សេងទៀតដើម្បីបង្ហាញពីរបៀបដែលបណ្តាញសរសៃប្រសាទដំណើរការ។ មិនមានខ្លានៅក្នុងគំរូសំណុំទិន្នន័យទេ។ ផ្ទុយទៅវិញ AI បានជ្រើសរើសវត្ថុដែលនៅជិតបំផុតដែលវាដឹង – វាដូចគ្នាទៅនឹងខួរក្បាលរបស់យើងទាក់ទងនឹងអ្វីដែលមិនស្គាល់។

បណ្តាញសរសៃប្រសាទដំណើរការដាក់ចំណងជើងវត្ថុដែលមិនស្គាល់

គំរូការយកចិត្តទុកដាក់ឡើងលើសម្រាប់ការដាក់ចំណងជើងរូបភាព

នេះគឺជាគំរូដំបូងគេដែលប្រៀបធៀប។ យន្តការឡើងលើចុះក្រោម រួមបញ្ចូលគ្នារវាងបាតឡើងលើ និងយន្តការយកចិត្តទុកដាក់ពីលើចុះក្រោម។

លឿនជាងមុន R-CNN ត្រូវបានប្រើដើម្បីបង្កើតការតភ្ជាប់រវាងការរកឃើញវត្ថុ និងភារកិច្ចដាក់ចំណងជើងរូបភាព។ គំរូសំណើតំបន់ត្រូវបានបណ្តុះបណ្តាលជាមុនលើសំណុំទិន្នន័យស្វែងរកវត្ថុ ដោយសារការប្រើប្រាស់ចំណេះដឹងឆ្លងដែន។ ជាងនេះទៅទៀត មិនដូចយន្តការយកចិត្តទុកដាក់ផ្សេងទៀតទេ ម៉ូដែលទាំងពីរប្រើការយកចិត្តទុកដាក់តែមួយជាមួយយន្តការឡើងលើ។

លឿនជាងមុន R-CNN (រូបភាព 5a) ត្រូវបានប្រើសម្រាប់ការទាញយកលក្ខណៈពិសេសរូបភាព។ Faster R-CNN គឺជាគំរូរាវរកវត្ថុដែលត្រូវបានរចនាឡើងដើម្បីកំណត់អត្តសញ្ញាណវត្ថុដែលជាកម្មសិទ្ធិរបស់ថ្នាក់ជាក់លាក់ និងធ្វើមូលដ្ឋានីយកម្មពួកវាជាមួយនឹងប្រអប់ព្រំដែន។ លឿនជាងមុន R-CNN រកឃើញវត្ថុជាពីរដំណាក់កាល។

ដំណាក់កាលដំបូងដែលត្រូវបានពិពណ៌នាថាជាបណ្តាញសំណើតំបន់ (RPN) ព្យាករណ៍ពីសំណើវត្ថុ។ ដោយប្រើការគាបសង្កត់ដែលមិនមែនជាអតិបរិមានៃលោភលន់ជាមួយនឹងកម្រិតប្រសព្វ-លើសសហជីព (IoU) សំណើប្រអប់កំពូលត្រូវបានជ្រើសរើសជាការបញ្ចូលទៅដំណាក់កាលទីពីរ។

នៅដំណាក់កាលទីពីរ ការដាក់បញ្ចូលតំបន់ចំណាប់អារម្មណ៍ (RoI) ត្រូវបានប្រើដើម្បីទាញយកផែនទីលក្ខណៈពិសេសតូចមួយ (ឧទាហរណ៍ 14×14) សម្រាប់សំណើប្រអប់នីមួយៗ។ បន្ទាប់មកផែនទីលក្ខណៈពិសេសទាំងនេះត្រូវបានបញ្ចូលគ្នាជាធាតុបញ្ចូលទៅក្នុងស្រទាប់ចុងក្រោយនៃ CNN ។ ដូច្នេះ លទ្ធផលគំរូចុងក្រោយមានការចែកចាយ softmax លើស្លាកថ្នាក់ និងការកែលម្អប្រអប់កំណត់ថ្នាក់ជាក់លាក់សម្រាប់សំណើប្រអប់នីមួយៗ។ គ្រោងការណ៍គឺយកចេញពី ផ្ទាំងរូបភាពផ្លូវការ។

ម៉ូដែល R-CNN លឿនជាងមុនសម្រាប់ចំណារពន្យល់រូបភាព

ដោយទទួលបានលក្ខណៈពិសេសរបស់រូបភាព V គំរូដាក់ចំណងជើងដែលបានស្នើប្រើយន្តការយកចិត្តទុកដាក់ពីកំពូលចុះក្រោម 'ទន់' ដើម្បីថ្លឹងថ្លែងលក្ខណៈនីមួយៗក្នុងអំឡុងពេលបង្កើតចំណងជើង។ នេះគឺជា LSTM ដែលមានយន្តការយកចិត្តទុកដាក់បន្ថែមពីលើចុះក្រោម។ បើក។ នេះគឺជា LSTM ដែលមានយន្តការយកចិត្តទុកដាក់បន្ថែមពីលើចុះក្រោម។ នៅកម្រិតខ្ពស់ គំរូដាក់ចំណងជើងមានស្រទាប់ LSTM ពីរ។

Meshed-Memory Transformer Model សម្រាប់ដាក់ចំណងជើងរូបភាព

គំរូមួយផ្សេងទៀតដែលយើងបានយកដើម្បីដោះស្រាយភារកិច្ចដាក់ចំណងជើងរូបភាពគឺ Meshed-Memory Transformer. វាមានផ្នែកបំលែងកូដ និងផ្នែកឌិកូដ។ ពួកគេទាំងពីរត្រូវបានធ្វើពីជង់នៃស្រទាប់យកចិត្តទុកដាក់។ ឧបករណ៍បំលែងកូដក៏រួមបញ្ចូលស្រទាប់បញ្ជូនបន្តផងដែរ ហើយឧបករណ៍ឌិកូដមានយន្តការដែលអាចរៀនបានជាមួយនឹងទម្ងន់។

តំបន់នៃរូបភាពត្រូវបានអ៊ិនកូដក្នុងទម្រង់ពហុកម្រិត។ គំរូយកទៅក្នុងគណនីទាំងទំនាក់ទំនងកម្រិតទាប និងកម្រិតខ្ពស់។ ចំណេះដឹងដែលបានរៀនត្រូវបានអ៊ិនកូដជាវ៉ិចទ័រនៃការចងចាំ។ ស្រទាប់នៃផ្នែកបំលែងកូដ និងផ្នែកឌិកូដត្រូវបានតភ្ជាប់ក្នុងរចនាសម្ព័ន្ធដូចសំណាញ់។ ឧបករណ៍ឌិកូដអានពីលទ្ធផលនៃស្រទាប់ការអ៊ិនកូដនីមួយៗ ហើយអនុវត្តការយកចិត្តទុកដាក់ដោយខ្លួនឯងលើពាក្យ និងការយកចិត្តទុកដាក់ឆ្លងកាត់ស្រទាប់ការអ៊ិនកូដទាំងមូល បន្ទាប់ពីលទ្ធផលនោះត្រូវបានកែប្រែ និងបូកសរុប។

ដូច្នេះ គំរូអាចប្រើមិនត្រឹមតែមាតិកាដែលមើលឃើញនៃរូបភាពប៉ុណ្ណោះទេ ប៉ុន្តែក៏មានចំណេះដឹងពីមុនអំពីឧបករណ៍បំលែងកូដផងដែរ។ គ្រោងការណ៍ត្រូវបានដកចេញពី ក្រដាសផ្លូវការ.

គ្រោងការណ៍សម្រាប់ដាក់ចំណងជើងរូបភាព AI គ្រោងការណ៍សម្រាប់ការដាក់ចំណងជើងរូបភាព AI ជាមួយគំរូ Meshed-Memory Transformer
គ្រោងការណ៍សម្រាប់ការដាក់ចំណងជើងរូបភាព AI ជាមួយម៉ូដែល Meshed-Memory Transformer

ការប្រៀបធៀបគំរូពីរសម្រាប់ការដាក់ចំណងជើងរូបភាព

ដោយផ្អែកលើការស្រាវជ្រាវរបស់យើង យើងអាចប្រៀបធៀបម៉ូដែល Up-down និងម៉ូដែល M2transform ដូចដែលពួកគេត្រូវបានបណ្តុះបណ្តាលលើទិន្នន័យដូចគ្នា។ តារាងខាងក្រោមផ្តល់នូវសេចក្តីសង្ខេបនៃម៉ូដែលទាំងពីរ។

តារាង - សូចនាករវាយតម្លៃ

BLEU1 BLEU2 ស៊ីឌី ក្រហម METEOR
ម៉ូដែលចុះក្រោម 0.8 0.358 1.16 0.573 0.275
M2 Transformer 0.8078 0.3834 1.278 0.58 0.2876

តារាង - ពេលវេលានិងការចងចាំ

ពេលវេលា អង្គចងចាំ
ស៊ីភីយូ GPU ស៊ីភីយូ GPU
ម៉ូដែលចុះក្រោម 104.47 17 1479mb 1181mb
M2 Transformer ១២ ម ២៦.៤៦១ ស ១ ម ៥ 1423mb 1310mb

ចំណងជើងរូបភាព៖ ការវិភាគលទ្ធផល និងទស្សនវិស័យនាពេលអនាគត

ម៉ូដែលដែលបានប្រើទាំងពីរបានបង្ហាញលទ្ធផលល្អគួរសម។ ដោយមានជំនួយរបស់ពួកគេ យើងអាចបង្កើតចំណងជើងដែលមានអត្ថន័យសម្រាប់រូបភាពភាគច្រើនពីសំណុំទិន្នន័យរបស់យើង។ ជាងនេះទៅទៀត ដោយសារលក្ខណៈពិសេសដែលបានស្រង់ចេញជាមុនជាមួយ Faster-RCNN ដែលត្រូវបានបណ្តុះបណ្តាលជាមុនលើសំណុំទិន្នន័យ Visual Genome ដ៏ធំនោះ គំរូនេះអាចសម្គាល់វត្ថុ និងសកម្មភាពជាច្រើនពីជីវិតប្រចាំថ្ងៃរបស់មនុស្ស ដូច្នេះហើយពណ៌នាបានត្រឹមត្រូវ។

តើអ្វីជាភាពខុសគ្នា?

ម៉ូដែល Updown គឺលឿន និងទម្ងន់ស្រាលជាង M2Transformer ។ ហេតុផលគឺថា M2Transformer ប្រើបច្ចេកទេសជាច្រើនទៀត ដូចជាការតភ្ជាប់បន្ថែម (“សំណាញ់”) រវាងឧបករណ៍បំប្លែង និងឌិកូដ និងវ៉ិចទ័រអង្គចងចាំសម្រាប់ចងចាំបទពិសោធន៍អតីតកាល។ ដូចគ្នានេះផងដែរម៉ូដែលទាំងនេះប្រើយន្តការផ្សេងគ្នានៃការយកចិត្តទុកដាក់។

ការយកចិត្តទុកដាក់លើការចុះក្រោមអាចត្រូវបានអនុវត្តនៅក្នុងការឆ្លងកាត់តែមួយខណៈពេលដែលការយកចិត្តទុកដាក់ពហុក្បាលដែលត្រូវបានប្រើនៅក្នុង M2Transformer គួរតែដំណើរការស្របគ្នាជាច្រើនដង។ ទោះជាយ៉ាងណាក៏ដោយយោងទៅតាមរង្វាស់ដែលទទួលបាន M2Transormer ទទួលបានលទ្ធផលប្រសើរជាងមុន។ ដោយមានជំនួយរបស់វា យើងអាចបង្កើតអក្សររត់បានត្រឹមត្រូវ និងផ្លាស់ប្តូរកាន់តែច្រើន។ ការទស្សន៍ទាយ M2Transformer មានភាពមិនត្រឹមត្រូវតិចតួចក្នុងការពិពណ៌នា ទាំងរូបភាពពីសំណុំទិន្នន័យ និងសម្រាប់រូបភាពពាក់ព័ន្ធមួយចំនួនទៀត។ ដូច្នេះ​ហើយ វា​ធ្វើ​កិច្ចការ​សំខាន់​បាន​ល្អ​ជាង។

យើងបានប្រៀបធៀបម៉ូដែលពីរ ប៉ុន្តែក៏មានវិធីសាស្រ្តផ្សេងទៀតចំពោះភារកិច្ចនៃការដាក់ចំណងជើងរូបភាពផងដែរ។ វាអាចទៅរួចក្នុងការផ្លាស់ប្តូរឧបករណ៍ឌិកូដ និងឧបករណ៍បំលែងកូដ ប្រើវ៉ិចទ័រពាក្យផ្សេងៗ ផ្សំសំណុំទិន្នន័យ និងអនុវត្តការរៀនផ្ទេរ។

គំរូនេះអាចត្រូវបានកែលម្អដើម្បីសម្រេចបានលទ្ធផលល្អប្រសើរដែលសមរម្យសម្រាប់អាជីវកម្មជាក់លាក់ ទាំងជាកម្មវិធីសម្រាប់អ្នកដែលមានបញ្ហាចក្ខុវិស័យ ឬជាឧបករណ៍បន្ថែមដែលបានបង្កប់នៅក្នុងវេទិកាពាណិជ្ជកម្មអេឡិចត្រូនិក។ ដើម្បីសម្រេចបាននូវគោលដៅនេះ គំរូគួរតែត្រូវបានបណ្តុះបណ្តាលលើសំណុំទិន្នន័យដែលពាក់ព័ន្ធ។ ជាឧទាហរណ៍ សម្រាប់ប្រព័ន្ធដើម្បីពណ៌នាយ៉ាងត្រឹមត្រូវអំពីក្រណាត់ វាជាការប្រសើរក្នុងការដំណើរការការហ្វឹកហាត់លើសំណុំទិន្នន័យជាមួយនឹងសម្លៀកបំពាក់។

ផ្លាតូអាអាយ។ គេហទំព័រ ៣ ។ ទិន្នន័យវៃឆ្លាតត្រូវបានធ្វើឱ្យប្រសើរឡើង។
ចុចត្រង់នេះដើម្បីចូលប្រើ។

ប្រភព៖ https://www.iotforall.com/deep-learning-image-captioning-technology-for-business-applications

spot_img

បញ្ញាចុងក្រោយ

spot_img

ជជែកជាមួយយើង

សួស្តី! តើខ្ញុំអាចជួយអ្នកដោយរបៀបណា?