បច្ចេកវិទ្យាដាក់ចំណងជើងរូបភាពសម្រាប់ការសិក្សាជ្រៅជ្រះសម្រាប់កម្មវិធីអាជីវកម្ម

ការសិក្សាជ្រៅជ្រះ បច្ចេកវិទ្យាដាក់ចំណងជើងរូបភាពសម្រាប់កម្មវិធីអាជីវកម្ម — ឧទាហរណ៍៖ © IoT សម្រាប់ទាំងអស់គ្នា

បច្ចេកវិទ្យាដែលបានអនុវត្តចំពោះការបង្វែរលំដាប់នៃភីកសែលដែលបង្ហាញនៅលើរូបភាពទៅជាពាក្យដែលមានបញ្ញាសិប្បនិម្មិតគឺមិនដូចដើមកាលពី XNUMX ឬច្រើនជាងឆ្នាំមុននោះទេ។ ការអនុវត្តកាន់តែប្រសើរ ភាពត្រឹមត្រូវ និងភាពជឿជាក់ធ្វើឱ្យការដាក់ចំណងជើងរូបភាពរលូន និងមានប្រសិទ្ធភាពអាចធ្វើទៅបានក្នុងផ្នែកផ្សេងៗគ្នា - ពីប្រព័ន្ធផ្សព្វផ្សាយសង្គមរហូតដល់ពាណិជ្ជកម្មអេឡិចត្រូនិក។ ការបង្កើតស្លាកដោយស្វ័យប្រវត្តិត្រូវគ្នានឹងរូបថតដែលបានទាញយក។ បច្ចេកវិទ្យានេះអាចជួយមនុស្សពិការភ្នែកឱ្យរកឃើញពិភពលោកជុំវិញពួកគេ។

អត្ថបទនេះគ្របដណ្តប់លើការប្រើប្រាស់ករណីនៃបច្ចេកវិទ្យាដាក់ចំណងជើងរូបភាព រចនាសម្ព័ន្ធមូលដ្ឋាន គុណសម្បត្តិ និងគុណវិបត្តិរបស់វា។ ដូចគ្នានេះផងដែរ យើងដាក់ពង្រាយគំរូដែលមានសមត្ថភាពបង្កើតការពិពណ៌នាប្រកបដោយអត្ថន័យនៃអ្វីដែលត្រូវបានបង្ហាញនៅលើរូបភាពបញ្ចូល។

ក្នុងនាមជាគោលបំណងភាសាចក្ខុវិស័យ ការដាក់ចំណងជើងរូបភាពអាចត្រូវបានដោះស្រាយដោយជំនួយពីចក្ខុវិស័យកុំព្យូទ័រ និង NLP ។ ផ្នែក AI នៅលើយន្តហោះ CNNs (បណ្តាញសរសៃប្រសាទ convolutional) និង RNNs (បណ្តាញសរសៃប្រសាទកើតឡើងវិញ) ឬគំរូដែលអាចអនុវត្តបានដើម្បីទៅដល់គោលដៅ។

មុននឹងឈានទៅរកព័ត៌មានលម្អិតបច្ចេកទេស សូមស្វែងយល់ពីកន្លែងដែលដាក់ចំណងជើងរូបភាព។

ការដាក់ស្លាករូបភាពដែលជំរុញដោយ AI និងការពិពណ៌នាប្រើករណី

"ការដាក់ចំណងជើងរូបភាពគឺជាសមត្ថភាពចក្ខុវិស័យកុំព្យូទ័រស្នូលមួយដែលអាចបើកឱ្យមានសេវាកម្មយ៉ាងទូលំទូលាយ"។ Xuedong Huangដែលជាអ្នកបច្ចេកទេសរបស់ក្រុមហ៊ុន Microsoft និង CTO នៃ Azure AI Cognitive Services នៅ Redmond, Washington ។

គាត់មានចំណុចមួយ ដោយសារវាមានវិសាលភាពដ៏ធំនៃផ្នែកសម្រាប់បច្ចេកវិទ្យាដាក់ចំណងជើងរូបភាព ពោលគឺ៖ ការដាក់ស្លាករូបភាពសម្រាប់ពាណិជ្ជកម្មអេឡិចត្រូនិក សេវាកម្មចែករំលែករូបថត និងកាតាឡុកអនឡាញ។

ក្នុងករណីនេះ ការបង្កើតស្លាកដោយស្វ័យប្រវត្តិតាមរូបថតកំពុងត្រូវបានអនុវត្ត។ ជាឧទាហរណ៍ វាអាចធ្វើអោយជីវិតរបស់អ្នកប្រើប្រាស់មានភាពសាមញ្ញ នៅពេលដែលពួកគេបង្ហោះរូបភាពទៅកាតាឡុកអនឡាញ។ ក្នុងករណីនេះ, AI ទទួលស្គាល់រូបភាព និងបង្កើតគុណលក្ខណៈ – ទាំងនេះអាចជាហត្ថលេខា ប្រភេទ ឬការពិពណ៌នា។ បច្ចេកវិទ្យាក៏អាចកំណត់ប្រភេទនៃធាតុ សម្ភារៈ ពណ៌ លំនាំ និងសមនៃសម្លៀកបំពាក់សម្រាប់ហាងអនឡាញ។

ក្នុងពេលជាមួយគ្នានេះ ការដាក់ចំណងជើងរូបភាពអាចត្រូវបានអនុវត្តដោយសេវាកម្មចែករំលែករូបថត ឬកាតាឡុកអនឡាញណាមួយ ដើម្បីបង្កើតការពណ៌នាប្រកបដោយអត្ថន័យដោយស្វ័យប្រវត្តិនៃរូបភាពសម្រាប់ SEO ឬគោលបំណងចាត់ថ្នាក់។ ជាងនេះទៅទៀត ចំណងជើងអនុញ្ញាតឱ្យពិនិត្យមើលថាតើរូបភាពសមនឹងច្បាប់របស់វេទិកាដែលវានឹងត្រូវបានបោះពុម្ពដែរឬទេ។ នៅទីនេះវាបម្រើជាជម្រើសមួយសម្រាប់ការចាត់ថ្នាក់របស់ CNN និងជួយបង្កើនចរាចរណ៍ និងប្រាក់ចំណូល។

ចំណាំ: ការបង្កើតការពិពណ៌នាសម្រាប់វីដេអូគឺជាកិច្ចការស្មុគស្មាញជាង។ ទោះយ៉ាងណាក៏ដោយ ស្ថានភាពបច្ចេកវិទ្យាបច្ចុប្បន្ន ធ្វើឱ្យវាអាចទៅរួច។

ដើម្បីអភិវឌ្ឍដំណោះស្រាយបែបនេះ យើងត្រូវបំប្លែងរូបភាពទៅជាអត្ថបទ ហើយបន្ទាប់មកទៅជាសំឡេង។ នេះគឺជាកម្មវិធីល្បីពីរនៃបច្ចេកវិទ្យា Deep Learning ។

កម្មវិធីមួយដែលគេហៅថា មើលអាយអេ បង្កើតឡើងដោយក្រុមហ៊ុន Microsoft អនុញ្ញាតឱ្យមនុស្សដែលមានបញ្ហាភ្នែកមើលឃើញពិភពលោកជុំវិញពួកគេដោយប្រើស្មាតហ្វូន។ កម្មវិធីអាចអានអត្ថបទនៅពេលដែលកាមេរ៉ាត្រូវបានចង្អុលទៅវា ហើយផ្តល់ការដាស់តឿនសំឡេង។ វាអាចសម្គាល់ទាំងអត្ថបទដែលបានបោះពុម្ព និងសរសេរដោយដៃ ព្រមទាំងកំណត់អត្តសញ្ញាណវត្ថុ និងមនុស្សផងដែរ។

ក្រុមហ៊ុន google ក៏បានណែនាំឧបករណ៍ដែលអាចបង្កើតការពិពណ៌នាអត្ថបទសម្រាប់រូបភាព ដែលអនុញ្ញាតឱ្យមនុស្សពិការភ្នែក ឬអ្នកដែលមានបញ្ហាភ្នែកយល់អំពីបរិបទនៃរូបភាព ឬក្រាហ្វិក។ ឧបករណ៍រៀនម៉ាស៊ីននេះមានស្រទាប់ជាច្រើន។ ម៉ូដែលទីមួយស្គាល់អក្សរ និងលេខសរសេរដោយដៃនៅក្នុងរូបភាព។ បន្ទាប់មក ម៉ូដែលមួយទៀតសម្គាល់វត្ថុសាមញ្ញៗនៃពិភពលោកជុំវិញ ដូចជារថយន្ត ដើមឈើ សត្វជាដើម។ ហើយស្រទាប់ទីបីគឺជាគំរូកម្រិតខ្ពស់ដែលមានសមត្ថភាពស្វែងរកគំនិតចម្បងនៅក្នុងការពិពណ៌នាអត្ថបទពេញលេញ។

ចំណងជើងរូបភាពដែលបានបង្កើតដោយមានជំនួយពីឧបករណ៍ដែលមានមូលដ្ឋានលើ AI មានរួចហើយសម្រាប់ Facebook និង Instagram ។ លើសពីនេះ គំរូកាន់តែឆ្លាតវៃគ្រប់ពេល ដោយរៀនស្គាល់វត្ថុ សកម្មភាព និងគំរូថ្មីៗ។

Facebook បានបង្កើតប្រព័ន្ធមួយដែលមានសមត្ថភាពបង្កើតការពិពណ៌នាអក្សរ Alt ជិតប្រាំឆ្នាំមុន។ សព្វថ្ងៃវាបានក្លាយជាការត្រឹមត្រូវជាងមុន។ ពីមុនវាពិពណ៌នារូបភាពដោយប្រើពាក្យទូទៅ ប៉ុន្តែឥឡូវនេះប្រព័ន្ធនេះអាចបង្កើតការពិពណ៌នាលម្អិត។

ការកំណត់អត្តសញ្ញាណរូបសញ្ញាជាមួយ AI

បច្ចេកវិជ្ជាដាក់ចំណងជើងរូបភាពកំពុងត្រូវបានដាក់ឱ្យប្រើប្រាស់ជាមួយបច្ចេកវិទ្យា AI ផ្សេងទៀតផងដែរ។ ឧទាហរណ៍ DeepLogo គឺជាបណ្តាញសរសៃប្រសាទដែលមានមូលដ្ឋានលើ TensorFlow Object Detection API។ ហើយវាអាចស្គាល់ប្រភេទឡូហ្គោ។ ឈ្មោះនៃប្រភេទនិមិត្តសញ្ញាដែលបានកំណត់បង្ហាញជាចំណងជើងនៅលើរូបភាព។ នេះ។ ការស្រាវជ្រាវ នៅលើគំរូសំយោគនិមិត្តសញ្ញាដែលមានមូលដ្ឋានលើ GAN អាចនាំមកនូវពន្លឺដល់របៀបដែល GANs ដំណើរការ។

ការស្រាវជ្រាវគំរូសិក្សាជ្រៅជ្រះសម្រាប់ការដាក់ចំណងជើងរូបភាព

យើងបានអនុវត្តគំរូដែលបង្កើតការពិពណ៌នាអត្ថបទដែលមានអត្ថន័យសម្រាប់រូបភាព ដោយចងចាំករណីប្រើប្រាស់ដែលអាចប្រើបាន។ ឧទាហរណ៍ ចំណងជើងអាចពណ៌នាអំពីសកម្មភាព និងវត្ថុដែលជាវត្ថុសំខាន់នៅលើរូបភាពនីមួយៗ។ សម្រាប់ការបណ្តុះបណ្តាល យើងបានប្រើសំណុំទិន្នន័យ Microsoft COCO 2014 ។

សំណុំទិន្នន័យ COCO គឺជាការរកឃើញវត្ថុទ្រង់ទ្រាយធំ ការបែងចែក និងសំណុំទិន្នន័យចំណងជើង។ វាមានប្រហែល 1.5 លានវត្ថុផ្សេងៗគ្នា ចែកជា 80 ប្រភេទ។ រូបភាពនីមួយៗត្រូវបានកត់ចំណាំជាមួយនឹងចំណងជើងដែលបង្កើតដោយមនុស្សចំនួនប្រាំ។

យើងបានដាក់ពាក្យ ការបណ្តុះបណ្តាល សុពលភាព និងការបំបែកការធ្វើតេស្តរបស់ Andrej Karpathy សម្រាប់ការបែងចែកសំណុំទិន្នន័យ ដើម្បីបណ្តុះបណ្តាល ធ្វើឱ្យមានសុពលភាព និងផ្នែកសាកល្បង។ ដូចគ្នានេះផងដែរ យើងត្រូវការ Metrics ដូចជា BLEU, ROUGE, METEOR, CIDER, SPICE ដើម្បីវាយតម្លៃលទ្ធផល។

ការប្រៀបធៀបម៉ូដែល ML សម្រាប់ដាក់ចំណងជើងរូបភាព

ជាធម្មតា ស្ថាបត្យកម្មមូលដ្ឋានសម្រាប់ដាក់ចំណងជើងរូបភាព បំប្លែងការបញ្ចូលទៅក្នុងទម្រង់ថេរ ហើយឌិកូដវា ពាក្យមួយពាក្យទៅជាលំដាប់។

កម្មវិធីអ៊ិនកូដឌ័រអ៊ិនកូដរូបភាពបញ្ចូលជាមួយឆានែលពណ៌បីចូលទៅក្នុងការបោះពុម្ពតូចជាងជាមួយឆានែល "បានរៀន" ។ រូបភាពដែលបានអ៊ិនកូដតូចជាងនេះគឺជាតំណាងសង្ខេបនៃអ្វីដែលមានប្រយោជន៍នៅក្នុងរូបភាពដើម។ សម្រាប់ការអ៊ិនកូដ ស្ថាបត្យកម្ម CNN ណាមួយអាចត្រូវបានអនុវត្ត។ ដូចគ្នានេះផងដែរ យើងអាចប្រើការរៀនផ្ទេរសម្រាប់ផ្នែកបំលែងកូដ។

ឧបករណ៍ឌិកូដមើលរូបភាពដែលបានបំប្លែងកូដ ហើយបង្កើតចំណងជើងតាមពាក្យ។ បន្ទាប់មក ពាក្យព្យាករណ៍នីមួយៗត្រូវបានប្រើដើម្បីបង្កើតពាក្យបន្ទាប់។

មុននឹងឈានទៅមុខ សូមក្រឡេកមើលអ្វីដែលយើងបានទទួលជាលទ្ធផលនៃការបង្កើតគំរូ និងការធ្វើតេស្តជាមួយនឹងម៉ូដែល Meshed-Memory transformer។

ឧទាហរណ៍នៃការប្រើប្រាស់គំរូសិក្សាជ្រៅសម្រាប់ការដាក់ចំណងជើងរូបភាព

ការពិពណ៌នារូបភាពផ្អែកលើ AI

យើងក៏បានសិក្សាឧទាហរណ៍ដែលនាំឱ្យមានកំហុស។ មានហេតុផលជាច្រើនដែលកំហុសលេចឡើង។ កំហុសទូទៅបំផុតគឺគុណភាពរូបភាពមិនល្អ និងអវត្តមាននៃធាតុមួយចំនួននៅក្នុងសំណុំទិន្នន័យដំបូង។ គំរូនេះត្រូវបានបណ្តុះបណ្តាលលើសំណុំទិន្នន័យដែលមានរូបភាពទូទៅ ដូច្នេះវាធ្វើឱ្យមានកំហុសនៅពេលដែលវាមិនស្គាល់ខ្លឹមសារ ឬមិនអាចកំណត់អត្តសញ្ញាណវាបានត្រឹមត្រូវ។ នេះគឺជាវិធីដូចគ្នាដែលខួរក្បាលរបស់មនុស្សធ្វើការ។

កំហុសដែលធ្វើឡើងដោយការដាក់ចំណងជើងរូបភាព AI

កំហុសដែលធ្វើឡើងដោយគំរូដាក់ចំណងជើងរូបភាព AI

នេះគឺជាករណីមួយផ្សេងទៀតដើម្បីបង្ហាញពីរបៀបដែលបណ្តាញសរសៃប្រសាទដំណើរការ។ មិនមានខ្លានៅក្នុងគំរូសំណុំទិន្នន័យទេ។ ផ្ទុយទៅវិញ AI បានជ្រើសរើសវត្ថុដែលនៅជិតបំផុតដែលវាដឹង – វាដូចគ្នាទៅនឹងខួរក្បាលរបស់យើងទាក់ទងនឹងអ្វីដែលមិនស្គាល់។

បណ្តាញសរសៃប្រសាទដំណើរការដាក់ចំណងជើងវត្ថុដែលមិនស្គាល់

គំរូការយកចិត្តទុកដាក់ឡើងលើសម្រាប់ការដាក់ចំណងជើងរូបភាព

នេះគឺជាគំរូដំបូងគេដែលប្រៀបធៀប។ យន្តការឡើងលើចុះក្រោម រួមបញ្ចូលគ្នារវាងបាតឡើងលើ និងយន្តការយកចិត្តទុកដាក់ពីលើចុះក្រោម។

លឿនជាងមុន R-CNN ត្រូវបានប្រើដើម្បីបង្កើតការតភ្ជាប់រវាងការរកឃើញវត្ថុ និងភារកិច្ចដាក់ចំណងជើងរូបភាព។ គំរូសំណើតំបន់ត្រូវបានបណ្តុះបណ្តាលជាមុនលើសំណុំទិន្នន័យស្វែងរកវត្ថុ ដោយសារការប្រើប្រាស់ចំណេះដឹងឆ្លងដែន។ ជាងនេះទៅទៀត មិនដូចយន្តការយកចិត្តទុកដាក់ផ្សេងទៀតទេ ម៉ូដែលទាំងពីរប្រើការយកចិត្តទុកដាក់តែមួយជាមួយយន្តការឡើងលើ។

លឿនជាងមុន R-CNN (រូបភាព 5a) ត្រូវបានប្រើសម្រាប់ការទាញយកលក្ខណៈពិសេសរូបភាព។ Faster R-CNN គឺជាគំរូរាវរកវត្ថុដែលត្រូវបានរចនាឡើងដើម្បីកំណត់អត្តសញ្ញាណវត្ថុដែលជាកម្មសិទ្ធិរបស់ថ្នាក់ជាក់លាក់ និងធ្វើមូលដ្ឋានីយកម្មពួកវាជាមួយនឹងប្រអប់ព្រំដែន។ លឿនជាងមុន R-CNN រកឃើញវត្ថុជាពីរដំណាក់កាល។

ដំណាក់កាលដំបូងដែលត្រូវបានពិពណ៌នាថាជាបណ្តាញសំណើតំបន់ (RPN) ព្យាករណ៍ពីសំណើវត្ថុ។ ដោយប្រើការគាបសង្កត់ដែលមិនមែនជាអតិបរិមានៃលោភលន់ជាមួយនឹងកម្រិតប្រសព្វ-លើសសហជីព (IoU) សំណើប្រអប់កំពូលត្រូវបានជ្រើសរើសជាការបញ្ចូលទៅដំណាក់កាលទីពីរ។

នៅដំណាក់កាលទីពីរ ការដាក់បញ្ចូលតំបន់ចំណាប់អារម្មណ៍ (RoI) ត្រូវបានប្រើដើម្បីទាញយកផែនទីលក្ខណៈពិសេសតូចមួយ (ឧទាហរណ៍ 14×14) សម្រាប់សំណើប្រអប់នីមួយៗ។ បន្ទាប់មកផែនទីលក្ខណៈពិសេសទាំងនេះត្រូវបានបញ្ចូលគ្នាជាធាតុបញ្ចូលទៅក្នុងស្រទាប់ចុងក្រោយនៃ CNN ។ ដូច្នេះ លទ្ធផលគំរូចុងក្រោយមានការចែកចាយ softmax លើស្លាកថ្នាក់ និងការកែលម្អប្រអប់កំណត់ថ្នាក់ជាក់លាក់សម្រាប់សំណើប្រអប់នីមួយៗ។ គ្រោងការណ៍គឺយកចេញពី ផ្ទាំងរូបភាពផ្លូវការ។

ម៉ូដែល R-CNN លឿនជាងមុនសម្រាប់ចំណារពន្យល់រូបភាព

ដោយទទួលបានលក្ខណៈពិសេសរបស់រូបភាព V គំរូដាក់ចំណងជើងដែលបានស្នើប្រើយន្តការយកចិត្តទុកដាក់ពីកំពូលចុះក្រោម 'ទន់' ដើម្បីថ្លឹងថ្លែងលក្ខណៈនីមួយៗក្នុងអំឡុងពេលបង្កើតចំណងជើង។ នេះគឺជា LSTM ដែលមានយន្តការយកចិត្តទុកដាក់បន្ថែមពីលើចុះក្រោម។ បើក។ នេះគឺជា LSTM ដែលមានយន្តការយកចិត្តទុកដាក់បន្ថែមពីលើចុះក្រោម។ នៅកម្រិតខ្ពស់ គំរូដាក់ចំណងជើងមានស្រទាប់ LSTM ពីរ។

Meshed-Memory Transformer Model សម្រាប់ដាក់ចំណងជើងរូបភាព

គំរូមួយផ្សេងទៀតដែលយើងបានយកដើម្បីដោះស្រាយភារកិច្ចដាក់ចំណងជើងរូបភាពគឺ Meshed-Memory Transformer. វាមានផ្នែកបំលែងកូដ និងផ្នែកឌិកូដ។ ពួកគេទាំងពីរត្រូវបានធ្វើពីជង់នៃស្រទាប់យកចិត្តទុកដាក់។ ឧបករណ៍បំលែងកូដក៏រួមបញ្ចូលស្រទាប់បញ្ជូនបន្តផងដែរ ហើយឧបករណ៍ឌិកូដមានយន្តការដែលអាចរៀនបានជាមួយនឹងទម្ងន់។

តំបន់នៃរូបភាពត្រូវបានអ៊ិនកូដក្នុងទម្រង់ពហុកម្រិត។ គំរូយកទៅក្នុងគណនីទាំងទំនាក់ទំនងកម្រិតទាប និងកម្រិតខ្ពស់។ ចំណេះដឹងដែលបានរៀនត្រូវបានអ៊ិនកូដជាវ៉ិចទ័រនៃការចងចាំ។ ស្រទាប់នៃផ្នែកបំលែងកូដ និងផ្នែកឌិកូដត្រូវបានតភ្ជាប់ក្នុងរចនាសម្ព័ន្ធដូចសំណាញ់។ ឧបករណ៍ឌិកូដអានពីលទ្ធផលនៃស្រទាប់ការអ៊ិនកូដនីមួយៗ ហើយអនុវត្តការយកចិត្តទុកដាក់ដោយខ្លួនឯងលើពាក្យ និងការយកចិត្តទុកដាក់ឆ្លងកាត់ស្រទាប់ការអ៊ិនកូដទាំងមូល បន្ទាប់ពីលទ្ធផលនោះត្រូវបានកែប្រែ និងបូកសរុប។

ដូច្នេះ គំរូអាចប្រើមិនត្រឹមតែមាតិកាដែលមើលឃើញនៃរូបភាពប៉ុណ្ណោះទេ ប៉ុន្តែក៏មានចំណេះដឹងពីមុនអំពីឧបករណ៍បំលែងកូដផងដែរ។ គ្រោងការណ៍ត្រូវបានដកចេញពី ក្រដាសផ្លូវការ.

គ្រោងការណ៍សម្រាប់ដាក់ចំណងជើងរូបភាព AI គ្រោងការណ៍សម្រាប់ការដាក់ចំណងជើងរូបភាព AI ជាមួយគំរូ Meshed-Memory Transformer

គ្រោងការណ៍សម្រាប់ការដាក់ចំណងជើងរូបភាព AI ជាមួយម៉ូដែល Meshed-Memory Transformer

ការប្រៀបធៀបគំរូពីរសម្រាប់ការដាក់ចំណងជើងរូបភាព

ដោយផ្អែកលើការស្រាវជ្រាវរបស់យើង យើងអាចប្រៀបធៀបម៉ូដែល Up-down និងម៉ូដែល M2transform ដូចដែលពួកគេត្រូវបានបណ្តុះបណ្តាលលើទិន្នន័យដូចគ្នា។ តារាងខាងក្រោមផ្តល់នូវសេចក្តីសង្ខេបនៃម៉ូដែលទាំងពីរ។

តារាង - សូចនាករវាយតម្លៃ

	BLEU1	BLEU2	ស៊ីឌី	ក្រហម	METEOR
ម៉ូដែលចុះក្រោម	0.8	0.358	1.16	0.573	0.275
M2 Transformer	0.8078	0.3834	1.278	0.58	0.2876

តារាង - ពេលវេលានិងការចងចាំ

	ពេលវេលា	អង្គចងចាំ
ស៊ីភីយូ	GPU	ស៊ីភីយូ	GPU
ម៉ូដែលចុះក្រោម	104.47	17	1479mb	1181mb
M2 Transformer	១២ ម ២៦.៤៦១ ស	១ ម ៥	1423mb	1310mb

ចំណងជើងរូបភាព៖ ការវិភាគលទ្ធផល និងទស្សនវិស័យនាពេលអនាគត

ម៉ូដែលដែលបានប្រើទាំងពីរបានបង្ហាញលទ្ធផលល្អគួរសម។ ដោយមានជំនួយរបស់ពួកគេ យើងអាចបង្កើតចំណងជើងដែលមានអត្ថន័យសម្រាប់រូបភាពភាគច្រើនពីសំណុំទិន្នន័យរបស់យើង។ ជាងនេះទៅទៀត ដោយសារលក្ខណៈពិសេសដែលបានស្រង់ចេញជាមុនជាមួយ Faster-RCNN ដែលត្រូវបានបណ្តុះបណ្តាលជាមុនលើសំណុំទិន្នន័យ Visual Genome ដ៏ធំនោះ គំរូនេះអាចសម្គាល់វត្ថុ និងសកម្មភាពជាច្រើនពីជីវិតប្រចាំថ្ងៃរបស់មនុស្ស ដូច្នេះហើយពណ៌នាបានត្រឹមត្រូវ។

តើអ្វីជាភាពខុសគ្នា?

ម៉ូដែល Updown គឺលឿន និងទម្ងន់ស្រាលជាង M2Transformer ។ ហេតុផលគឺថា M2Transformer ប្រើបច្ចេកទេសជាច្រើនទៀត ដូចជាការតភ្ជាប់បន្ថែម (“សំណាញ់”) រវាងឧបករណ៍បំប្លែង និងឌិកូដ និងវ៉ិចទ័រអង្គចងចាំសម្រាប់ចងចាំបទពិសោធន៍អតីតកាល។ ដូចគ្នានេះផងដែរម៉ូដែលទាំងនេះប្រើយន្តការផ្សេងគ្នានៃការយកចិត្តទុកដាក់។

ការយកចិត្តទុកដាក់លើការចុះក្រោមអាចត្រូវបានអនុវត្តនៅក្នុងការឆ្លងកាត់តែមួយខណៈពេលដែលការយកចិត្តទុកដាក់ពហុក្បាលដែលត្រូវបានប្រើនៅក្នុង M2Transformer គួរតែដំណើរការស្របគ្នាជាច្រើនដង។ ទោះជាយ៉ាងណាក៏ដោយយោងទៅតាមរង្វាស់ដែលទទួលបាន M2Transormer ទទួលបានលទ្ធផលប្រសើរជាងមុន។ ដោយមានជំនួយរបស់វា យើងអាចបង្កើតអក្សររត់បានត្រឹមត្រូវ និងផ្លាស់ប្តូរកាន់តែច្រើន។ ការទស្សន៍ទាយ M2Transformer មានភាពមិនត្រឹមត្រូវតិចតួចក្នុងការពិពណ៌នា ទាំងរូបភាពពីសំណុំទិន្នន័យ និងសម្រាប់រូបភាពពាក់ព័ន្ធមួយចំនួនទៀត។ ដូច្នេះហើយ វាធ្វើកិច្ចការសំខាន់បានល្អជាង។

យើងបានប្រៀបធៀបម៉ូដែលពីរ ប៉ុន្តែក៏មានវិធីសាស្រ្តផ្សេងទៀតចំពោះភារកិច្ចនៃការដាក់ចំណងជើងរូបភាពផងដែរ។ វាអាចទៅរួចក្នុងការផ្លាស់ប្តូរឧបករណ៍ឌិកូដ និងឧបករណ៍បំលែងកូដ ប្រើវ៉ិចទ័រពាក្យផ្សេងៗ ផ្សំសំណុំទិន្នន័យ និងអនុវត្តការរៀនផ្ទេរ។

គំរូនេះអាចត្រូវបានកែលម្អដើម្បីសម្រេចបានលទ្ធផលល្អប្រសើរដែលសមរម្យសម្រាប់អាជីវកម្មជាក់លាក់ ទាំងជាកម្មវិធីសម្រាប់អ្នកដែលមានបញ្ហាចក្ខុវិស័យ ឬជាឧបករណ៍បន្ថែមដែលបានបង្កប់នៅក្នុងវេទិកាពាណិជ្ជកម្មអេឡិចត្រូនិក។ ដើម្បីសម្រេចបាននូវគោលដៅនេះ គំរូគួរតែត្រូវបានបណ្តុះបណ្តាលលើសំណុំទិន្នន័យដែលពាក់ព័ន្ធ។ ជាឧទាហរណ៍ សម្រាប់ប្រព័ន្ធដើម្បីពណ៌នាយ៉ាងត្រឹមត្រូវអំពីក្រណាត់ វាជាការប្រសើរក្នុងការដំណើរការការហ្វឹកហាត់លើសំណុំទិន្នន័យជាមួយនឹងសម្លៀកបំពាក់។

ផ្លាតូអាអាយ។ គេហទំព័រ ៣ ។ ទិន្នន័យវៃឆ្លាតត្រូវបានធ្វើឱ្យប្រសើរឡើង។
ចុចត្រង់នេះដើម្បីចូលប្រើ។

ប្រភព៖ https://www.iotforall.com/deep-learning-image-captioning-technology-for-business-applications

ភាពវៃឆ្លាតទិន្នន័យជំនាន់

ការរៀនជ្រៅជ្រះ បច្ចេកវិទ្យាដាក់ចំណងជើងរូបភាពសម្រាប់កម្មវិធីអាជីវកម្ម

ការដាក់ស្លាករូបភាពដែលជំរុញដោយ AI និងការពិពណ៌នាប្រើករណី

កំណត់ចំណាំរូបភាពដោយស្វ័យប្រវត្តិសម្រាប់មនុស្សពិការភ្នែក

ការកំណត់អត្តសញ្ញាណរូបសញ្ញាជាមួយ AI

ការស្រាវជ្រាវគំរូសិក្សាជ្រៅជ្រះសម្រាប់ការដាក់ចំណងជើងរូបភាព

ការប្រៀបធៀបម៉ូដែល ML សម្រាប់ដាក់ចំណងជើងរូបភាព

ការពិពណ៌នារូបភាពផ្អែកលើ AI

គំរូការយកចិត្តទុកដាក់ឡើងលើសម្រាប់ការដាក់ចំណងជើងរូបភាព

Meshed-Memory Transformer Model សម្រាប់ដាក់ចំណងជើងរូបភាព

ការប្រៀបធៀបគំរូពីរសម្រាប់ការដាក់ចំណងជើងរូបភាព

ចំណងជើងរូបភាព៖ ការវិភាគលទ្ធផល និងទស្សនវិស័យនាពេលអនាគត

តើអ្វីជាភាពខុសគ្នា?

គន្លឹះសំខាន់ៗសម្រាប់ការរក្សាបុគ្គលិក IT របស់ AI Startup របស់អ្នកត្រូវបានបំផុសគំនិត

បញ្ញាចុងក្រោយ

គន្លឹះសំខាន់ៗសម្រាប់ការរក្សាបុគ្គលិក IT របស់ AI Startup របស់អ្នកត្រូវបានបំផុសគំនិត

របៀបទទួលបាន និងប្រើប្រាស់ Rescue Hook នៅក្នុងការព្រមានអំពីខ្លឹមសារ

របៀបដើម្បីទទួលបាន MetaCoins (MC) នៅក្នុងការព្រមានអំពីមាតិកា

ក្រុមហ៊ុន Qatar Airways Cargo កំណត់ស្តង់ដារថ្មីជាមួយនឹងការបើកដំណើរការមជ្ឈមណ្ឌលសត្វកម្រិតខ្ពស់

តើកាលបរិច្ឆេទចេញផ្សាយផែនទី Valorant បន្ទាប់នៅពេលណា? » TalkEsport

ការរៀនជ្រៅជ្រះ បច្ចេកវិទ្យាដាក់ចំណងជើងរូបភាពសម្រាប់កម្មវិធីអាជីវកម្ម

ការ​ដាក់​ស្លាក​រូបភាព​ដែល​ជំរុញ​ដោយ AI និង​ការ​ពិពណ៌នា​ប្រើ​ករណី

កំណត់ចំណាំរូបភាពដោយស្វ័យប្រវត្តិសម្រាប់មនុស្សពិការភ្នែក

ការដាក់ចំណងជើងរូបភាព AI សម្រាប់ប្រព័ន្ធផ្សព្វផ្សាយសង្គម

ការកំណត់អត្តសញ្ញាណរូបសញ្ញាជាមួយ AI

ការ​ស្រាវជ្រាវ​គំរូ​សិក្សា​ជ្រៅជ្រះ​សម្រាប់​ការ​ដាក់​ចំណង​ជើង​រូបភាព

ការប្រៀបធៀបម៉ូដែល ML សម្រាប់ដាក់ចំណងជើងរូបភាព

ការពិពណ៌នារូបភាពផ្អែកលើ AI

គំរូការយកចិត្តទុកដាក់ឡើងលើសម្រាប់ការដាក់ចំណងជើងរូបភាព

Meshed-Memory Transformer Model សម្រាប់ដាក់ចំណងជើងរូបភាព

ការប្រៀបធៀបគំរូពីរសម្រាប់ការដាក់ចំណងជើងរូបភាព

ចំណងជើងរូបភាព៖ ការវិភាគលទ្ធផល និងទស្សនវិស័យនាពេលអនាគត

តើអ្វីជាភាពខុសគ្នា?

បញ្ញាចុងក្រោយ

ការដាក់ស្លាករូបភាពដែលជំរុញដោយ AI និងការពិពណ៌នាប្រើករណី

ការស្រាវជ្រាវគំរូសិក្សាជ្រៅជ្រះសម្រាប់ការដាក់ចំណងជើងរូបភាព