បច្ចេកវិទ្យាដាក់ចំណងជើងរូបភាពសម្រាប់ការសិក្សាជ្រៅជ្រះសម្រាប់កម្មវិធីអាជីវកម្ម

ការសិក្សាជ្រៅជ្រះ បច្ចេកវិទ្យាដាក់ចំណងជើងរូបភាពសម្រាប់កម្មវិធីអាជីវកម្ម — ឧទាហរណ៍៖ © IoT សម្រាប់ទាំងអស់គ្នា

បច្ចេកវិទ្យាដែលបានអនុវត្តចំពោះការបង្វែរលំដាប់នៃភីកសែលដែលបង្ហាញនៅលើរូបភាពទៅជាពាក្យដែលមានបញ្ញាសិប្បនិម្មិតគឺមិនដូចដើមកាលពី XNUMX ឬច្រើនជាងឆ្នាំមុននោះទេ។ ការអនុវត្តកាន់តែប្រសើរ ភាពត្រឹមត្រូវ និងភាពជឿជាក់ធ្វើឱ្យការដាក់ចំណងជើងរូបភាពរលូន និងមានប្រសិទ្ធភាពអាចធ្វើទៅបានក្នុងផ្នែកផ្សេងៗគ្នា - ពីប្រព័ន្ធផ្សព្វផ្សាយសង្គមរហូតដល់ពាណិជ្ជកម្មអេឡិចត្រូនិក។ ការបង្កើតស្លាកដោយស្វ័យប្រវត្តិត្រូវគ្នានឹងរូបថតដែលបានទាញយក។ បច្ចេកវិទ្យានេះអាចជួយមនុស្សពិការភ្នែកឱ្យរកឃើញពិភពលោកជុំវិញពួកគេ។

អត្ថបទនេះគ្របដណ្តប់លើការប្រើប្រាស់ករណីនៃបច្ចេកវិទ្យាដាក់ចំណងជើងរូបភាព រចនាសម្ព័ន្ធមូលដ្ឋាន គុណសម្បត្តិ និងគុណវិបត្តិរបស់វា។ ដូចគ្នានេះផងដែរ យើងដាក់ពង្រាយគំរូដែលមានសមត្ថភាពបង្កើតការពិពណ៌នាប្រកបដោយអត្ថន័យនៃអ្វីដែលត្រូវបានបង្ហាញនៅលើរូបភាពបញ្ចូល។

ក្នុងនាមជាគោលបំណងភាសាចក្ខុវិស័យ ការដាក់ចំណងជើងរូបភាពអាចត្រូវបានដោះស្រាយដោយជំនួយពីចក្ខុវិស័យកុំព្យូទ័រ និង NLP ។ ផ្នែក AI នៅលើយន្តហោះ CNNs (បណ្តាញសរសៃប្រសាទ convolutional) និង RNNs (បណ្តាញសរសៃប្រសាទកើតឡើងវិញ) ឬគំរូដែលអាចអនុវត្តបានដើម្បីទៅដល់គោលដៅ។

មុននឹងឈានទៅរកព័ត៌មានលម្អិតបច្ចេកទេស សូមស្វែងយល់ពីកន្លែងដែលដាក់ចំណងជើងរូបភាព។

ការដាក់ស្លាករូបភាពដែលជំរុញដោយ AI និងការពិពណ៌នាប្រើករណី

"ការដាក់ចំណងជើងរូបភាពគឺជាសមត្ថភាពចក្ខុវិស័យកុំព្យូទ័រស្នូលមួយដែលអាចបើកឱ្យមានសេវាកម្មយ៉ាងទូលំទូលាយ"។ Xuedong Huangដែលជាអ្នកបច្ចេកទេសរបស់ក្រុមហ៊ុន Microsoft និង CTO នៃ Azure AI Cognitive Services នៅ Redmond, Washington ។

គាត់មានចំណុចមួយ ដោយសារវាមានវិសាលភាពដ៏ធំនៃផ្នែកសម្រាប់បច្ចេកវិទ្យាដាក់ចំណងជើងរូបភាព ពោលគឺ៖ ការដាក់ស្លាករូបភាពសម្រាប់ពាណិជ្ជកម្មអេឡិចត្រូនិក សេវាកម្មចែករំលែករូបថត និងកាតាឡុកអនឡាញ។

ក្នុងករណីនេះ ការបង្កើតស្លាកដោយស្វ័យប្រវត្តិតាមរូបថតកំពុងត្រូវបានអនុវត្ត។ ជាឧទាហរណ៍ វាអាចធ្វើអោយជីវិតរបស់អ្នកប្រើប្រាស់មានភាពសាមញ្ញ នៅពេលដែលពួកគេបង្ហោះរូបភាពទៅកាតាឡុកអនឡាញ។ ក្នុងករណីនេះ, AI ទទួលស្គាល់រូបភាព និងបង្កើតគុណលក្ខណៈ – ទាំងនេះអាចជាហត្ថលេខា ប្រភេទ ឬការពិពណ៌នា។ បច្ចេកវិទ្យាក៏អាចកំណត់ប្រភេទនៃធាតុ សម្ភារៈ ពណ៌ លំនាំ និងសមនៃសម្លៀកបំពាក់សម្រាប់ហាងអនឡាញ។

ក្នុងពេលជាមួយគ្នានេះ ការដាក់ចំណងជើងរូបភាពអាចត្រូវបានអនុវត្តដោយសេវាកម្មចែករំលែករូបថត ឬកាតាឡុកអនឡាញណាមួយ ដើម្បីបង្កើតការពណ៌នាប្រកបដោយអត្ថន័យដោយស្វ័យប្រវត្តិនៃរូបភាពសម្រាប់ SEO ឬគោលបំណងចាត់ថ្នាក់។ ជាងនេះទៅទៀត ចំណងជើងអនុញ្ញាតឱ្យពិនិត្យមើលថាតើរូបភាពសមនឹងច្បាប់របស់វេទិកាដែលវានឹងត្រូវបានបោះពុម្ពដែរឬទេ។ នៅទីនេះវាបម្រើជាជម្រើសមួយសម្រាប់ការចាត់ថ្នាក់របស់ CNN និងជួយបង្កើនចរាចរណ៍ និងប្រាក់ចំណូល។

ចំណាំ: ការបង្កើតការពិពណ៌នាសម្រាប់វីដេអូគឺជាកិច្ចការស្មុគស្មាញជាង។ ទោះយ៉ាងណាក៏ដោយ ស្ថានភាពបច្ចេកវិទ្យាបច្ចុប្បន្ន ធ្វើឱ្យវាអាចទៅរួច។

ដើម្បីអភិវឌ្ឍដំណោះស្រាយបែបនេះ យើងត្រូវបំប្លែងរូបភាពទៅជាអត្ថបទ ហើយបន្ទាប់មកទៅជាសំឡេង។ នេះគឺជាកម្មវិធីល្បីពីរនៃបច្ចេកវិទ្យា Deep Learning ។

កម្មវិធីមួយដែលគេហៅថា មើលអាយអេ បង្កើតឡើងដោយក្រុមហ៊ុន Microsoft អនុញ្ញាតឱ្យមនុស្សដែលមានបញ្ហាភ្នែកមើលឃើញពិភពលោកជុំវិញពួកគេដោយប្រើស្មាតហ្វូន។ កម្មវិធីអាចអានអត្ថបទនៅពេលដែលកាមេរ៉ាត្រូវបានចង្អុលទៅវា ហើយផ្តល់ការដាស់តឿនសំឡេង។ វាអាចសម្គាល់ទាំងអត្ថបទដែលបានបោះពុម្ព និងសរសេរដោយដៃ ព្រមទាំងកំណត់អត្តសញ្ញាណវត្ថុ និងមនុស្សផងដែរ។

ក្រុមហ៊ុន google ក៏បានណែនាំឧបករណ៍ដែលអាចបង្កើតការពិពណ៌នាអត្ថបទសម្រាប់រូបភាព ដែលអនុញ្ញាតឱ្យមនុស្សពិការភ្នែក ឬអ្នកដែលមានបញ្ហាភ្នែកយល់អំពីបរិបទនៃរូបភាព ឬក្រាហ្វិក។ ឧបករណ៍រៀនម៉ាស៊ីននេះមានស្រទាប់ជាច្រើន។ ម៉ូដែលទីមួយស្គាល់អក្សរ និងលេខសរសេរដោយដៃនៅក្នុងរូបភាព។ បន្ទាប់មក ម៉ូដែលមួយទៀតសម្គាល់វត្ថុសាមញ្ញៗនៃពិភពលោកជុំវិញ ដូចជារថយន្ត ដើមឈើ សត្វជាដើម។ ហើយស្រទាប់ទីបីគឺជាគំរូកម្រិតខ្ពស់ដែលមានសមត្ថភាពស្វែងរកគំនិតចម្បងនៅក្នុងការពិពណ៌នាអត្ថបទពេញលេញ។

ចំណងជើងរូបភាពដែលបានបង្កើតដោយមានជំនួយពីឧបករណ៍ដែលមានមូលដ្ឋានលើ AI មានរួចហើយសម្រាប់ Facebook និង Instagram ។ លើសពីនេះ គំរូកាន់តែឆ្លាតវៃគ្រប់ពេល ដោយរៀនស្គាល់វត្ថុ សកម្មភាព និងគំរូថ្មីៗ។

Facebook បានបង្កើតប្រព័ន្ធមួយដែលមានសមត្ថភាពបង្កើតការពិពណ៌នាអក្សរ Alt ជិតប្រាំឆ្នាំមុន។ សព្វថ្ងៃវាបានក្លាយជាការត្រឹមត្រូវជាងមុន។ ពីមុនវាពិពណ៌នារូបភាពដោយប្រើពាក្យទូទៅ ប៉ុន្តែឥឡូវនេះប្រព័ន្ធនេះអាចបង្កើតការពិពណ៌នាលម្អិត។

ការកំណត់អត្តសញ្ញាណរូបសញ្ញាជាមួយ AI

បច្ចេកវិជ្ជាដាក់ចំណងជើងរូបភាពកំពុងត្រូវបានដាក់ឱ្យប្រើប្រាស់ជាមួយបច្ចេកវិទ្យា AI ផ្សេងទៀតផងដែរ។ ឧទាហរណ៍ DeepLogo គឺជាបណ្តាញសរសៃប្រសាទដែលមានមូលដ្ឋានលើ TensorFlow Object Detection API។ ហើយវាអាចស្គាល់ប្រភេទឡូហ្គោ។ ឈ្មោះនៃប្រភេទនិមិត្តសញ្ញាដែលបានកំណត់បង្ហាញជាចំណងជើងនៅលើរូបភាព។ នេះ។ ការស្រាវជ្រាវ នៅលើគំរូសំយោគនិមិត្តសញ្ញាដែលមានមូលដ្ឋានលើ GAN អាចនាំមកនូវពន្លឺដល់របៀបដែល GANs ដំណើរការ។

ការស្រាវជ្រាវគំរូសិក្សាជ្រៅជ្រះសម្រាប់ការដាក់ចំណងជើងរូបភាព

យើងបានអនុវត្តគំរូដែលបង្កើតការពិពណ៌នាអត្ថបទដែលមានអត្ថន័យសម្រាប់រូបភាព ដោយចងចាំករណីប្រើប្រាស់ដែលអាចប្រើបាន។ ឧទាហរណ៍ ចំណងជើងអាចពណ៌នាអំពីសកម្មភាព និងវត្ថុដែលជាវត្ថុសំខាន់នៅលើរូបភាពនីមួយៗ។ សម្រាប់ការបណ្តុះបណ្តាល យើងបានប្រើសំណុំទិន្នន័យ Microsoft COCO 2014 ។

សំណុំទិន្នន័យ COCO គឺជាការរកឃើញវត្ថុទ្រង់ទ្រាយធំ ការបែងចែក និងសំណុំទិន្នន័យចំណងជើង។ វាមានប្រហែល 1.5 លានវត្ថុផ្សេងៗគ្នា ចែកជា 80 ប្រភេទ។ រូបភាពនីមួយៗត្រូវបានកត់ចំណាំជាមួយនឹងចំណងជើងដែលបង្កើតដោយមនុស្សចំនួនប្រាំ។

យើងបានដាក់ពាក្យ ការបណ្តុះបណ្តាល សុពលភាព និងការបំបែកការធ្វើតេស្តរបស់ Andrej Karpathy សម្រាប់ការបែងចែកសំណុំទិន្នន័យ ដើម្បីបណ្តុះបណ្តាល ធ្វើឱ្យមានសុពលភាព និងផ្នែកសាកល្បង។ ដូចគ្នានេះផងដែរ យើងត្រូវការ Metrics ដូចជា BLEU, ROUGE, METEOR, CIDER, SPICE ដើម្បីវាយតម្លៃលទ្ធផល។

ការប្រៀបធៀបម៉ូដែល ML សម្រាប់ដាក់ចំណងជើងរូបភាព

ជាធម្មតា ស្ថាបត្យកម្មមូលដ្ឋានសម្រាប់ដាក់ចំណងជើងរូបភាព បំប្លែងការបញ្ចូលទៅក្នុងទម្រង់ថេរ ហើយឌិកូដវា ពាក្យមួយពាក្យទៅជាលំដាប់។

កម្មវិធីអ៊ិនកូដឌ័រអ៊ិនកូដរូបភាពបញ្ចូលជាមួយឆានែលពណ៌បីចូលទៅក្នុងការបោះពុម្ពតូចជាងជាមួយឆានែល "បានរៀន" ។ រូបភាពដែលបានអ៊ិនកូដតូចជាងនេះគឺជាតំណាងសង្ខេបនៃអ្វីដែលមានប្រយោជន៍នៅក្នុងរូបភាពដើម។ សម្រាប់ការអ៊ិនកូដ ស្ថាបត្យកម្ម CNN ណាមួយអាចត្រូវបានអនុវត្ត។ ដូចគ្នានេះផងដែរ យើងអាចប្រើការរៀនផ្ទេរសម្រាប់ផ្នែកបំលែងកូដ។

ឧបករណ៍ឌិកូដមើលរូបភាពដែលបានបំប្លែងកូដ ហើយបង្កើតចំណងជើងតាមពាក្យ។ បន្ទាប់មក ពាក្យព្យាករណ៍នីមួយៗត្រូវបានប្រើដើម្បីបង្កើតពាក្យបន្ទាប់។

មុននឹងឈានទៅមុខ សូមក្រឡេកមើលអ្វីដែលយើងបានទទួលជាលទ្ធផលនៃការបង្កើតគំរូ និងការធ្វើតេស្តជាមួយនឹងម៉ូដែល Meshed-Memory transformer។

ឧទាហរណ៍នៃការប្រើប្រាស់គំរូសិក្សាជ្រៅសម្រាប់ការដាក់ចំណងជើងរូបភាព

ការពិពណ៌នារូបភាពផ្អែកលើ AI

យើងក៏បានសិក្សាឧទាហរណ៍ដែលនាំឱ្យមានកំហុស។ មានហេតុផលជាច្រើនដែលកំហុសលេចឡើង។ កំហុសទូទៅបំផុតគឺគុណភាពរូបភាពមិនល្អ និងអវត្តមាននៃធាតុមួយចំនួននៅក្នុងសំណុំទិន្នន័យដំបូង។ គំរូនេះត្រូវបានបណ្តុះបណ្តាលលើសំណុំទិន្នន័យដែលមានរូបភាពទូទៅ ដូច្នេះវាធ្វើឱ្យមានកំហុសនៅពេលដែលវាមិនស្គាល់ខ្លឹមសារ ឬមិនអាចកំណត់អត្តសញ្ញាណវាបានត្រឹមត្រូវ។ នេះគឺជាវិធីដូចគ្នាដែលខួរក្បាលរបស់មនុស្សធ្វើការ។

កំហុសដែលធ្វើឡើងដោយការដាក់ចំណងជើងរូបភាព AI

កំហុសដែលធ្វើឡើងដោយគំរូដាក់ចំណងជើងរូបភាព AI

នេះគឺជាករណីមួយផ្សេងទៀតដើម្បីបង្ហាញពីរបៀបដែលបណ្តាញសរសៃប្រសាទដំណើរការ។ មិនមានខ្លានៅក្នុងគំរូសំណុំទិន្នន័យទេ។ ផ្ទុយទៅវិញ AI បានជ្រើសរើសវត្ថុដែលនៅជិតបំផុតដែលវាដឹង – វាដូចគ្នាទៅនឹងខួរក្បាលរបស់យើងទាក់ទងនឹងអ្វីដែលមិនស្គាល់។

បណ្តាញសរសៃប្រសាទដំណើរការដាក់ចំណងជើងវត្ថុដែលមិនស្គាល់

គំរូការយកចិត្តទុកដាក់ឡើងលើសម្រាប់ការដាក់ចំណងជើងរូបភាព

នេះគឺជាគំរូដំបូងគេដែលប្រៀបធៀប។ យន្តការឡើងលើចុះក្រោម រួមបញ្ចូលគ្នារវាងបាតឡើងលើ និងយន្តការយកចិត្តទុកដាក់ពីលើចុះក្រោម។

លឿនជាងមុន R-CNN ត្រូវបានប្រើដើម្បីបង្កើតការតភ្ជាប់រវាងការរកឃើញវត្ថុ និងភារកិច្ចដាក់ចំណងជើងរូបភាព។ គំរូសំណើតំបន់ត្រូវបានបណ្តុះបណ្តាលជាមុនលើសំណុំទិន្នន័យស្វែងរកវត្ថុ ដោយសារការប្រើប្រាស់ចំណេះដឹងឆ្លងដែន។ ជាងនេះទៅទៀត មិនដូចយន្តការយកចិត្តទុកដាក់ផ្សេងទៀតទេ ម៉ូដែលទាំងពីរប្រើការយកចិត្តទុកដាក់តែមួយជាមួយយន្តការឡើងលើ។

លឿនជាងមុន R-CNN (រូបភាព 5a) ត្រូវបានប្រើសម្រាប់ការទាញយកលក្ខណៈពិសេសរូបភាព។ Faster R-CNN គឺជាគំរូរាវរកវត្ថុដែលត្រូវបានរចនាឡើងដើម្បីកំណត់អត្តសញ្ញាណវត្ថុដែលជាកម្មសិទ្ធិរបស់ថ្នាក់ជាក់លាក់ និងធ្វើមូលដ្ឋានីយកម្មពួកវាជាមួយនឹងប្រអប់ព្រំដែន។ លឿនជាងមុន R-CNN រកឃើញវត្ថុជាពីរដំណាក់កាល។

ដំណាក់កាលដំបូងដែលត្រូវបានពិពណ៌នាថាជាបណ្តាញសំណើតំបន់ (RPN) ព្យាករណ៍ពីសំណើវត្ថុ។ ដោយប្រើការគាបសង្កត់ដែលមិនមែនជាអតិបរិមានៃលោភលន់ជាមួយនឹងកម្រិតប្រសព្វ-លើសសហជីព (IoU) សំណើប្រអប់កំពូលត្រូវបានជ្រើសរើសជាការបញ្ចូលទៅដំណាក់កាលទីពីរ។

នៅដំណាក់កាលទីពីរ ការដាក់បញ្ចូលតំបន់ចំណាប់អារម្មណ៍ (RoI) ត្រូវបានប្រើដើម្បីទាញយកផែនទីលក្ខណៈពិសេសតូចមួយ (ឧទាហរណ៍ 14×14) សម្រាប់សំណើប្រអប់នីមួយៗ។ បន្ទាប់មកផែនទីលក្ខណៈពិសេសទាំងនេះត្រូវបានបញ្ចូលគ្នាជាធាតុបញ្ចូលទៅក្នុងស្រទាប់ចុងក្រោយនៃ CNN ។ ដូច្នេះ លទ្ធផលគំរូចុងក្រោយមានការចែកចាយ softmax លើស្លាកថ្នាក់ និងការកែលម្អប្រអប់កំណត់ថ្នាក់ជាក់លាក់សម្រាប់សំណើប្រអប់នីមួយៗ។ គ្រោងការណ៍គឺយកចេញពី ផ្ទាំងរូបភាពផ្លូវការ។

ម៉ូដែល R-CNN លឿនជាងមុនសម្រាប់ចំណារពន្យល់រូបភាព

ដោយទទួលបានលក្ខណៈពិសេសរបស់រូបភាព V គំរូដាក់ចំណងជើងដែលបានស្នើប្រើយន្តការយកចិត្តទុកដាក់ពីកំពូលចុះក្រោម 'ទន់' ដើម្បីថ្លឹងថ្លែងលក្ខណៈនីមួយៗក្នុងអំឡុងពេលបង្កើតចំណងជើង។ នេះគឺជា LSTM ដែលមានយន្តការយកចិត្តទុកដាក់បន្ថែមពីលើចុះក្រោម។ បើក។ នេះគឺជា LSTM ដែលមានយន្តការយកចិត្តទុកដាក់បន្ថែមពីលើចុះក្រោម។ នៅកម្រិតខ្ពស់ គំរូដាក់ចំណងជើងមានស្រទាប់ LSTM ពីរ។

Meshed-Memory Transformer Model សម្រាប់ដាក់ចំណងជើងរូបភាព

គំរូមួយផ្សេងទៀតដែលយើងបានយកដើម្បីដោះស្រាយភារកិច្ចដាក់ចំណងជើងរូបភាពគឺ Meshed-Memory Transformer. វាមានផ្នែកបំលែងកូដ និងផ្នែកឌិកូដ។ ពួកគេទាំងពីរត្រូវបានធ្វើពីជង់នៃស្រទាប់យកចិត្តទុកដាក់។ ឧបករណ៍បំលែងកូដក៏រួមបញ្ចូលស្រទាប់បញ្ជូនបន្តផងដែរ ហើយឧបករណ៍ឌិកូដមានយន្តការដែលអាចរៀនបានជាមួយនឹងទម្ងន់។

តំបន់នៃរូបភាពត្រូវបានអ៊ិនកូដក្នុងទម្រង់ពហុកម្រិត។ គំរូយកទៅក្នុងគណនីទាំងទំនាក់ទំនងកម្រិតទាប និងកម្រិតខ្ពស់។ ចំណេះដឹងដែលបានរៀនត្រូវបានអ៊ិនកូដជាវ៉ិចទ័រនៃការចងចាំ។ ស្រទាប់នៃផ្នែកបំលែងកូដ និងផ្នែកឌិកូដត្រូវបានតភ្ជាប់ក្នុងរចនាសម្ព័ន្ធដូចសំណាញ់។ ឧបករណ៍ឌិកូដអានពីលទ្ធផលនៃស្រទាប់ការអ៊ិនកូដនីមួយៗ ហើយអនុវត្តការយកចិត្តទុកដាក់ដោយខ្លួនឯងលើពាក្យ និងការយកចិត្តទុកដាក់ឆ្លងកាត់ស្រទាប់ការអ៊ិនកូដទាំងមូល បន្ទាប់ពីលទ្ធផលនោះត្រូវបានកែប្រែ និងបូកសរុប។

ដូច្នេះ គំរូអាចប្រើមិនត្រឹមតែមាតិកាដែលមើលឃើញនៃរូបភាពប៉ុណ្ណោះទេ ប៉ុន្តែក៏មានចំណេះដឹងពីមុនអំពីឧបករណ៍បំលែងកូដផងដែរ។ គ្រោងការណ៍ត្រូវបានដកចេញពី ក្រដាសផ្លូវការ.

គ្រោងការណ៍សម្រាប់ដាក់ចំណងជើងរូបភាព AI គ្រោងការណ៍សម្រាប់ការដាក់ចំណងជើងរូបភាព AI ជាមួយគំរូ Meshed-Memory Transformer

គ្រោងការណ៍សម្រាប់ការដាក់ចំណងជើងរូបភាព AI ជាមួយម៉ូដែល Meshed-Memory Transformer

ការប្រៀបធៀបគំរូពីរសម្រាប់ការដាក់ចំណងជើងរូបភាព

ដោយផ្អែកលើការស្រាវជ្រាវរបស់យើង យើងអាចប្រៀបធៀបម៉ូដែល Up-down និងម៉ូដែល M2transform ដូចដែលពួកគេត្រូវបានបណ្តុះបណ្តាលលើទិន្នន័យដូចគ្នា។ តារាងខាងក្រោមផ្តល់នូវសេចក្តីសង្ខេបនៃម៉ូដែលទាំងពីរ។

តារាង - សូចនាករវាយតម្លៃ

	BLEU1	BLEU2	ស៊ីឌី	ក្រហម	METEOR
ម៉ូដែលចុះក្រោម	0.8	0.358	1.16	0.573	0.275
M2 Transformer	0.8078	0.3834	1.278	0.58	0.2876

តារាង - ពេលវេលានិងការចងចាំ

	ពេលវេលា	អង្គចងចាំ
ស៊ីភីយូ	GPU	ស៊ីភីយូ	GPU
ម៉ូដែលចុះក្រោម	104.47	17	1479mb	1181mb
M2 Transformer	១២ ម ២៦.៤៦១ ស	១ ម ៥	1423mb	1310mb

ចំណងជើងរូបភាព៖ ការវិភាគលទ្ធផល និងទស្សនវិស័យនាពេលអនាគត

ម៉ូដែលដែលបានប្រើទាំងពីរបានបង្ហាញលទ្ធផលល្អគួរសម។ ដោយមានជំនួយរបស់ពួកគេ យើងអាចបង្កើតចំណងជើងដែលមានអត្ថន័យសម្រាប់រូបភាពភាគច្រើនពីសំណុំទិន្នន័យរបស់យើង។ ជាងនេះទៅទៀត ដោយសារលក្ខណៈពិសេសដែលបានស្រង់ចេញជាមុនជាមួយ Faster-RCNN ដែលត្រូវបានបណ្តុះបណ្តាលជាមុនលើសំណុំទិន្នន័យ Visual Genome ដ៏ធំនោះ គំរូនេះអាចសម្គាល់វត្ថុ និងសកម្មភាពជាច្រើនពីជីវិតប្រចាំថ្ងៃរបស់មនុស្ស ដូច្នេះហើយពណ៌នាបានត្រឹមត្រូវ។

តើអ្វីជាភាពខុសគ្នា?

ម៉ូដែល Updown គឺលឿន និងទម្ងន់ស្រាលជាង M2Transformer ។ ហេតុផលគឺថា M2Transformer ប្រើបច្ចេកទេសជាច្រើនទៀត ដូចជាការតភ្ជាប់បន្ថែម (“សំណាញ់”) រវាងឧបករណ៍បំប្លែង និងឌិកូដ និងវ៉ិចទ័រអង្គចងចាំសម្រាប់ចងចាំបទពិសោធន៍អតីតកាល។ ដូចគ្នានេះផងដែរម៉ូដែលទាំងនេះប្រើយន្តការផ្សេងគ្នានៃការយកចិត្តទុកដាក់។

ការយកចិត្តទុកដាក់លើការចុះក្រោមអាចត្រូវបានអនុវត្តនៅក្នុងការឆ្លងកាត់តែមួយខណៈពេលដែលការយកចិត្តទុកដាក់ពហុក្បាលដែលត្រូវបានប្រើនៅក្នុង M2Transformer គួរតែដំណើរការស្របគ្នាជាច្រើនដង។ ទោះជាយ៉ាងណាក៏ដោយយោងទៅតាមរង្វាស់ដែលទទួលបាន M2Transormer ទទួលបានលទ្ធផលប្រសើរជាងមុន។ ដោយមានជំនួយរបស់វា យើងអាចបង្កើតអក្សររត់បានត្រឹមត្រូវ និងផ្លាស់ប្តូរកាន់តែច្រើន។ ការទស្សន៍ទាយ M2Transformer មានភាពមិនត្រឹមត្រូវតិចតួចក្នុងការពិពណ៌នា ទាំងរូបភាពពីសំណុំទិន្នន័យ និងសម្រាប់រូបភាពពាក់ព័ន្ធមួយចំនួនទៀត។ ដូច្នេះហើយ វាធ្វើកិច្ចការសំខាន់បានល្អជាង។

យើងបានប្រៀបធៀបម៉ូដែលពីរ ប៉ុន្តែក៏មានវិធីសាស្រ្តផ្សេងទៀតចំពោះភារកិច្ចនៃការដាក់ចំណងជើងរូបភាពផងដែរ។ វាអាចទៅរួចក្នុងការផ្លាស់ប្តូរឧបករណ៍ឌិកូដ និងឧបករណ៍បំលែងកូដ ប្រើវ៉ិចទ័រពាក្យផ្សេងៗ ផ្សំសំណុំទិន្នន័យ និងអនុវត្តការរៀនផ្ទេរ។

គំរូនេះអាចត្រូវបានកែលម្អដើម្បីសម្រេចបានលទ្ធផលល្អប្រសើរដែលសមរម្យសម្រាប់អាជីវកម្មជាក់លាក់ ទាំងជាកម្មវិធីសម្រាប់អ្នកដែលមានបញ្ហាចក្ខុវិស័យ ឬជាឧបករណ៍បន្ថែមដែលបានបង្កប់នៅក្នុងវេទិកាពាណិជ្ជកម្មអេឡិចត្រូនិក។ ដើម្បីសម្រេចបាននូវគោលដៅនេះ គំរូគួរតែត្រូវបានបណ្តុះបណ្តាលលើសំណុំទិន្នន័យដែលពាក់ព័ន្ធ។ ជាឧទាហរណ៍ សម្រាប់ប្រព័ន្ធដើម្បីពណ៌នាយ៉ាងត្រឹមត្រូវអំពីក្រណាត់ វាជាការប្រសើរក្នុងការដំណើរការការហ្វឹកហាត់លើសំណុំទិន្នន័យជាមួយនឹងសម្លៀកបំពាក់។

ផ្លាតូអាអាយ។ គេហទំព័រ ៣ ។ ទិន្នន័យវៃឆ្លាតត្រូវបានធ្វើឱ្យប្រសើរឡើង។
ចុចត្រង់នេះដើម្បីចូលប្រើ។

ប្រភព៖ https://www.iotforall.com/deep-learning-image-captioning-technology-for-business-applications

ភាពវៃឆ្លាតទិន្នន័យជំនាន់

ការរៀនជ្រៅជ្រះ បច្ចេកវិទ្យាដាក់ចំណងជើងរូបភាពសម្រាប់កម្មវិធីអាជីវកម្ម

ការដាក់ស្លាករូបភាពដែលជំរុញដោយ AI និងការពិពណ៌នាប្រើករណី

កំណត់ចំណាំរូបភាពដោយស្វ័យប្រវត្តិសម្រាប់មនុស្សពិការភ្នែក

ការកំណត់អត្តសញ្ញាណរូបសញ្ញាជាមួយ AI

ការស្រាវជ្រាវគំរូសិក្សាជ្រៅជ្រះសម្រាប់ការដាក់ចំណងជើងរូបភាព

ការប្រៀបធៀបម៉ូដែល ML សម្រាប់ដាក់ចំណងជើងរូបភាព

ការពិពណ៌នារូបភាពផ្អែកលើ AI

គំរូការយកចិត្តទុកដាក់ឡើងលើសម្រាប់ការដាក់ចំណងជើងរូបភាព

Meshed-Memory Transformer Model សម្រាប់ដាក់ចំណងជើងរូបភាព

ការប្រៀបធៀបគំរូពីរសម្រាប់ការដាក់ចំណងជើងរូបភាព

ចំណងជើងរូបភាព៖ ការវិភាគលទ្ធផល និងទស្សនវិស័យនាពេលអនាគត

តើអ្វីជាភាពខុសគ្នា?

ការចាកចេញពីក្រោយនិកាយ Bitcoin

Justin Sun បង្ហាញរូបមន្តដ៏ល្អឥតខ្ចោះសម្រាប់ទីផ្សារគ្រីបតូ - CryptoInfoNet

បញ្ញាចុងក្រោយ

"ទិវានិទាឃរដូវភ្លឺ" ដោយ Grant Yun: ការរុករកសិល្បៈឌីជីថលនៅលើ Solana | ព័ត៌មានវប្បធម៌ NFT និង Web3 - CryptoInfoNet

យុត្តាធិការកំពូលទាំង 5 សម្រាប់ការទទួលបានអាជ្ញាប័ណ្ណ Forex

ផលប៉ះពាល់នៃ AI លើវឌ្ឍនភាពឧស្សាហកម្ម

គែមប្រាក់អឺរ៉ូកើនឡើងខ្ពស់ ECB ភ្នែកកាត់បន្ថយខែមិថុនា - MarketPulse

Bitcoin Ordinals Dev ចែករំលែកគន្លឹះសម្រាប់ការជីកយករ៉ែក្នុងអំឡុងពេលពាក់កណ្តាល - ដោយមិនទទួលបាន Rekt - ឌិគ្រីប

ជជែកជាមួយយើង

ការរៀនជ្រៅជ្រះ បច្ចេកវិទ្យាដាក់ចំណងជើងរូបភាពសម្រាប់កម្មវិធីអាជីវកម្ម

ការ​ដាក់​ស្លាក​រូបភាព​ដែល​ជំរុញ​ដោយ AI និង​ការ​ពិពណ៌នា​ប្រើ​ករណី

កំណត់ចំណាំរូបភាពដោយស្វ័យប្រវត្តិសម្រាប់មនុស្សពិការភ្នែក

ការដាក់ចំណងជើងរូបភាព AI សម្រាប់ប្រព័ន្ធផ្សព្វផ្សាយសង្គម

ការកំណត់អត្តសញ្ញាណរូបសញ្ញាជាមួយ AI

ការ​ស្រាវជ្រាវ​គំរូ​សិក្សា​ជ្រៅជ្រះ​សម្រាប់​ការ​ដាក់​ចំណង​ជើង​រូបភាព

ការប្រៀបធៀបម៉ូដែល ML សម្រាប់ដាក់ចំណងជើងរូបភាព

ការពិពណ៌នារូបភាពផ្អែកលើ AI

គំរូការយកចិត្តទុកដាក់ឡើងលើសម្រាប់ការដាក់ចំណងជើងរូបភាព

Meshed-Memory Transformer Model សម្រាប់ដាក់ចំណងជើងរូបភាព

ការប្រៀបធៀបគំរូពីរសម្រាប់ការដាក់ចំណងជើងរូបភាព

ចំណងជើងរូបភាព៖ ការវិភាគលទ្ធផល និងទស្សនវិស័យនាពេលអនាគត

តើអ្វីជាភាពខុសគ្នា?

បញ្ញាចុងក្រោយ

ជជែកជាមួយយើង

ការដាក់ស្លាករូបភាពដែលជំរុញដោយ AI និងការពិពណ៌នាប្រើករណី

ការស្រាវជ្រាវគំរូសិក្សាជ្រៅជ្រះសម្រាប់ការដាក់ចំណងជើងរូបភាព