സെഫിർനെറ്റ് ലോഗോ

ബിസിനസ് ആപ്ലിക്കേഷനുകൾക്കായുള്ള ഡീപ് ലേണിംഗ് ഇമേജ് ക്യാപ്ഷനിംഗ് ടെക്നോളജി

തീയതി:

ബിസിനസ് ആപ്ലിക്കേഷനുകൾക്കായുള്ള ഡീപ് ലേണിംഗ് ഇമേജ് ക്യാപ്ഷനിംഗ് ടെക്നോളജി
ചിത്രീകരണം: © എല്ലാവർക്കും IoT

ചിത്രത്തിൽ ചിത്രീകരിച്ചിരിക്കുന്ന പിക്സലുകളുടെ ക്രമം ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് ഉപയോഗിച്ച് വാക്കുകളാക്കി മാറ്റാൻ പ്രയോഗിച്ച സാങ്കേതികവിദ്യകൾ അഞ്ചോ അതിലധികമോ വർഷങ്ങൾക്ക് മുമ്പുള്ളതുപോലെ അസംസ്കൃതമല്ല. മികച്ച പ്രകടനവും കൃത്യതയും വിശ്വാസ്യതയും വിവിധ മേഖലകളിൽ - സോഷ്യൽ മീഡിയ മുതൽ ഇ-കൊമേഴ്‌സ് വരെ സുഗമവും കാര്യക്ഷമവുമായ ചിത്ര അടിക്കുറിപ്പ് സാധ്യമാക്കുന്നു. ടാഗുകളുടെ സ്വയമേവ സൃഷ്‌ടിക്കുന്നത് ഡൗൺലോഡ് ചെയ്‌ത ഫോട്ടോയുമായി പൊരുത്തപ്പെടുന്നു. അന്ധരായ ആളുകൾക്ക് ചുറ്റുമുള്ള ലോകത്തെ കണ്ടെത്താൻ ഈ സാങ്കേതികവിദ്യ സഹായിക്കും.

ഈ ലേഖനം ഇമേജ് അടിക്കുറിപ്പ് സാങ്കേതികവിദ്യയുടെ ഉപയോഗ കേസുകൾ, അതിന്റെ അടിസ്ഥാന ഘടന, ഗുണങ്ങൾ, ദോഷങ്ങൾ എന്നിവ ഉൾക്കൊള്ളുന്നു. കൂടാതെ, ഇൻപുട്ട് ഇമേജിൽ പ്രദർശിപ്പിച്ചിരിക്കുന്നതിന്റെ അർത്ഥവത്തായ വിവരണം സൃഷ്ടിക്കാൻ കഴിവുള്ള ഒരു മോഡൽ ഞങ്ങൾ വിന്യസിക്കുന്നു.

ഒരു ദർശന-ഭാഷാ ലക്ഷ്യമെന്ന നിലയിൽ, കമ്പ്യൂട്ടർ വിഷൻ, NLP എന്നിവയുടെ സഹായത്തോടെ ഇമേജ് അടിക്കുറിപ്പ് പരിഹരിക്കാൻ കഴിയും. AI ഭാഗം CNN-കളും (കൺവല്യൂഷണൽ ന്യൂറൽ നെറ്റ്‌വർക്കുകൾ) RNN-കളും (ആവർത്തിച്ചുള്ള ന്യൂറൽ നെറ്റ്‌വർക്കുകൾ) അല്ലെങ്കിൽ ഏതെങ്കിലും ബാധകമായ മോഡൽ ലക്ഷ്യത്തിലെത്തുന്നു.

സാങ്കേതിക വിശദാംശങ്ങളിലേക്ക് നീങ്ങുന്നതിന് മുമ്പ്, ചിത്രത്തിന്റെ അടിക്കുറിപ്പ് എവിടെയാണെന്ന് നമുക്ക് കണ്ടെത്താം.

AI-ഡ്രിവൺ ഇമേജ് ടാഗിംഗും വിവരണവും ഉപയോഗ കേസുകൾ

“വിശാലമായ സേവനങ്ങൾ പ്രാപ്തമാക്കാൻ കഴിയുന്ന പ്രധാന കമ്പ്യൂട്ടർ കാഴ്ച ശേഷികളിൽ ഒന്നാണ് ഇമേജ് അടിക്കുറിപ്പ്,” അദ്ദേഹം പറഞ്ഞു. സ്യൂഡോങ് ഹുവാങ്, ഒരു മൈക്രോസോഫ്റ്റ് ടെക്നിക്കൽ ഫെലോയും വാഷിംഗ്ടണിലെ റെഡ്മണ്ടിലുള്ള അസുർ എഐ കോഗ്നിറ്റീവ് സർവീസസിന്റെ സിടിഒയും.

ഇമേജ് ക്യാപ്ഷനിംഗ് സാങ്കേതികവിദ്യയ്ക്ക് വിപുലമായ മേഖലകൾ ഇതിനകം ഉള്ളതിനാൽ അദ്ദേഹത്തിന് ഒരു പോയിന്റുണ്ട്, അതായത്: ഇ-കൊമേഴ്‌സിനായുള്ള ഇമേജ് ടാഗിംഗ്, ഫോട്ടോ പങ്കിടൽ സേവനങ്ങൾ, ഓൺലൈൻ കാറ്റലോഗുകൾ.

ഈ സാഹചര്യത്തിൽ, ഫോട്ടോ ഉപയോഗിച്ച് ടാഗുകളുടെ സ്വയമേവ സൃഷ്ടിക്കൽ നടപ്പിലാക്കുന്നു. ഉദാഹരണത്തിന്, ഒരു ഓൺലൈൻ കാറ്റലോഗിലേക്ക് ഒരു ചിത്രം അപ്‌ലോഡ് ചെയ്യുമ്പോൾ ഉപയോക്താക്കളുടെ ജീവിതം ലളിതമാക്കാൻ ഇതിന് കഴിയും. ഈ സാഹചര്യത്തിൽ, AI ചിത്രം തിരിച്ചറിയുന്നു കൂടാതെ ആട്രിബ്യൂട്ടുകൾ സൃഷ്ടിക്കുന്നു - ഇവ ഒപ്പുകളോ വിഭാഗങ്ങളോ വിവരണങ്ങളോ ആകാം. ഓൺലൈൻ സ്റ്റോറുകൾക്കുള്ള ഇനത്തിന്റെ തരം, മെറ്റീരിയൽ, നിറം, പാറ്റേൺ, വസ്ത്രങ്ങളുടെ അനുയോജ്യത എന്നിവയും സാങ്കേതികവിദ്യയ്ക്ക് നിർണ്ണയിക്കാനാകും.

അതേ സമയം, SEO അല്ലെങ്കിൽ വർഗ്ഗീകരണ ആവശ്യങ്ങൾക്കായി ചിത്രത്തിന്റെ ഒരു യാന്ത്രിക അർത്ഥവത്തായ വിവരണം സൃഷ്ടിക്കുന്നതിന് ഒരു ഫോട്ടോ പങ്കിടൽ സേവനമോ അല്ലെങ്കിൽ ഏതെങ്കിലും ഓൺലൈൻ കാറ്റലോഗോ ഉപയോഗിച്ച് ഇമേജ് അടിക്കുറിപ്പ് നടപ്പിലാക്കാൻ കഴിയും. മാത്രമല്ല, ചിത്രം പ്രസിദ്ധീകരിക്കാൻ പോകുന്ന പ്ലാറ്റ്‌ഫോമിന്റെ നിയമങ്ങൾക്ക് അനുയോജ്യമാണോ എന്ന് പരിശോധിക്കാൻ അടിക്കുറിപ്പുകൾ അനുവദിക്കുന്നു. ഇവിടെ ഇത് CNN വർഗ്ഗീകരണത്തിന് ബദലായി പ്രവർത്തിക്കുകയും ട്രാഫിക്കും വരുമാനവും വർദ്ധിപ്പിക്കാൻ സഹായിക്കുകയും ചെയ്യുന്നു.

കുറിപ്പ്: വീഡിയോകൾക്കായി വിവരണങ്ങൾ സൃഷ്‌ടിക്കുക എന്നത് കൂടുതൽ സങ്കീർണ്ണമായ ജോലിയാണ്. എന്നിരുന്നാലും, സാങ്കേതികവിദ്യയുടെ നിലവിലെ അവസ്ഥ ഇതിനകം തന്നെ അത് സാധ്യമാക്കുന്നു.

അന്ധരായ ആളുകൾക്കുള്ള യാന്ത്രിക ചിത്ര വ്യാഖ്യാനങ്ങൾ

അത്തരമൊരു പരിഹാരം വികസിപ്പിക്കുന്നതിന്, ഞങ്ങൾ ചിത്രം ടെക്സ്റ്റിലേക്കും പിന്നീട് ശബ്ദത്തിലേക്കും പരിവർത്തനം ചെയ്യേണ്ടതുണ്ട്. ഡീപ് ലേണിംഗ് ടെക്‌നോളജിയുടെ അറിയപ്പെടുന്ന രണ്ട് ആപ്ലിക്കേഷനുകളാണിത്.

വിളിക്കുന്ന ഒരു അപ്ലിക്കേഷൻ AI കാണുക മൈക്രോസോഫ്റ്റ് വികസിപ്പിച്ചെടുത്തത് കണ്ണിന് പ്രശ്‌നമുള്ള ആളുകൾക്ക് സ്മാർട്ട്‌ഫോണുകൾ ഉപയോഗിച്ച് ചുറ്റുമുള്ള ലോകം കാണാൻ അനുവദിക്കുന്നു. ക്യാമറ അതിലേക്ക് ചൂണ്ടുകയും ശബ്ദ നിർദ്ദേശങ്ങൾ നൽകുകയും ചെയ്യുമ്പോൾ പ്രോഗ്രാമിന് ടെക്സ്റ്റ് വായിക്കാൻ കഴിയും. ഇതിന് അച്ചടിച്ചതും കൈയക്ഷരവുമായ വാചകം തിരിച്ചറിയാനും വസ്തുക്കളെയും ആളുകളെയും തിരിച്ചറിയാനും കഴിയും.

ഗൂഗിൾ ചിത്രത്തിന് ഒരു ടെക്സ്റ്റ് വിവരണം സൃഷ്ടിക്കാൻ കഴിയുന്ന ഒരു ഉപകരണവും അവതരിപ്പിച്ചു, ഇത് അന്ധരെയോ കാഴ്ച വൈകല്യമുള്ളവരെയോ ചിത്രത്തിന്റെ അല്ലെങ്കിൽ ഗ്രാഫിക്കിന്റെ സന്ദർഭം മനസ്സിലാക്കാൻ അനുവദിക്കുന്നു. ഈ മെഷീൻ ലേണിംഗ് ടൂൾ നിരവധി പാളികൾ ഉൾക്കൊള്ളുന്നു. ചിത്രത്തിലെ വാചകവും കൈകൊണ്ട് എഴുതിയ അക്കങ്ങളും ആദ്യ മോഡൽ തിരിച്ചറിയുന്നു. മറ്റൊരു മോഡൽ ചുറ്റുമുള്ള ലോകത്തിലെ ലളിതമായ വസ്തുക്കളെ തിരിച്ചറിയുന്നു-കാറുകൾ, മരങ്ങൾ, മൃഗങ്ങൾ മുതലായവ. മൂന്നാമത്തെ പാളി പൂർണ്ണമായ വാചക വിവരണത്തിലെ പ്രധാന ആശയം കണ്ടെത്താൻ കഴിവുള്ള ഒരു നൂതന മാതൃകയാണ്.

സോഷ്യൽ മീഡിയയ്ക്കുള്ള AI ഇമേജ് അടിക്കുറിപ്പ്

AI-അധിഷ്ഠിത ഉപകരണത്തിന്റെ സഹായത്തോടെ സൃഷ്ടിച്ച ചിത്ര അടിക്കുറിപ്പ് ഇതിനകം തന്നെ Facebook, Instagram എന്നിവയിൽ ലഭ്യമാണ്. കൂടാതെ, മോഡൽ എല്ലാ സമയത്തും മികച്ചതായിത്തീരുന്നു, പുതിയ വസ്തുക്കൾ, പ്രവർത്തനങ്ങൾ, പാറ്റേണുകൾ എന്നിവ തിരിച്ചറിയാൻ പഠിക്കുന്നു.

ആൾട്ട് ടെക്‌സ്‌റ്റ് വിവരണങ്ങൾ സൃഷ്‌ടിക്കാൻ കഴിവുള്ള ഒരു സിസ്റ്റം ഏകദേശം അഞ്ച് വർഷം മുമ്പ് ഫേസ്ബുക്ക് സൃഷ്ടിച്ചു. ഇക്കാലത്ത്, അത് കൂടുതൽ കൃത്യതയുള്ളതായി മാറിയിരിക്കുന്നു. മുമ്പ്, ഇത് പൊതുവായ വാക്കുകൾ ഉപയോഗിച്ച് ഒരു ചിത്രം വിവരിച്ചു, എന്നാൽ ഇപ്പോൾ ഈ സിസ്റ്റത്തിന് വിശദമായ വിവരണം സൃഷ്ടിക്കാൻ കഴിയും.

AI ഉപയോഗിച്ചുള്ള ലോഗോ ഐഡന്റിഫിക്കേഷൻ

മറ്റ് AI സാങ്കേതികവിദ്യകൾക്കൊപ്പം ഇമേജ് അടിക്കുറിപ്പ് സാങ്കേതികവിദ്യയും വിന്യസിച്ചുകൊണ്ടിരിക്കുന്നു. ഉദാഹരണത്തിന്, TensorFlow ഒബ്ജക്റ്റ് ഡിറ്റക്ഷൻ API അടിസ്ഥാനമാക്കിയുള്ള ഒരു ന്യൂറൽ നെറ്റ്‌വർക്കാണ് DeepLogo. കൂടാതെ ലോഗോടൈപ്പുകൾ തിരിച്ചറിയാനും ഇതിന് കഴിയും. തിരിച്ചറിഞ്ഞ ലോഗോടൈപ്പിന്റെ പേര് ചിത്രത്തിൽ ഒരു അടിക്കുറിപ്പായി ദൃശ്യമാകുന്നു. ദി ഗവേഷണം GAN അടിസ്ഥാനമാക്കിയുള്ള ലോഗോടൈപ്പ് സിന്തസിസ് മോഡലിന് GAN-കൾ എങ്ങനെ പ്രവർത്തിക്കുന്നു എന്നതിലേക്ക് വെളിച്ചം കൊണ്ടുവരാൻ കഴിയും.

ഇമേജ് ക്യാപ്ഷനിംഗിനായി ഡീപ് ലേണിംഗ് മോഡലുകൾ ഗവേഷണം ചെയ്യുന്നു

സാധ്യമായ ഉപയോഗ സാഹചര്യങ്ങൾ കണക്കിലെടുത്ത് ചിത്രങ്ങൾക്ക് അർത്ഥവത്തായ ഒരു ടെക്സ്റ്റ് വിവരണം സൃഷ്ടിക്കുന്ന ഒരു മോഡൽ ഞങ്ങൾ പ്രയോഗിച്ചു. ഉദാഹരണത്തിന്, ഓരോ ചിത്രത്തിലെയും പ്രധാന വസ്തുക്കളായ ഒരു പ്രവർത്തനത്തെയും വസ്തുക്കളെയും അടിക്കുറിപ്പിന് വിവരിക്കാൻ കഴിയും. പരിശീലനത്തിനായി, ഞങ്ങൾ Microsoft COCO 2014 ഡാറ്റാസെറ്റ് ഉപയോഗിച്ചു.

COCO ഡാറ്റാസെറ്റ് എന്നത് വലിയ തോതിലുള്ള ഒബ്ജക്റ്റ് കണ്ടെത്തൽ, സെഗ്മെന്റേഷൻ, അടിക്കുറിപ്പ് ഡാറ്റാസെറ്റ് എന്നിവയാണ്. 1.5 വിഭാഗങ്ങളായി തിരിച്ചിരിക്കുന്ന ഏകദേശം 80 ദശലക്ഷം വ്യത്യസ്ത വസ്തുക്കൾ ഇതിൽ അടങ്ങിയിരിക്കുന്നു. ഓരോ ചിത്രവും മനുഷ്യൻ സൃഷ്ടിച്ച അഞ്ച് അടിക്കുറിപ്പുകൾ ഉപയോഗിച്ചാണ് വ്യാഖ്യാനിച്ചിരിക്കുന്നത്.

ഞങ്ങൾ അപേക്ഷിച്ചു ആൻഡ്രെജ് കർപതിയുടെ പരിശീലനം, മൂല്യനിർണ്ണയം, ടെസ്റ്റ് വിഭജനം ഭാഗങ്ങൾ പരിശീലിപ്പിക്കുന്നതിനും സാധൂകരിക്കുന്നതിനും പരിശോധിക്കുന്നതിനും ഡാറ്റാസെറ്റുകൾ വിഭജിക്കുന്നതിന്. കൂടാതെ, ഫലങ്ങൾ വിലയിരുത്തുന്നതിന് ഞങ്ങൾക്ക് BLEU, ROUGE, METEOR, CIDEr, SPICE പോലുള്ള മെട്രിക്‌സ് ആവശ്യമാണ്.

ഇമേജ് അടിക്കുറിപ്പിനായി ML മോഡലുകൾ താരതമ്യം ചെയ്യുന്നു

സാധാരണഗതിയിൽ, ഇമേജ് ക്യാപ്ഷനിംഗിനുള്ള അടിസ്ഥാന ആർക്കിടെക്ചർ ഇൻപുട്ടിനെ ഒരു നിശ്ചിത രൂപത്തിലേക്ക് എൻകോഡ് ചെയ്യുകയും ഓരോ പദവും ഒരു ശ്രേണിയിലേക്ക് ഡീകോഡ് ചെയ്യുകയും ചെയ്യുന്നു.

എൻകോഡർ മൂന്ന് വർണ്ണ ചാനലുകളുള്ള ഇൻപുട്ട് ഇമേജ് "പഠിച്ച" ചാനലുകളുള്ള ഒരു ചെറിയ പ്രിന്റിലേക്ക് എൻകോഡ് ചെയ്യുന്നു. ഈ ചെറിയ എൻകോഡ് ചെയ്‌ത ചിത്രം യഥാർത്ഥ ചിത്രത്തിൽ ഉപയോഗപ്രദമായ എല്ലാത്തിന്റെയും സംഗ്രഹ പ്രതിനിധാനമാണ്. എൻകോഡിംഗിനായി, ഏത് CNN ആർക്കിടെക്ചറും പ്രയോഗിക്കാവുന്നതാണ്. കൂടാതെ, എൻകോഡർ ഭാഗത്തിനായി നമുക്ക് ട്രാൻസ്ഫർ ലേണിംഗ് ഉപയോഗിക്കാം.

ഡീകോഡർ എൻകോഡ് ചെയ്‌ത ഇമേജിലേക്ക് നോക്കുകയും ഓരോ പദവും അടിക്കുറിപ്പ് സൃഷ്ടിക്കുകയും ചെയ്യുന്നു. തുടർന്ന്, പ്രവചിച്ച ഓരോ വാക്കും അടുത്ത പദം സൃഷ്ടിക്കാൻ ഉപയോഗിക്കുന്നു.

മുന്നോട്ട് പോകുന്നതിന് മുമ്പ്, മെഷെഡ്-മെമ്മറി ട്രാൻസ്ഫോർമർ മോഡൽ ഉപയോഗിച്ചുള്ള മോഡൽ സൃഷ്ടിയുടെയും ടെസ്റ്റിംഗിന്റെയും ഫലമായി ഞങ്ങൾക്ക് എന്താണ് ലഭിച്ചതെന്ന് നോക്കുക.

ഇമേജ് അടിക്കുറിപ്പിനായി ആഴത്തിലുള്ള പഠന മാതൃക ഉപയോഗിക്കുന്നതിന്റെ ഉദാഹരണം
ഇമേജ് അടിക്കുറിപ്പിനായി ആഴത്തിലുള്ള പഠന മാതൃക ഉപയോഗിക്കുന്നതിന്റെ ഉദാഹരണം
ഇമേജ് അടിക്കുറിപ്പിനായി ആഴത്തിലുള്ള പഠന മാതൃക ഉപയോഗിക്കുന്നതിന്റെ ഉദാഹരണം

AI- അടിസ്ഥാനമാക്കിയുള്ള ഇമേജ് അടിക്കുറിപ്പ്

പിശകുകളിലേക്ക് നയിച്ച ഉദാഹരണങ്ങളും ഞങ്ങൾ പഠിച്ചു. പിശകുകൾ പ്രത്യക്ഷപ്പെടുന്നതിന് നിരവധി കാരണങ്ങളുണ്ട്. മോശം ഇമേജ് നിലവാരവും പ്രാരംഭ ഡാറ്റാസെറ്റിലെ ചില ഘടകങ്ങളുടെ അഭാവവുമാണ് ഏറ്റവും സാധാരണമായ തെറ്റുകൾ. പൊതുവായ ചിത്രങ്ങളുള്ള ഒരു ഡാറ്റാസെറ്റിലാണ് മോഡൽ പരിശീലിപ്പിച്ചിരിക്കുന്നത്, അതിനാൽ ഉള്ളടക്കം അറിയാത്തതോ ശരിയായി തിരിച്ചറിയാൻ കഴിയാത്തതോ ആയപ്പോൾ അത് തെറ്റുകൾ വരുത്തുന്നു. മനുഷ്യ മസ്തിഷ്കത്തിന്റെ പ്രവർത്തനരീതിയും ഇതുതന്നെയാണ്.

AI ഇമേജ് അടിക്കുറിപ്പിൽ വരുത്തിയ പിശകുകൾ
AI ഇമേജ് അടിക്കുറിപ്പ് മോഡൽ വരുത്തിയ ഒരു പിശക്

ന്യൂറൽ നെറ്റ്‌വർക്കുകൾ എങ്ങനെ പ്രവർത്തിക്കുന്നുവെന്ന് വ്യക്തമാക്കുന്ന മറ്റൊരു സംഭവം ഇതാ. ഡാറ്റാസെറ്റ് മോഡലിൽ കടുവകൾ ഉണ്ടായിരുന്നില്ല. പകരം, AI അത് അറിയാവുന്ന ഏറ്റവും അടുത്തുള്ള ഒബ്ജക്റ്റ് തിരഞ്ഞെടുത്തു - നമ്മുടെ മസ്തിഷ്കം അജ്ഞാതവുമായി ഇടപെടുന്നതുപോലെ തന്നെ.

ന്യൂറൽ നെറ്റ്‌വർക്കുകൾ അജ്ഞാതമായ ഒബ്‌ജക്‌റ്റുകൾക്ക് അടിക്കുറിപ്പ് നൽകി പ്രവർത്തിക്കുന്നു

ഇമേജ് അടിക്കുറിപ്പ് നൽകുന്നതിനുള്ള അപ്പ്-ഡൗൺ അറ്റൻഷൻ മോഡൽ

താരതമ്യം ചെയ്യുന്ന ആദ്യ മോഡലാണിത്. അപ്-ഡൌൺ മെക്കാനിസം താഴെ-അപ്പ്, ടോപ്പ്-ഡൌൺ അറ്റൻഷൻ മെക്കാനിസം എന്നിവ സംയോജിപ്പിക്കുന്നു.

ഒബ്ജക്റ്റ് ഡിറ്റക്ഷനും ഇമേജ് ക്യാപ്ഷനിംഗ് ജോലികളും തമ്മിലുള്ള ബന്ധം സ്ഥാപിക്കാൻ ഫാസ്റ്റർ R-CNN ഉപയോഗിക്കുന്നു. ക്രോസ്-ഡൊമെയ്ൻ അറിവ് പ്രയോജനപ്പെടുത്തുന്നതിനാൽ, ഒബ്‌ജക്റ്റ് ഡിറ്റക്ഷൻ ഡാറ്റാസെറ്റുകളിൽ റീജിയൻ പ്രൊപ്പോസൽ മോഡൽ മുൻകൂട്ടി പരിശീലിപ്പിച്ചതാണ്. മാത്രമല്ല, മറ്റ് ചില ശ്രദ്ധാ സംവിധാനങ്ങളിൽ നിന്ന് വ്യത്യസ്തമായി, രണ്ട് മോഡലുകളും അപ്-ഡൗൺ മെക്കാനിസത്തിനൊപ്പം വൺ-പാസ് ശ്രദ്ധ ഉപയോഗിക്കുന്നു.

ഇമേജ് ഫീച്ചർ എക്‌സ്‌ട്രാക്‌ഷനായി വേഗതയേറിയ R-CNN (fig 5a) ഉപയോഗിക്കുന്നു. ഫാസ്റ്റർ R-CNN എന്നത് ചില ക്ലാസുകളിൽ പെടുന്ന ഒബ്‌ജക്‌റ്റുകൾ തിരിച്ചറിയുന്നതിനും അവയെ ബൗണ്ടിംഗ് ബോക്‌സുകൾ ഉപയോഗിച്ച് പ്രാദേശികവൽക്കരിക്കുന്നതിനും രൂപകൽപ്പന ചെയ്‌തിരിക്കുന്ന ഒരു ഒബ്‌ജക്റ്റ് ഡിറ്റക്ഷൻ മോഡലാണ്. വേഗതയേറിയ R-CNN രണ്ട് ഘട്ടങ്ങളിലായി വസ്തുക്കളെ കണ്ടെത്തുന്നു.

റീജിയൻ പ്രൊപ്പോസൽ നെറ്റ്‌വർക്ക് (RPN) എന്ന് വിവരിക്കുന്ന ആദ്യ ഘട്ടം ഒബ്‌ജക്റ്റ് നിർദ്ദേശങ്ങൾ പ്രവചിക്കുന്നു. ഇന്റർസെക്ഷൻ-ഓവർ-യൂണിയൻ (IoU) ത്രെഷോൾഡുള്ള അത്യാഗ്രഹമില്ലാത്ത നോൺ-മാക്സിമം സപ്രഷൻ ഉപയോഗിച്ച്, രണ്ടാമത്തെ ഘട്ടത്തിലേക്കുള്ള ഇൻപുട്ടായി ടോപ്പ് ബോക്‌സ് നിർദ്ദേശങ്ങൾ തിരഞ്ഞെടുക്കുന്നു.

രണ്ടാം ഘട്ടത്തിൽ, ഓരോ ബോക്‌സ് പ്രൊപ്പോസലിനും ഒരു ചെറിയ ഫീച്ചർ മാപ്പ് (ഉദാ. 14×14) എക്‌സ്‌ട്രാക്‌റ്റ് ചെയ്യാൻ താൽപ്പര്യമുള്ള മേഖല (RoI) പൂളിംഗ് ഉപയോഗിക്കുന്നു. ഈ ഫീച്ചർ മാപ്പുകൾ CNN-ന്റെ അവസാന പാളികളിലേക്കുള്ള ഇൻപുട്ടായി ഒരുമിച്ച് ബാച്ച് ചെയ്യുന്നു. അങ്ങനെ, അവസാന മോഡൽ ഔട്ട്‌പുട്ടിൽ ക്ലാസ് ലേബലുകൾക്ക് മേലുള്ള സോഫ്റ്റ്‌മാക്സ് വിതരണവും ഓരോ ബോക്‌സ് നിർദ്ദേശത്തിനും ക്ലാസ്-നിർദ്ദിഷ്ട ബൗണ്ടിംഗ് ബോക്‌സ് പരിഷ്‌ക്കരണങ്ങളും അടങ്ങിയിരിക്കുന്നു. പദ്ധതിയിൽ നിന്നാണ് എടുത്തിരിക്കുന്നത് ഔദ്യോഗിക പോസ്റ്റർ.

ഇമേജ് വ്യാഖ്യാനത്തിനുള്ള വേഗതയേറിയ R-CNN മോഡൽ

നൽകിയിരിക്കുന്ന ഇമേജ് സവിശേഷതകൾ V, അടിക്കുറിപ്പ് ജനറേഷൻ സമയത്ത് ഓരോ ഫീച്ചറും തൂക്കിനോക്കാൻ നിർദ്ദിഷ്ട അടിക്കുറിപ്പ് മോഡൽ ഒരു 'സോഫ്റ്റ്' ടോപ്പ്-ഡൗൺ അറ്റൻഷൻ മെക്കാനിസം ഉപയോഗിക്കുന്നു. അപ്പ്-ഡൌൺ അറ്റൻഷൻ മെക്കാനിസമുള്ള എൽഎസ്ടിഎം ആണ് ഇത്. ഓൺ. അപ്പ്-ഡൌൺ അറ്റൻഷൻ മെക്കാനിസമുള്ള എൽഎസ്ടിഎം ആണ് ഇത്. ഉയർന്ന തലത്തിൽ, അടിക്കുറിപ്പ് മോഡൽ രണ്ട് എൽഎസ്ടിഎം പാളികൾ ചേർന്നതാണ്.

ഇമേജ് അടിക്കുറിപ്പ് നൽകുന്നതിനുള്ള മെഷ്ഡ്-മെമ്മറി ട്രാൻസ്ഫോർമർ മോഡൽ

ഇമേജ് അടിക്കുറിപ്പ് ടാസ്ക് പരിഹരിക്കാൻ ഞങ്ങൾ എടുത്ത മറ്റൊരു മോഡൽ മെഷ്ഡ്-മെമ്മറി ട്രാൻസ്ഫോർമർ. ഇതിൽ എൻകോഡർ, ഡീകോഡർ ഭാഗങ്ങൾ അടങ്ങിയിരിക്കുന്നു. അവ രണ്ടും ശ്രദ്ധാപൂർവമായ പാളികളുടെ സ്റ്റാക്കുകൾ കൊണ്ടാണ് നിർമ്മിച്ചിരിക്കുന്നത്. എൻകോഡറിൽ ഫീഡ്-ഫോർവേഡ് ലെയറുകളും ഉൾപ്പെടുന്നു, കൂടാതെ ഡീകോഡറിന് വെയ്റ്റിംഗ് ഉപയോഗിച്ച് പഠിക്കാനാകുന്ന ഒരു സംവിധാനമുണ്ട്.

ചിത്രത്തിന്റെ പ്രദേശങ്ങൾ ഒരു മൾട്ടി-ലെവൽ ഫാഷനിൽ എൻകോഡ് ചെയ്തിരിക്കുന്നു. മോഡൽ താഴ്ന്ന നിലയിലുള്ളതും ഉയർന്ന തലത്തിലുള്ളതുമായ ബന്ധങ്ങൾ കണക്കിലെടുക്കുന്നു. പഠിച്ച അറിവ് മെമ്മറി വെക്റ്ററുകളായി എൻകോഡ് ചെയ്തിരിക്കുന്നു. എൻകോഡർ, ഡീകോഡർ ഭാഗങ്ങളുടെ പാളികൾ ഒരു മെഷ് പോലെയുള്ള ഘടനയിൽ ബന്ധിപ്പിച്ചിരിക്കുന്നു. ഡീകോഡർ ഓരോ എൻകോഡിംഗ് ലെയറിന്റെയും ഔട്ട്പുട്ടിൽ നിന്ന് വായിക്കുകയും വാക്കുകളിൽ സ്വയം ശ്രദ്ധ ചെലുത്തുകയും മൊത്തത്തിലുള്ള എൻകോഡിംഗ് ലെയറുകളെ ക്രോസ് അറ്റൻഷൻ ചെയ്യുകയും ചെയ്യുന്നു.

അതിനാൽ, മോഡലിന് ചിത്രത്തിന്റെ ദൃശ്യ ഉള്ളടക്കം മാത്രമല്ല എൻകോഡറിനെക്കുറിച്ചുള്ള മുൻകൂർ അറിവും ഉപയോഗിക്കാൻ കഴിയും. പദ്ധതികൾ എടുത്തിരിക്കുന്നത് ഔദ്യോഗിക പേപ്പർ.

AI ഇമേജ് അടിക്കുറിപ്പിനുള്ള സ്കീമ മെഷെഡ്-മെമ്മറി ട്രാൻസ്ഫോർമർ മോഡലിനൊപ്പം AI ഇമേജ് അടിക്കുറിപ്പിനുള്ള സ്കീമ
മെഷെഡ്-മെമ്മറി ട്രാൻസ്ഫോർമർ മോഡലിനൊപ്പം AI ഇമേജ് അടിക്കുറിപ്പിനുള്ള സ്കീമ

ഇമേജ് ക്യാപ്ഷനിംഗിനായി രണ്ട് മോഡലുകളുടെ താരതമ്യം

ഞങ്ങളുടെ ഗവേഷണത്തെ അടിസ്ഥാനമാക്കി, ഒരേ ഡാറ്റയിൽ പരിശീലനം ലഭിച്ചതിനാൽ, അപ്-ഡൗൺ മോഡലും M2transform മോഡലും താരതമ്യം ചെയ്യാൻ ഞങ്ങൾക്ക് കഴിയും. ചുവടെയുള്ള പട്ടിക രണ്ട് മോഡലുകളുടെയും സംഗ്രഹം നൽകുന്നു.

പട്ടിക - മൂല്യനിർണ്ണയ അളവുകൾ

BLEU1 BLEU2 സിഡെർ ചുവപ്പ് മെറ്റോർ
അപ്‌ഡൗൺ മോഡൽ 0.8 0.358 1.16 0.573 0.275
എം 2 ട്രാൻസ്ഫോർമർ 0.8078 0.3834 1.278 0.58 0.2876

പട്ടിക - അനുമാന സമയവും മെമ്മറിയും

കാലം മെമ്മറി
സിപിയു ജിപിയു സിപിയു ജിപിയു
അപ്‌ഡൗൺ മോഡൽ 104.47 17 1479mb 1181mb
എം 2 ട്രാൻസ്ഫോർമർ 23 മീ 32 സെ 3 മി 16 സെ 1423mb 1310mb

ഇമേജ് അടിക്കുറിപ്പ്: ഫലങ്ങളുടെ വിശകലനവും ഭാവി സാധ്യതകളും

ഉപയോഗിച്ച രണ്ട് മോഡലുകളും നല്ല ഫലങ്ങൾ കാണിച്ചു. അവരുടെ സഹായത്തോടെ, ഞങ്ങളുടെ ഡാറ്റാസെറ്റിൽ നിന്നുള്ള മിക്ക ചിത്രങ്ങൾക്കും അർത്ഥവത്തായ അടിക്കുറിപ്പുകൾ സൃഷ്ടിക്കാൻ കഴിയും. കൂടാതെ, ഫാസ്റ്റർ-ആർ‌സി‌എൻ‌എൻ ഉപയോഗിച്ച് മുൻകൂട്ടി എക്‌സ്‌ട്രാക്റ്റുചെയ്യുന്ന സവിശേഷതയ്ക്ക് നന്ദി, വലിയ വിഷ്വൽ ജീനോം ഡാറ്റാസെറ്റിൽ മുൻകൂട്ടി പരിശീലിപ്പിച്ചതിനാൽ, മോഡലിന് ആളുകളുടെ ദൈനംദിന ജീവിതത്തിൽ നിന്ന് നിരവധി വസ്തുക്കളും പ്രവർത്തനങ്ങളും തിരിച്ചറിയാനും അതിനാൽ അവ ശരിയായി വിവരിക്കാനും കഴിയും.

എന്താണ് വ്യത്യാസം?

അപ്‌ഡൗൺ മോഡൽ M2Transformer നെക്കാൾ വേഗതയുള്ളതും ഭാരം കുറഞ്ഞതുമാണ്. കാരണം, എൻകോഡറും ഡീകോഡറും തമ്മിലുള്ള അധിക (“മെഷ്ഡ്”) കണക്ഷനുകൾ, മുൻകാല അനുഭവം ഓർമ്മിക്കുന്നതിന് മെമ്മറി വെക്‌ടറുകൾ എന്നിവ പോലുള്ള കൂടുതൽ സാങ്കേതിക വിദ്യകൾ M2Transformer ഉപയോഗിക്കുന്നു. കൂടാതെ, ഈ മോഡലുകൾ ശ്രദ്ധയുടെ വ്യത്യസ്ത സംവിധാനങ്ങൾ ഉപയോഗിക്കുന്നു.

അപ്‌ഡൗൺ അറ്റൻഷൻ ഒറ്റ പാസിൽ നിർവഹിക്കാൻ കഴിയും, അതേസമയം M2Transformer-ൽ ഉപയോഗിക്കുന്ന മൾട്ടി-ഹെഡഡ് അറ്റൻഷൻ പലതവണ സമാന്തരമായി പ്രവർത്തിക്കണം. എന്നിരുന്നാലും, ലഭിച്ച മെട്രിക്സ് അനുസരിച്ച്, M2Transormer മികച്ച ഫലങ്ങൾ കൈവരിച്ചു. അതിന്റെ സഹായത്തോടെ, നമുക്ക് കൂടുതൽ ശരിയായതും വ്യത്യസ്തവുമായ അടിക്കുറിപ്പുകൾ സൃഷ്ടിക്കാൻ കഴിയും. M2Transformer പ്രവചനങ്ങളിൽ ഡാറ്റാസെറ്റിൽ നിന്നുള്ള ചിത്രങ്ങൾക്കും മറ്റ് ചില അനുബന്ധ ചിത്രങ്ങൾക്കും വിവരണത്തിൽ കുറച്ച് കൃത്യതകളുണ്ട്. അതിനാൽ, ഇത് പ്രധാന ചുമതല നന്നായി നിർവഹിക്കുന്നു.

ഞങ്ങൾ രണ്ട് മോഡലുകൾ താരതമ്യം ചെയ്തു, എന്നാൽ ചിത്രത്തിന് അടിക്കുറിപ്പ് നൽകുന്നതിനുള്ള മറ്റ് സമീപനങ്ങളും ഉണ്ട്. ഡീകോഡറും എൻകോഡറും മാറ്റാനും വിവിധ വേഡ് വെക്റ്ററുകൾ ഉപയോഗിക്കാനും ഡാറ്റാസെറ്റുകൾ സംയോജിപ്പിക്കാനും ട്രാൻസ്ഫർ ലേണിംഗ് പ്രയോഗിക്കാനും സാധിക്കും.

കാഴ്ച പ്രശ്‌നങ്ങളുള്ള ആളുകൾക്കുള്ള ഒരു ആപ്ലിക്കേഷനായോ അല്ലെങ്കിൽ ഇ-കൊമേഴ്‌സ് പ്ലാറ്റ്‌ഫോമുകളിൽ ഉൾച്ചേർത്ത അധിക ടൂളുകളായോ, പ്രത്യേക ബിസിനസിന് അനുയോജ്യമായ മികച്ച ഫലങ്ങൾ നേടുന്നതിന് മോഡൽ മെച്ചപ്പെടുത്താം. ഈ ലക്ഷ്യം നേടുന്നതിന്, മോഡലിന് പ്രസക്തമായ ഡാറ്റാസെറ്റുകളിൽ പരിശീലനം നൽകണം. ഉദാഹരണത്തിന്, തുണിയെ ശരിയായി വിവരിക്കുന്നതിനുള്ള ഒരു സംവിധാനത്തിന്, വസ്ത്രങ്ങൾ ഉപയോഗിച്ച് ഡാറ്റാസെറ്റുകളിൽ പരിശീലനം നടത്തുന്നത് നല്ലതാണ്.

പ്ലേറ്റോഅയ്. വെബ് 3 പുനർ‌ചിന്തനം. ഡാറ്റ ഇന്റലിജൻസ് വർദ്ധിപ്പിച്ചു.
ആക്സസ് ചെയ്യുന്നതിന് ഇവിടെ ക്ലിക്കുചെയ്യുക.

ഉറവിടം: https://www.iotforall.com/deep-learning-image-captioning-technology-for-business-applications

സ്പോട്ട്_ഐഎംജി

ഏറ്റവും പുതിയ ഇന്റലിജൻസ്

സ്പോട്ട്_ഐഎംജി