जेफिरनेट लोगो

व्यावसायिक अनुप्रयोगों के लिए डीप लर्निंग इमेज कैप्शनिंग टेक्नोलॉजी

दिनांक:

व्यावसायिक अनुप्रयोगों के लिए डीप लर्निंग इमेज कैप्शनिंग टेक्नोलॉजी
चित्रण: © IoT for All

छवि पर दर्शाए गए पिक्सेल के अनुक्रम को आर्टिफिशियल इंटेलिजेंस वाले शब्दों में बदलने के लिए लागू की गई तकनीकें पांच या अधिक साल पहले की तरह कच्ची नहीं हैं। बेहतर प्रदर्शन, सटीकता और विश्वसनीयता सोशल मीडिया से लेकर ई-कॉमर्स तक - विभिन्न क्षेत्रों में सहज और कुशल छवि कैप्शनिंग संभव बनाती है। टैग का स्वत: निर्माण एक डाउनलोड की गई तस्वीर से मेल खाता है। यह तकनीक नेत्रहीन लोगों को अपने आसपास की दुनिया की खोज करने में मदद कर सकती है।

इस लेख में इमेज कैप्शनिंग तकनीक, इसकी मूल संरचना, फायदे और नुकसान के उपयोग के मामलों को शामिल किया गया है। साथ ही, हम एक मॉडल को तैनात करते हैं जो इनपुट छवि पर प्रदर्शित होने वाले अर्थपूर्ण विवरण बनाने में सक्षम है।

दृष्टि-भाषा के उद्देश्य के रूप में, कंप्यूटर विज़न और एनएलपी की मदद से इमेज कैप्शनिंग को हल किया जा सकता है। लक्ष्य तक पहुँचने के लिए AI भाग CNNs (कन्वेंशनल न्यूरल नेटवर्क) और RNN (आवर्तक तंत्रिका नेटवर्क) या किसी भी लागू मॉडल को ऑनबोर्ड करता है।

तकनीकी विवरण पर आगे बढ़ने से पहले, आइए जानें कि इमेज कैप्शनिंग कहां है।

AI- संचालित छवि टैगिंग और विवरण मामलों का उपयोग करें

"छवि कैप्शनिंग मुख्य कंप्यूटर दृष्टि क्षमताओं में से एक है जो सेवाओं की एक विस्तृत श्रृंखला को सक्षम कर सकती है," ने कहा ज़ुएदोंग हुआंग, एक माइक्रोसॉफ्ट तकनीकी साथी और रेडमंड, वाशिंगटन में एज़ूर एआई संज्ञानात्मक सेवाओं के सीटीओ।

उनके पास एक बिंदु है क्योंकि पहले से ही इमेज कैप्शनिंग तकनीक के लिए क्षेत्रों का विशाल दायरा है, अर्थात्: ई-कॉमर्स के लिए इमेज टैगिंग, फोटो शेयरिंग सेवाएं और ऑनलाइन कैटलॉग।

इस मामले में, फोटो द्वारा टैग का स्वत: निर्माण किया जा रहा है। उदाहरण के लिए, यह उपयोगकर्ताओं के जीवन को सरल बना सकता है जब वे एक ऑनलाइन कैटलॉग में एक छवि अपलोड करते हैं। इस मामले में, एआई छवि को पहचानता है और विशेषताएँ उत्पन्न करता है - ये हस्ताक्षर, श्रेणियां या विवरण हो सकते हैं। तकनीक ऑनलाइन स्टोर के लिए आइटम, सामग्री, रंग, पैटर्न और कपड़ों के प्रकार का निर्धारण भी कर सकती है।

उसी समय, छवि कैप्शनिंग को फोटो-शेयरिंग सेवा या किसी ऑनलाइन कैटलॉग द्वारा लागू किया जा सकता है ताकि एसईओ या श्रेणीबद्ध उद्देश्यों के लिए तस्वीर का एक स्वचालित अर्थपूर्ण विवरण तैयार किया जा सके। इसके अलावा, कैप्शन यह जाँचने की अनुमति देते हैं कि क्या छवि उस प्लेटफ़ॉर्म के नियमों के अनुकूल है जहाँ इसे प्रकाशित किया जा रहा है। यहां यह सीएनएन वर्गीकरण के विकल्प के रूप में कार्य करता है और यातायात और राजस्व बढ़ाने में मदद करता है।

नोट: वीडियो के लिए विवरण बनाना बहुत अधिक जटिल कार्य है। फिर भी, प्रौद्योगिकी की वर्तमान स्थिति पहले से ही इसे संभव बनाती है।

नेत्रहीन लोगों के लिए स्वचालित छवि एनोटेशन

इस तरह के समाधान को विकसित करने के लिए, हमें चित्र को टेक्स्ट में और फिर आवाज में बदलने की जरूरत है। ये डीप लर्निंग तकनीक के दो प्रसिद्ध अनुप्रयोग हैं।

नामक एक ऐप एआई देख रहे हैं माइक्रोसॉफ्ट द्वारा विकसित आंखों की समस्या वाले लोगों को स्मार्टफोन का उपयोग करके अपने आसपास की दुनिया को देखने की अनुमति देता है। जब कैमरे की ओर इशारा किया जाता है तो प्रोग्राम टेक्स्ट पढ़ सकता है और ध्वनि संकेत देता है। यह मुद्रित और हस्तलिखित दोनों पाठों को पहचान सकता है, साथ ही वस्तुओं और लोगों की पहचान कर सकता है।

गूगल एक उपकरण भी पेश किया जो छवि के लिए एक पाठ विवरण बना सकता है, जिससे नेत्रहीन लोगों या जिन्हें दृष्टि की समस्या है, वे छवि या ग्राफिक के संदर्भ को समझ सकते हैं। इस मशीन लर्निंग टूल में कई परतें होती हैं। पहला मॉडल चित्र में टेक्स्ट और हस्तलिखित अंकों को पहचानता है। फिर एक अन्य मॉडल आसपास की दुनिया की साधारण वस्तुओं को पहचानता है - जैसे कार, पेड़, जानवर, आदि। और तीसरी परत एक उन्नत मॉडल है जो पूर्ण पाठ विवरण में मुख्य विचार को खोजने में सक्षम है।

सोशल मीडिया के लिए एआई इमेज कैप्शनिंग

एआई-आधारित टूल की मदद से तैयार किया गया इमेज कैप्शन फेसबुक और इंस्टाग्राम के लिए पहले से ही उपलब्ध है। इसके अलावा, मॉडल हर समय स्मार्ट हो जाता है, नई वस्तुओं, क्रियाओं और पैटर्न को पहचानना सीखता है।

फेसबुक ने लगभग पांच साल पहले ऑल्ट टेक्स्ट विवरण बनाने में सक्षम एक प्रणाली बनाई थी। आजकल, यह और अधिक सटीक हो गया है। पहले, यह सामान्य शब्दों का उपयोग करके एक छवि का वर्णन करता था, लेकिन अब यह प्रणाली एक विस्तृत विवरण उत्पन्न कर सकती है।

एआई के साथ लोगो की पहचान

इमेज कैप्शनिंग तकनीक को अन्य एआई तकनीकों के साथ भी तैनात किया जा रहा है। उदाहरण के लिए, डीपलोगो एक तंत्रिका नेटवर्क है जो टेंसरफ्लो ऑब्जेक्ट डिटेक्शन एपीआई पर आधारित है। और यह लोगोटाइप को पहचान सकता है। पहचाने गए लोगोटाइप का नाम छवि पर कैप्शन के रूप में दिखाई देता है। NS अनुसंधान GAN- आधारित लोगोटाइप संश्लेषण मॉडल पर प्रकाश ला सकता है कि GAN कैसे काम करता है।

इमेज कैप्शनिंग के लिए डीप लर्निंग मॉडल पर शोध करना

हमने एक मॉडल लागू किया जो संभावित उपयोग के मामलों को ध्यान में रखते हुए चित्रों के लिए एक सार्थक टेक्स्ट विवरण बनाता है। उदाहरण के लिए, कैप्शन एक क्रिया और वस्तुओं का वर्णन कर सकता है जो प्रत्येक छवि पर मुख्य वस्तुएं हैं। प्रशिक्षण के लिए, हमने Microsoft COCO 2014 डेटासेट का उपयोग किया।

COCO डेटासेट बड़े पैमाने पर ऑब्जेक्ट डिटेक्शन, सेगमेंटेशन और कैप्शनिंग डेटासेट है। इसमें लगभग 1.5 मिलियन विभिन्न वस्तुएं हैं जिन्हें 80 श्रेणियों में विभाजित किया गया है। प्रत्येक छवि को पांच मानव-जनित कैप्शन के साथ एनोटेट किया गया है।

हमने आवेदन किया Andrej Karpathy का प्रशिक्षण, सत्यापन, और परीक्षण विभाजन डेटासेट को प्रशिक्षित करने, सत्यापित करने और भागों का परीक्षण करने के लिए विभाजित करने के लिए। इसके अलावा, हमें परिणामों का मूल्यांकन करने के लिए BLEU, ROUGE, METEOR, CIDEr, SPICE जैसे मेट्रिक्स की आवश्यकता थी।

छवि कैप्शनिंग के लिए एमएल मॉडल की तुलना करना

आमतौर पर, इमेज कैप्शनिंग के लिए बेसलाइन आर्किटेक्चर इनपुट को एक निश्चित रूप में एन्कोड करता है और इसे शब्द दर शब्द, अनुक्रम में डीकोड करता है।

एनकोडर तीन रंग चैनलों के साथ इनपुट छवि को "सीखा" चैनलों के साथ एक छोटे प्रिंट में एन्कोड करता है। यह छोटी एन्कोडेड छवि उन सभी का सारांश प्रतिनिधित्व है जो मूल छवि में उपयोगी है। एन्कोडिंग के लिए, किसी भी सीएनएन आर्किटेक्चर को लागू किया जा सकता है। इसके अलावा, हम एन्कोडर भाग के लिए स्थानांतरण सीखने का उपयोग कर सकते हैं।

डिकोडर एन्कोडेड छवि को देखता है और शब्द दर शब्द कैप्शन उत्पन्न करता है। फिर, प्रत्येक पूर्वानुमानित शब्द का उपयोग अगला पद बनाने के लिए किया जाता है।

आगे बढ़ने से पहले, एक नज़र डालें कि मेशेड-मेमोरी ट्रांसफार्मर मॉडल के साथ मॉडल निर्माण और परीक्षण के परिणामस्वरूप हमें क्या मिला है।

इमेज कैप्शनिंग के लिए डीप लर्निंग मॉडल का उपयोग करने का उदाहरण
इमेज कैप्शनिंग के लिए डीप लर्निंग मॉडल का उपयोग करने का उदाहरण
इमेज कैप्शनिंग के लिए डीप लर्निंग मॉडल का उपयोग करने का उदाहरण

एआई-आधारित छवि कैप्शनिंग

हमने उन उदाहरणों का भी अध्ययन किया जिनके कारण त्रुटियां हुईं। त्रुटियाँ प्रकट होने के कई कारण हैं। सबसे आम गलतियाँ खराब छवि गुणवत्ता और प्रारंभिक डेटासेट में कुछ तत्वों की अनुपस्थिति हैं। मॉडल को सामान्य चित्रों वाले डेटासेट पर प्रशिक्षित किया गया था, इसलिए जब वह सामग्री को नहीं जानता है या उसे सही ढंग से पहचान नहीं सकता है तो वह गलतियाँ करता है। यह ठीक उसी तरह है जैसे मानव मस्तिष्क काम करता है।

एआई इमेज कैप्शनिंग द्वारा की गई त्रुटियां
एआई इमेज कैप्शनिंग मॉडल द्वारा की गई एक त्रुटि

तंत्रिका नेटवर्क कैसे काम करते हैं, यह बताने के लिए यहां एक और मामला है। डेटासेट मॉडल में कोई बाघ नहीं थे। इसके बजाय, एआई ने अपने द्वारा ज्ञात निकटतम वस्तु को चुना - यह बिल्कुल वैसा ही है, जैसा कि हमारा मस्तिष्क अज्ञात के साथ व्यवहार करता है।

तंत्रिका नेटवर्क अज्ञात वस्तुओं को कैप्शन देने का काम करते हैं

इमेज कैप्शनिंग के लिए अप-डाउन अटेंशन मॉडल

तुलना करने वाला यह पहला मॉडल है। अप-डाउन मैकेनिज्म बॉटम-अप और टॉप-डाउन अटेंशन मैकेनिज्म को जोड़ती है।

ऑब्जेक्ट डिटेक्शन और इमेज कैप्शनिंग कार्यों के बीच संबंध स्थापित करने के लिए तेज़ आर-सीएनएन का उपयोग किया जाता है। क्षेत्र प्रस्ताव मॉडल क्रॉस-डोमेन ज्ञान का लाभ उठाने के कारण ऑब्जेक्ट डिटेक्शन डेटासेट पर पूर्व-प्रशिक्षित है। इसके अलावा, कुछ अन्य ध्यान तंत्रों के विपरीत, दोनों मॉडल अप-डाउन तंत्र के साथ एक-पास ध्यान का उपयोग करते हैं।

छवि सुविधा निष्कर्षण के लिए तेज़ R-CNN (अंजीर 5a) का उपयोग किया जाता है। फास्टर आर-सीएनएन एक ऑब्जेक्ट डिटेक्शन मॉडल है जिसे कुछ वर्गों से संबंधित वस्तुओं की पहचान करने और उन्हें बाउंडिंग बॉक्स के साथ स्थानीयकृत करने के लिए डिज़ाइन किया गया है। तेज़ आर-सीएनएन दो चरणों में वस्तुओं का पता लगाता है।

क्षेत्र प्रस्ताव नेटवर्क (RPN) के रूप में वर्णित पहला चरण, वस्तु प्रस्तावों की भविष्यवाणी करता है। इंटरसेक्शन-ओवर-यूनियन (IoU) थ्रेशोल्ड के साथ लालची गैर-अधिकतम दमन का उपयोग करते हुए, शीर्ष बॉक्स प्रस्तावों को दूसरे चरण में इनपुट के रूप में चुना जाता है।

दूसरे चरण में, रुचि के क्षेत्र (आरओआई) पूलिंग का उपयोग प्रत्येक बॉक्स प्रस्ताव के लिए एक छोटा फीचर मैप (जैसे 14×14) निकालने के लिए किया जाता है। इन फीचर मैप्स को फिर CNN की अंतिम परतों में इनपुट के रूप में एक साथ बैच किया जाता है। इस प्रकार, अंतिम मॉडल आउटपुट में प्रत्येक बॉक्स प्रस्ताव के लिए क्लास लेबल और क्लास-विशिष्ट बाउंडिंग बॉक्स परिशोधन पर सॉफ्टमैक्स वितरण होता है। योजना से लिया गया है आधिकारिक पोस्टर।

छवि एनोटेशन के लिए तेज़ आर-सीएनएन मॉडल

छवि सुविधाओं V को देखते हुए, प्रस्तावित कैप्शनिंग मॉडल कैप्शन निर्माण के दौरान प्रत्येक सुविधा को तौलने के लिए एक 'सॉफ्ट' टॉप-डाउन अटेंशन मैकेनिज्म का उपयोग करता है। यह एक अतिरिक्त अप-डाउन ध्यान तंत्र के साथ LSTM है। पर। यह एक अतिरिक्त अप-डाउन ध्यान तंत्र के साथ LSTM है। उच्च स्तर पर, कैप्शनिंग मॉडल दो LSTM परतों से बना होता है।

इमेज कैप्शनिंग के लिए मेशेड-मेमोरी ट्रांसफार्मर मॉडल

एक और मॉडल जिसे हमने इमेज कैप्शनिंग टास्क को हल करने के लिए लिया है, वह है मेशेड-मेमोरी ट्रांसफार्मर. इसमें एनकोडर और डिकोडर भाग होते हैं। ये दोनों चौकस परतों के ढेर से बने हैं। एन्कोडर में फीड-फ़ॉरवर्ड परतें भी शामिल हैं, और डिकोडर में भारोत्तोलन के साथ एक सीखने योग्य तंत्र है।

छवि के क्षेत्र बहु-स्तरीय फ़ैशन में एन्कोड किए गए हैं। मॉडल निम्न-स्तरीय और उच्च-स्तरीय संबंधों दोनों को ध्यान में रखता है। सीखा हुआ ज्ञान मेमोरी वैक्टर के रूप में एन्कोड किया गया है। एन्कोडर और डिकोडर भागों की परतें एक जाल जैसी संरचना में जुड़ी हुई हैं। डिकोडर प्रत्येक एन्कोडिंग परत के आउटपुट से पढ़ता है और शब्दों पर आत्म-ध्यान करता है और समग्र एन्कोडिंग परतों पर ध्यान देता है, जिसके बाद परिणाम संशोधित और सारांशित होते हैं।

इसलिए, मॉडल न केवल छवि की दृश्य सामग्री का उपयोग कर सकता है बल्कि एन्कोडर के पूर्व ज्ञान का भी उपयोग कर सकता है। योजनाओं से लिया जाता है आधिकारिक कागज.

एआई इमेज कैप्शनिंग के लिए स्कीमा एआई इमेज के लिए स्कीमा मेशेड-मेमोरी ट्रांसफॉर्मर मॉडल के साथ कैप्शनिंग
मेशेड-मेमोरी ट्रांसफॉर्मर मॉडल के साथ एआई इमेज कैप्शनिंग के लिए स्कीमा

छवि कैप्शनिंग के लिए दो मॉडलों की तुलना

हमारे शोध के आधार पर, हम अप-डाउन मॉडल और M2transform मॉडल की तुलना करने में सक्षम हैं, क्योंकि उन्हें एक ही डेटा पर प्रशिक्षित किया गया था। नीचे दी गई तालिका दोनों मॉडलों का सारांश प्रदान करती है।

तालिका - मूल्यांकन मेट्रिक्स

BLEU1 BLEU2 साइडर लाल उल्का
अपडाउन मॉडल 0.8 0.358 1.16 0.573 0.275
M2ट्रांसफॉर्मर 0.8078 0.3834 1.278 0.58 0.2876

तालिका - अनुमान समय और स्मृति

पहर याद
सी पी यू GPU सी पी यू GPU
अपडाउन मॉडल 104.47s 17s 1479mb 1181mb
M2ट्रांसफॉर्मर १४ मीटर ३८.४१६ सेकंड 3 मी 16 एस 1423mb 1310mb

छवि कैप्शनिंग: परिणाम विश्लेषण और भविष्य की संभावनाएं

दोनों प्रयुक्त मॉडलों ने काफी अच्छे परिणाम दिखाए। उनकी मदद से, हम अपने डेटासेट से अधिकांश छवियों के लिए सार्थक कैप्शन तैयार कर सकते हैं। इसके अलावा, फास्टर-आरसीएनएन के साथ पूर्व-निकालने की सुविधा के लिए धन्यवाद, विशाल विज़ुअल जीनोम डेटासेट पर पूर्व-प्रशिक्षित, मॉडल लोगों के रोजमर्रा के जीवन से कई वस्तुओं और कार्यों को पहचान सकता है और इसलिए उनका सही वर्णन कर सकता है।

अंतर क्या है?

अपडाउन मॉडल M2Transformer की तुलना में तेज़ और अधिक हल्का है। इसका कारण यह है कि M2Transformer अधिक तकनीकों का उपयोग करता है, जैसे एनकोडर और डिकोडर के बीच अतिरिक्त ("मेष") कनेक्शन, और पिछले अनुभव को याद रखने के लिए मेमोरी वैक्टर। साथ ही, ये मॉडल ध्यान के विभिन्न तंत्रों का उपयोग करते हैं।

अपडाउन ध्यान एक ही पास में किया जा सकता है, जबकि M2Transformer में उपयोग किया जाने वाला बहु-सिर वाला ध्यान समानांतर में कई बार चलना चाहिए। हालाँकि, प्राप्त मेट्रिक्स के अनुसार, M2Transormer ने बेहतर परिणाम प्राप्त किए। इसकी सहायता से हम अधिक सही और विविध अनुशीर्षक उत्पन्न कर सकते हैं। M2Transformer भविष्यवाणियों में डेटासेट से चित्रों और कुछ अन्य संबंधित छवियों के लिए विवरण में कम अशुद्धियाँ होती हैं। इसलिए, यह मुख्य कार्य को बेहतर ढंग से करता है।

हमने दो मॉडलों की तुलना की, लेकिन छवि कैप्शनिंग के कार्य के लिए अन्य दृष्टिकोण भी हैं। डिकोडर और एनकोडर को बदलना, विभिन्न शब्द वैक्टर का उपयोग करना, डेटासेट को संयोजित करना और ट्रांसफर लर्निंग को लागू करना संभव है।

विशेष व्यवसाय के लिए उपयुक्त बेहतर परिणाम प्राप्त करने के लिए मॉडल में सुधार किया जा सकता है, या तो दृष्टि समस्याओं वाले लोगों के लिए एक आवेदन के रूप में या ई-कॉमर्स प्लेटफॉर्म में एम्बेडेड अतिरिक्त टूल के रूप में। इस लक्ष्य को प्राप्त करने के लिए, मॉडल को प्रासंगिक डेटासेट पर प्रशिक्षित किया जाना चाहिए। उदाहरण के लिए, एक सिस्टम के लिए कपड़े का सही वर्णन करने के लिए, कपड़ों के साथ डेटासेट पर प्रशिक्षण चलाना बेहतर होता है।

प्लेटोए. Web3 फिर से कल्पना की गई। डेटा इंटेलिजेंस प्रवर्धित।
एक्सेस करने के लिए यहां क्लिक करें।

स्रोत: https://www.iotforall.com/deep-learning-image-captioning-technology-for-business-applications

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी

हमारे साथ चैट करें

नमस्ते! मैं आपकी कैसे मदद कर सकता हूँ?