छवि पर दर्शाए गए पिक्सेल के अनुक्रम को आर्टिफिशियल इंटेलिजेंस वाले शब्दों में बदलने के लिए लागू की गई तकनीकें पांच या अधिक साल पहले की तरह कच्ची नहीं हैं। बेहतर प्रदर्शन, सटीकता और विश्वसनीयता सोशल मीडिया से लेकर ई-कॉमर्स तक - विभिन्न क्षेत्रों में सहज और कुशल छवि कैप्शनिंग संभव बनाती है। टैग का स्वत: निर्माण एक डाउनलोड की गई तस्वीर से मेल खाता है। यह तकनीक नेत्रहीन लोगों को अपने आसपास की दुनिया की खोज करने में मदद कर सकती है।
इस लेख में इमेज कैप्शनिंग तकनीक, इसकी मूल संरचना, फायदे और नुकसान के उपयोग के मामलों को शामिल किया गया है। साथ ही, हम एक मॉडल को तैनात करते हैं जो इनपुट छवि पर प्रदर्शित होने वाले अर्थपूर्ण विवरण बनाने में सक्षम है।
दृष्टि-भाषा के उद्देश्य के रूप में, कंप्यूटर विज़न और एनएलपी की मदद से इमेज कैप्शनिंग को हल किया जा सकता है। लक्ष्य तक पहुँचने के लिए AI भाग CNNs (कन्वेंशनल न्यूरल नेटवर्क) और RNN (आवर्तक तंत्रिका नेटवर्क) या किसी भी लागू मॉडल को ऑनबोर्ड करता है।
तकनीकी विवरण पर आगे बढ़ने से पहले, आइए जानें कि इमेज कैप्शनिंग कहां है।
AI- संचालित छवि टैगिंग और विवरण मामलों का उपयोग करें
"छवि कैप्शनिंग मुख्य कंप्यूटर दृष्टि क्षमताओं में से एक है जो सेवाओं की एक विस्तृत श्रृंखला को सक्षम कर सकती है," ने कहा ज़ुएदोंग हुआंग, एक माइक्रोसॉफ्ट तकनीकी साथी और रेडमंड, वाशिंगटन में एज़ूर एआई संज्ञानात्मक सेवाओं के सीटीओ।
उनके पास एक बिंदु है क्योंकि पहले से ही इमेज कैप्शनिंग तकनीक के लिए क्षेत्रों का विशाल दायरा है, अर्थात्: ई-कॉमर्स के लिए इमेज टैगिंग, फोटो शेयरिंग सेवाएं और ऑनलाइन कैटलॉग।
इस मामले में, फोटो द्वारा टैग का स्वत: निर्माण किया जा रहा है। उदाहरण के लिए, यह उपयोगकर्ताओं के जीवन को सरल बना सकता है जब वे एक ऑनलाइन कैटलॉग में एक छवि अपलोड करते हैं। इस मामले में, एआई छवि को पहचानता है और विशेषताएँ उत्पन्न करता है - ये हस्ताक्षर, श्रेणियां या विवरण हो सकते हैं। तकनीक ऑनलाइन स्टोर के लिए आइटम, सामग्री, रंग, पैटर्न और कपड़ों के प्रकार का निर्धारण भी कर सकती है।
उसी समय, छवि कैप्शनिंग को फोटो-शेयरिंग सेवा या किसी ऑनलाइन कैटलॉग द्वारा लागू किया जा सकता है ताकि एसईओ या श्रेणीबद्ध उद्देश्यों के लिए तस्वीर का एक स्वचालित अर्थपूर्ण विवरण तैयार किया जा सके। इसके अलावा, कैप्शन यह जाँचने की अनुमति देते हैं कि क्या छवि उस प्लेटफ़ॉर्म के नियमों के अनुकूल है जहाँ इसे प्रकाशित किया जा रहा है। यहां यह सीएनएन वर्गीकरण के विकल्प के रूप में कार्य करता है और यातायात और राजस्व बढ़ाने में मदद करता है।
नोट: वीडियो के लिए विवरण बनाना बहुत अधिक जटिल कार्य है। फिर भी, प्रौद्योगिकी की वर्तमान स्थिति पहले से ही इसे संभव बनाती है।
नेत्रहीन लोगों के लिए स्वचालित छवि एनोटेशन
इस तरह के समाधान को विकसित करने के लिए, हमें चित्र को टेक्स्ट में और फिर आवाज में बदलने की जरूरत है। ये डीप लर्निंग तकनीक के दो प्रसिद्ध अनुप्रयोग हैं।
नामक एक ऐप एआई देख रहे हैं माइक्रोसॉफ्ट द्वारा विकसित आंखों की समस्या वाले लोगों को स्मार्टफोन का उपयोग करके अपने आसपास की दुनिया को देखने की अनुमति देता है। जब कैमरे की ओर इशारा किया जाता है तो प्रोग्राम टेक्स्ट पढ़ सकता है और ध्वनि संकेत देता है। यह मुद्रित और हस्तलिखित दोनों पाठों को पहचान सकता है, साथ ही वस्तुओं और लोगों की पहचान कर सकता है।
गूगल एक उपकरण भी पेश किया जो छवि के लिए एक पाठ विवरण बना सकता है, जिससे नेत्रहीन लोगों या जिन्हें दृष्टि की समस्या है, वे छवि या ग्राफिक के संदर्भ को समझ सकते हैं। इस मशीन लर्निंग टूल में कई परतें होती हैं। पहला मॉडल चित्र में टेक्स्ट और हस्तलिखित अंकों को पहचानता है। फिर एक अन्य मॉडल आसपास की दुनिया की साधारण वस्तुओं को पहचानता है - जैसे कार, पेड़, जानवर, आदि। और तीसरी परत एक उन्नत मॉडल है जो पूर्ण पाठ विवरण में मुख्य विचार को खोजने में सक्षम है।
सोशल मीडिया के लिए एआई इमेज कैप्शनिंग
एआई-आधारित टूल की मदद से तैयार किया गया इमेज कैप्शन फेसबुक और इंस्टाग्राम के लिए पहले से ही उपलब्ध है। इसके अलावा, मॉडल हर समय स्मार्ट हो जाता है, नई वस्तुओं, क्रियाओं और पैटर्न को पहचानना सीखता है।
फेसबुक ने लगभग पांच साल पहले ऑल्ट टेक्स्ट विवरण बनाने में सक्षम एक प्रणाली बनाई थी। आजकल, यह और अधिक सटीक हो गया है। पहले, यह सामान्य शब्दों का उपयोग करके एक छवि का वर्णन करता था, लेकिन अब यह प्रणाली एक विस्तृत विवरण उत्पन्न कर सकती है।
एआई के साथ लोगो की पहचान
इमेज कैप्शनिंग तकनीक को अन्य एआई तकनीकों के साथ भी तैनात किया जा रहा है। उदाहरण के लिए, डीपलोगो एक तंत्रिका नेटवर्क है जो टेंसरफ्लो ऑब्जेक्ट डिटेक्शन एपीआई पर आधारित है। और यह लोगोटाइप को पहचान सकता है। पहचाने गए लोगोटाइप का नाम छवि पर कैप्शन के रूप में दिखाई देता है। NS अनुसंधान GAN- आधारित लोगोटाइप संश्लेषण मॉडल पर प्रकाश ला सकता है कि GAN कैसे काम करता है।
इमेज कैप्शनिंग के लिए डीप लर्निंग मॉडल पर शोध करना
हमने एक मॉडल लागू किया जो संभावित उपयोग के मामलों को ध्यान में रखते हुए चित्रों के लिए एक सार्थक टेक्स्ट विवरण बनाता है। उदाहरण के लिए, कैप्शन एक क्रिया और वस्तुओं का वर्णन कर सकता है जो प्रत्येक छवि पर मुख्य वस्तुएं हैं। प्रशिक्षण के लिए, हमने Microsoft COCO 2014 डेटासेट का उपयोग किया।
COCO डेटासेट बड़े पैमाने पर ऑब्जेक्ट डिटेक्शन, सेगमेंटेशन और कैप्शनिंग डेटासेट है। इसमें लगभग 1.5 मिलियन विभिन्न वस्तुएं हैं जिन्हें 80 श्रेणियों में विभाजित किया गया है। प्रत्येक छवि को पांच मानव-जनित कैप्शन के साथ एनोटेट किया गया है।
हमने आवेदन किया Andrej Karpathy का प्रशिक्षण, सत्यापन, और परीक्षण विभाजन डेटासेट को प्रशिक्षित करने, सत्यापित करने और भागों का परीक्षण करने के लिए विभाजित करने के लिए। इसके अलावा, हमें परिणामों का मूल्यांकन करने के लिए BLEU, ROUGE, METEOR, CIDEr, SPICE जैसे मेट्रिक्स की आवश्यकता थी।
छवि कैप्शनिंग के लिए एमएल मॉडल की तुलना करना
आमतौर पर, इमेज कैप्शनिंग के लिए बेसलाइन आर्किटेक्चर इनपुट को एक निश्चित रूप में एन्कोड करता है और इसे शब्द दर शब्द, अनुक्रम में डीकोड करता है।
एनकोडर तीन रंग चैनलों के साथ इनपुट छवि को "सीखा" चैनलों के साथ एक छोटे प्रिंट में एन्कोड करता है। यह छोटी एन्कोडेड छवि उन सभी का सारांश प्रतिनिधित्व है जो मूल छवि में उपयोगी है। एन्कोडिंग के लिए, किसी भी सीएनएन आर्किटेक्चर को लागू किया जा सकता है। इसके अलावा, हम एन्कोडर भाग के लिए स्थानांतरण सीखने का उपयोग कर सकते हैं।
डिकोडर एन्कोडेड छवि को देखता है और शब्द दर शब्द कैप्शन उत्पन्न करता है। फिर, प्रत्येक पूर्वानुमानित शब्द का उपयोग अगला पद बनाने के लिए किया जाता है।
आगे बढ़ने से पहले, एक नज़र डालें कि मेशेड-मेमोरी ट्रांसफार्मर मॉडल के साथ मॉडल निर्माण और परीक्षण के परिणामस्वरूप हमें क्या मिला है।
एआई-आधारित छवि कैप्शनिंग
हमने उन उदाहरणों का भी अध्ययन किया जिनके कारण त्रुटियां हुईं। त्रुटियाँ प्रकट होने के कई कारण हैं। सबसे आम गलतियाँ खराब छवि गुणवत्ता और प्रारंभिक डेटासेट में कुछ तत्वों की अनुपस्थिति हैं। मॉडल को सामान्य चित्रों वाले डेटासेट पर प्रशिक्षित किया गया था, इसलिए जब वह सामग्री को नहीं जानता है या उसे सही ढंग से पहचान नहीं सकता है तो वह गलतियाँ करता है। यह ठीक उसी तरह है जैसे मानव मस्तिष्क काम करता है।
तंत्रिका नेटवर्क कैसे काम करते हैं, यह बताने के लिए यहां एक और मामला है। डेटासेट मॉडल में कोई बाघ नहीं थे। इसके बजाय, एआई ने अपने द्वारा ज्ञात निकटतम वस्तु को चुना - यह बिल्कुल वैसा ही है, जैसा कि हमारा मस्तिष्क अज्ञात के साथ व्यवहार करता है।
इमेज कैप्शनिंग के लिए अप-डाउन अटेंशन मॉडल
तुलना करने वाला यह पहला मॉडल है। अप-डाउन मैकेनिज्म बॉटम-अप और टॉप-डाउन अटेंशन मैकेनिज्म को जोड़ती है।
ऑब्जेक्ट डिटेक्शन और इमेज कैप्शनिंग कार्यों के बीच संबंध स्थापित करने के लिए तेज़ आर-सीएनएन का उपयोग किया जाता है। क्षेत्र प्रस्ताव मॉडल क्रॉस-डोमेन ज्ञान का लाभ उठाने के कारण ऑब्जेक्ट डिटेक्शन डेटासेट पर पूर्व-प्रशिक्षित है। इसके अलावा, कुछ अन्य ध्यान तंत्रों के विपरीत, दोनों मॉडल अप-डाउन तंत्र के साथ एक-पास ध्यान का उपयोग करते हैं।
छवि सुविधा निष्कर्षण के लिए तेज़ R-CNN (अंजीर 5a) का उपयोग किया जाता है। फास्टर आर-सीएनएन एक ऑब्जेक्ट डिटेक्शन मॉडल है जिसे कुछ वर्गों से संबंधित वस्तुओं की पहचान करने और उन्हें बाउंडिंग बॉक्स के साथ स्थानीयकृत करने के लिए डिज़ाइन किया गया है। तेज़ आर-सीएनएन दो चरणों में वस्तुओं का पता लगाता है।
क्षेत्र प्रस्ताव नेटवर्क (RPN) के रूप में वर्णित पहला चरण, वस्तु प्रस्तावों की भविष्यवाणी करता है। इंटरसेक्शन-ओवर-यूनियन (IoU) थ्रेशोल्ड के साथ लालची गैर-अधिकतम दमन का उपयोग करते हुए, शीर्ष बॉक्स प्रस्तावों को दूसरे चरण में इनपुट के रूप में चुना जाता है।
दूसरे चरण में, रुचि के क्षेत्र (आरओआई) पूलिंग का उपयोग प्रत्येक बॉक्स प्रस्ताव के लिए एक छोटा फीचर मैप (जैसे 14×14) निकालने के लिए किया जाता है। इन फीचर मैप्स को फिर CNN की अंतिम परतों में इनपुट के रूप में एक साथ बैच किया जाता है। इस प्रकार, अंतिम मॉडल आउटपुट में प्रत्येक बॉक्स प्रस्ताव के लिए क्लास लेबल और क्लास-विशिष्ट बाउंडिंग बॉक्स परिशोधन पर सॉफ्टमैक्स वितरण होता है। योजना से लिया गया है आधिकारिक पोस्टर।
छवि सुविधाओं V को देखते हुए, प्रस्तावित कैप्शनिंग मॉडल कैप्शन निर्माण के दौरान प्रत्येक सुविधा को तौलने के लिए एक 'सॉफ्ट' टॉप-डाउन अटेंशन मैकेनिज्म का उपयोग करता है। यह एक अतिरिक्त अप-डाउन ध्यान तंत्र के साथ LSTM है। पर। यह एक अतिरिक्त अप-डाउन ध्यान तंत्र के साथ LSTM है। उच्च स्तर पर, कैप्शनिंग मॉडल दो LSTM परतों से बना होता है।
इमेज कैप्शनिंग के लिए मेशेड-मेमोरी ट्रांसफार्मर मॉडल
एक और मॉडल जिसे हमने इमेज कैप्शनिंग टास्क को हल करने के लिए लिया है, वह है मेशेड-मेमोरी ट्रांसफार्मर. इसमें एनकोडर और डिकोडर भाग होते हैं। ये दोनों चौकस परतों के ढेर से बने हैं। एन्कोडर में फीड-फ़ॉरवर्ड परतें भी शामिल हैं, और डिकोडर में भारोत्तोलन के साथ एक सीखने योग्य तंत्र है।
छवि के क्षेत्र बहु-स्तरीय फ़ैशन में एन्कोड किए गए हैं। मॉडल निम्न-स्तरीय और उच्च-स्तरीय संबंधों दोनों को ध्यान में रखता है। सीखा हुआ ज्ञान मेमोरी वैक्टर के रूप में एन्कोड किया गया है। एन्कोडर और डिकोडर भागों की परतें एक जाल जैसी संरचना में जुड़ी हुई हैं। डिकोडर प्रत्येक एन्कोडिंग परत के आउटपुट से पढ़ता है और शब्दों पर आत्म-ध्यान करता है और समग्र एन्कोडिंग परतों पर ध्यान देता है, जिसके बाद परिणाम संशोधित और सारांशित होते हैं।
इसलिए, मॉडल न केवल छवि की दृश्य सामग्री का उपयोग कर सकता है बल्कि एन्कोडर के पूर्व ज्ञान का भी उपयोग कर सकता है। योजनाओं से लिया जाता है आधिकारिक कागज.
छवि कैप्शनिंग के लिए दो मॉडलों की तुलना
हमारे शोध के आधार पर, हम अप-डाउन मॉडल और M2transform मॉडल की तुलना करने में सक्षम हैं, क्योंकि उन्हें एक ही डेटा पर प्रशिक्षित किया गया था। नीचे दी गई तालिका दोनों मॉडलों का सारांश प्रदान करती है।
तालिका - मूल्यांकन मेट्रिक्स
BLEU1 | BLEU2 | साइडर | लाल | उल्का | |
अपडाउन मॉडल | 0.8 | 0.358 | 1.16 | 0.573 | 0.275 |
M2ट्रांसफॉर्मर | 0.8078 | 0.3834 | 1.278 | 0.58 | 0.2876 |
तालिका - अनुमान समय और स्मृति
पहर | याद | |||
सी पी यू | GPU | सी पी यू | GPU | |
अपडाउन मॉडल | 104.47s | 17s | 1479mb | 1181mb |
M2ट्रांसफॉर्मर | १४ मीटर ३८.४१६ सेकंड | 3 मी 16 एस | 1423mb | 1310mb |
छवि कैप्शनिंग: परिणाम विश्लेषण और भविष्य की संभावनाएं
दोनों प्रयुक्त मॉडलों ने काफी अच्छे परिणाम दिखाए। उनकी मदद से, हम अपने डेटासेट से अधिकांश छवियों के लिए सार्थक कैप्शन तैयार कर सकते हैं। इसके अलावा, फास्टर-आरसीएनएन के साथ पूर्व-निकालने की सुविधा के लिए धन्यवाद, विशाल विज़ुअल जीनोम डेटासेट पर पूर्व-प्रशिक्षित, मॉडल लोगों के रोजमर्रा के जीवन से कई वस्तुओं और कार्यों को पहचान सकता है और इसलिए उनका सही वर्णन कर सकता है।
अंतर क्या है?
अपडाउन मॉडल M2Transformer की तुलना में तेज़ और अधिक हल्का है। इसका कारण यह है कि M2Transformer अधिक तकनीकों का उपयोग करता है, जैसे एनकोडर और डिकोडर के बीच अतिरिक्त ("मेष") कनेक्शन, और पिछले अनुभव को याद रखने के लिए मेमोरी वैक्टर। साथ ही, ये मॉडल ध्यान के विभिन्न तंत्रों का उपयोग करते हैं।
अपडाउन ध्यान एक ही पास में किया जा सकता है, जबकि M2Transformer में उपयोग किया जाने वाला बहु-सिर वाला ध्यान समानांतर में कई बार चलना चाहिए। हालाँकि, प्राप्त मेट्रिक्स के अनुसार, M2Transormer ने बेहतर परिणाम प्राप्त किए। इसकी सहायता से हम अधिक सही और विविध अनुशीर्षक उत्पन्न कर सकते हैं। M2Transformer भविष्यवाणियों में डेटासेट से चित्रों और कुछ अन्य संबंधित छवियों के लिए विवरण में कम अशुद्धियाँ होती हैं। इसलिए, यह मुख्य कार्य को बेहतर ढंग से करता है।
हमने दो मॉडलों की तुलना की, लेकिन छवि कैप्शनिंग के कार्य के लिए अन्य दृष्टिकोण भी हैं। डिकोडर और एनकोडर को बदलना, विभिन्न शब्द वैक्टर का उपयोग करना, डेटासेट को संयोजित करना और ट्रांसफर लर्निंग को लागू करना संभव है।
विशेष व्यवसाय के लिए उपयुक्त बेहतर परिणाम प्राप्त करने के लिए मॉडल में सुधार किया जा सकता है, या तो दृष्टि समस्याओं वाले लोगों के लिए एक आवेदन के रूप में या ई-कॉमर्स प्लेटफॉर्म में एम्बेडेड अतिरिक्त टूल के रूप में। इस लक्ष्य को प्राप्त करने के लिए, मॉडल को प्रासंगिक डेटासेट पर प्रशिक्षित किया जाना चाहिए। उदाहरण के लिए, एक सिस्टम के लिए कपड़े का सही वर्णन करने के लिए, कपड़ों के साथ डेटासेट पर प्रशिक्षण चलाना बेहतर होता है।
प्लेटोए. Web3 फिर से कल्पना की गई। डेटा इंटेलिजेंस प्रवर्धित।
एक्सेस करने के लिए यहां क्लिक करें।
स्रोत: https://www.iotforall.com/deep-learning-image-captioning-technology-for-business-applications