क्या आपने कभी चाहा है कि आपकी स्थिर तस्वीरें बोल सकें या गा सकें? ईएमओ से मिलें, इमोट पोर्ट्रेट अलाइव का संक्षिप्त रूप। अलीबाबा के इंस्टीट्यूट फॉर इंटेलिजेंट कंप्यूटिंग के शोधकर्ताओं द्वारा विकसित, ईएमओ एक कृत्रिम बुद्धिमत्ता प्रणाली है जिसे ऐसा करने के लिए डिज़ाइन किया गया है।
ईएमओ एनीमेशन के लिए एक अनूठा दृष्टिकोण अपनाता है, ऑडियो को सीधे वीडियो फ्रेम में परिवर्तित करके जटिल 3डी मॉडल को दरकिनार करता है। इसका मतलब है कि आपके एनिमेटेड वीडियो एक ही फोटो और ऑडियो क्लिप से भाषण या गीत की प्राकृतिक गतिविधियों और अभिव्यक्तियों को बरकरार रखते हैं।
अलीबाबा एआई: इमोट पोर्ट्रेट अलाइव (ईएमओ) क्या है?
ईएमओ, या इमोट पोर्ट्रेट अलाइव, अलीबाबा के इंस्टीट्यूट फॉर इंटेलिजेंट कंप्यूटिंग के शोधकर्ताओं द्वारा विकसित एक कृत्रिम बुद्धिमत्ता प्रणाली है। इसका प्राथमिक कार्य है स्थिर पोर्ट्रेट फ़ोटो को चेतन करें, ऐसे वीडियो बनाना जहां विषय यथार्थवादी रूप से बात करता या गाता हुआ प्रतीत होता है।
जो बात ईएमओ को अलग करती है वह इन एनिमेशनों को उत्पन्न करने का उसका दृष्टिकोण है। पारंपरिक तरीकों पर भरोसा करने के बजाय, जो अक्सर मानव अभिव्यक्ति की बारीकियों को पकड़ने के लिए संघर्ष करते हैं, ईएमओ सीधे ऑडियो तरंगों को वीडियो फ्रेम में परिवर्तित करता है। इसका मतलब यह है कि एनिमेशन उत्पन्न करने के लिए इसे मध्यवर्ती 3डी मॉडल या चेहरे के स्थलों की आवश्यकता नहीं है। इसके बजाय, यह प्राकृतिक भाषण से जुड़ी सूक्ष्म चेहरे की गतिविधियों और व्यक्तिगत चेहरे की शैलियों को पकड़ने पर ध्यान केंद्रित करता है।
बस 👀 में
यह अब तक का सबसे अद्भुत ऑडियो2वीडियो है जो मैंने देखा है।
इसे ईएमओ: इमोट पोर्ट्रेट अलाइव कहा जाता है pic.twitter.com/3b1AQMzPYu- स्टेल्फी द टाइम ट्रैवलर (@StelfieTT) फ़रवरी 28, 2024
ईएमओ को सशक्त बनाने वाली तकनीक एक प्रसार मॉडल पर आधारित है, जो यथार्थवादी सिंथेटिक इमेजरी उत्पन्न करने की अपनी क्षमता के लिए प्रसिद्ध है। सिस्टम को प्रशिक्षित करने के लिए, शोधकर्ताओं ने भाषणों, फिल्मों, टीवी शो और संगीत प्रदर्शन सहित विभिन्न स्रोतों से बात करने वाले वीडियो के एक बड़े डेटासेट का उपयोग किया। यह व्यापक प्रशिक्षण ईएमओ को विषय की पहचान बनाए रखते हुए और अभिव्यंजना व्यक्त करते हुए उच्च गुणवत्ता वाले वीडियो बनाने में सक्षम बनाता है।
वार्तालाप वीडियो बनाने के अलावा, ईएमओ गायन चित्रों को भी चेतन कर सकता है। स्वरों के साथ मुंह के आकार और चेहरे के भावों को सिंक्रनाइज़ करके विभिन्न शैलियों और अवधियों में गायन वीडियो बनाए जा सकते हैं।
जबकि ईएमओ का विकास वैयक्तिकृत वीडियो सामग्री निर्माण के लिए रोमांचक संभावनाएं प्रस्तुत करता है, यह नैतिक चिंताओं को भी बढ़ाता है। दुरुपयोग का जोखिम है, जैसे कि वेष बदलने का कार्य या का प्रसार झूठी खबर. इसलिए, ऐसी प्रौद्योगिकी की तैनाती को सावधानी से करना और यह सुनिश्चित करना आवश्यक है कि इन नैतिक चिंताओं को दूर करने के लिए उचित सुरक्षा उपाय मौजूद हैं।
पिका लिप सिंक AI-जनित वीडियो को भी बातूनी बनाता है
ईएमओ कैसे काम करता है?
ईएमओ प्रणाली दो मुख्य चरणों में संचालित होती है: फ्रेम्स एन्कोडिंग और डिफ्यूजन प्रक्रिया।
- फ़्रेम एन्कोडिंग: एनीमेशन की नींव स्थापित करने के लिए संदर्भ छवियों और गति फ़्रेमों से सुविधाएँ निकालता है।
- प्रसार प्रक्रिया: ऑडियो इनपुट को संसाधित करने के लिए पूर्व-प्रशिक्षित ऑडियो एनकोडर का उपयोग करता है। यह एनीमेशन पीढ़ी के लिए मल्टी-फ्रेम शोर के साथ चेहरे के क्षेत्र के मुखौटे को एकीकृत करता है। बैकबोन नेटवर्क संदर्भ-ध्यान और ऑडियो-ध्यान तंत्र द्वारा सहायता प्राप्त एनिमेशन को प्रदर्शित करता है। टेम्पोरल मॉड्यूल गति वेग को समायोजित करते हैं।
आप ईएमओ के साथ क्या कर सकते हैं?
ईएमओ जीवंत एनिमेटेड वीडियो बनाने, वैयक्तिकृत और अभिव्यंजक सामग्री निर्माण की संभावनाओं का विस्तार करने के लिए एक बहुमुखी उपकरण प्रदान करता है, जैसे:
- गायन: गायन के ऑडियो इनपुट के साथ समन्वयित भावपूर्ण चेहरे के भावों के साथ मुखर अवतार वीडियो तैयार करता है।
- भाषा एवं शैली: विविध भाषाओं और पोर्ट्रेट शैलियों का समर्थन करता है, गतिशील अवतार एनिमेशन के लिए टोनल विविधताओं को कैप्चर करता है।
- तीव्र लय: तेज गति वाली लय के साथ चरित्र एनिमेशन का सिंक्रनाइज़ेशन सुनिश्चित करता है।
- बात कर रहे: विभिन्न भाषाओं और शैलियों में बोले गए ऑडियो इनपुट के जवाब में चित्रों को एनिमेट करता है।
- क्रॉस-अभिनेता प्रदर्शन: फिल्मों या अन्य मीडिया के पात्रों को बहुभाषी और बहुसांस्कृतिक संदर्भों में चित्रित करता है।
संक्षेप में, ईएमओ, जिसे इमोट पोर्ट्रेट अलाइव के नाम से भी जाना जाता है, एनीमेशन तकनीक में एक महत्वपूर्ण प्रगति है। यह स्थिर चित्रों को जीवंत वीडियो में बदल सकता है जहां विषय यथार्थवादी रूप से बात करते या गाते दिखाई देते हैं। ईएमओ ऑडियो को सीधे वीडियो फ्रेम में परिवर्तित करके, चेहरे के भाव और गतिविधियों को सटीक रूप से कैप्चर करके इसे प्राप्त करता है। जबकि ईएमओ गतिशील दृश्य सामग्री बनाने के लिए रोमांचक संभावनाएं प्रदान करता है, इसके संभावित दुरुपयोग के बारे में नैतिक चिंताओं को संबोधित किया जाना चाहिए। फिर भी, ईएमओ स्थिर छवियों को जीवन में लाने के लिए एक मूल्यवान उपकरण प्रस्तुत करता है और भविष्य में दृश्य मीडिया के साथ हमारी बातचीत के तरीके को संभावित रूप से बदल सकता है।
अधिक विस्तृत जानकारी के लिए, यहाँ उत्पन्न करें इसका शोध पत्र है.
विशेष रुप से प्रदर्शित छवि क्रेडिट: ईएमओ: इमोट पोर्ट्रेट अलाइव रिसर्च
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
- प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- प्लेटोईएसजी. कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
- प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
- स्रोत: https://dataconomy.com/2024/02/29/emote-portrait-alive-emo-alibaba-ai/