जेफिरनेट लोगो

ईएमओ आपकी तस्वीरों को बात करने देता है

दिनांक:

क्या आपने कभी चाहा है कि आपकी स्थिर तस्वीरें बोल सकें या गा सकें? ईएमओ से मिलें, इमोट पोर्ट्रेट अलाइव का संक्षिप्त रूप। अलीबाबा के इंस्टीट्यूट फॉर इंटेलिजेंट कंप्यूटिंग के शोधकर्ताओं द्वारा विकसित, ईएमओ एक कृत्रिम बुद्धिमत्ता प्रणाली है जिसे ऐसा करने के लिए डिज़ाइन किया गया है।

ईएमओ एनीमेशन के लिए एक अनूठा दृष्टिकोण अपनाता है, ऑडियो को सीधे वीडियो फ्रेम में परिवर्तित करके जटिल 3डी मॉडल को दरकिनार करता है। इसका मतलब है कि आपके एनिमेटेड वीडियो एक ही फोटो और ऑडियो क्लिप से भाषण या गीत की प्राकृतिक गतिविधियों और अभिव्यक्तियों को बरकरार रखते हैं।

पोर्ट्रेट एनिमेशन में क्रांति लाने वाले अलीबाबा एआई अनुसंधान ईएमओ से मिलें! स्थिर फ़ोटो से लेकर भाषण या गीत तक, इमोट पोर्ट्रेट अलाइव सभी को संभाल सकता है।
ईएमओ, या इमोट पोर्ट्रेट अलाइव, स्थिर पोर्ट्रेट फ़ोटो को एनिमेट करने के लिए एक एआई प्रणाली है (छवि क्रेडिट)

अलीबाबा एआई: इमोट पोर्ट्रेट अलाइव (ईएमओ) क्या है?

ईएमओ, या इमोट पोर्ट्रेट अलाइव, अलीबाबा के इंस्टीट्यूट फॉर इंटेलिजेंट कंप्यूटिंग के शोधकर्ताओं द्वारा विकसित एक कृत्रिम बुद्धिमत्ता प्रणाली है। इसका प्राथमिक कार्य है स्थिर पोर्ट्रेट फ़ोटो को चेतन करें, ऐसे वीडियो बनाना जहां विषय यथार्थवादी रूप से बात करता या गाता हुआ प्रतीत होता है।

जो बात ईएमओ को अलग करती है वह इन एनिमेशनों को उत्पन्न करने का उसका दृष्टिकोण है। पारंपरिक तरीकों पर भरोसा करने के बजाय, जो अक्सर मानव अभिव्यक्ति की बारीकियों को पकड़ने के लिए संघर्ष करते हैं, ईएमओ सीधे ऑडियो तरंगों को वीडियो फ्रेम में परिवर्तित करता है। इसका मतलब यह है कि एनिमेशन उत्पन्न करने के लिए इसे मध्यवर्ती 3डी मॉडल या चेहरे के स्थलों की आवश्यकता नहीं है। इसके बजाय, यह प्राकृतिक भाषण से जुड़ी सूक्ष्म चेहरे की गतिविधियों और व्यक्तिगत चेहरे की शैलियों को पकड़ने पर ध्यान केंद्रित करता है।

ईएमओ को सशक्त बनाने वाली तकनीक एक प्रसार मॉडल पर आधारित है, जो यथार्थवादी सिंथेटिक इमेजरी उत्पन्न करने की अपनी क्षमता के लिए प्रसिद्ध है। सिस्टम को प्रशिक्षित करने के लिए, शोधकर्ताओं ने भाषणों, फिल्मों, टीवी शो और संगीत प्रदर्शन सहित विभिन्न स्रोतों से बात करने वाले वीडियो के एक बड़े डेटासेट का उपयोग किया। यह व्यापक प्रशिक्षण ईएमओ को विषय की पहचान बनाए रखते हुए और अभिव्यंजना व्यक्त करते हुए उच्च गुणवत्ता वाले वीडियो बनाने में सक्षम बनाता है।

वार्तालाप वीडियो बनाने के अलावा, ईएमओ गायन चित्रों को भी चेतन कर सकता है। स्वरों के साथ मुंह के आकार और चेहरे के भावों को सिंक्रनाइज़ करके विभिन्न शैलियों और अवधियों में गायन वीडियो बनाए जा सकते हैं।

पोर्ट्रेट एनिमेशन में क्रांति लाने वाले अलीबाबा एआई अनुसंधान ईएमओ से मिलें! स्थिर फ़ोटो से लेकर भाषण या गीत तक, इमोट पोर्ट्रेट अलाइव सभी को संभाल सकता है।
(छवि क्रेडिट)

जबकि ईएमओ का विकास वैयक्तिकृत वीडियो सामग्री निर्माण के लिए रोमांचक संभावनाएं प्रस्तुत करता है, यह नैतिक चिंताओं को भी बढ़ाता है। दुरुपयोग का जोखिम है, जैसे कि वेष बदलने का कार्य या का प्रसार झूठी खबर. इसलिए, ऐसी प्रौद्योगिकी की तैनाती को सावधानी से करना और यह सुनिश्चित करना आवश्यक है कि इन नैतिक चिंताओं को दूर करने के लिए उचित सुरक्षा उपाय मौजूद हैं।


पिका लिप सिंक AI-जनित वीडियो को भी बातूनी बनाता है


ईएमओ कैसे काम करता है?

ईएमओ प्रणाली दो मुख्य चरणों में संचालित होती है: फ्रेम्स एन्कोडिंग और डिफ्यूजन प्रक्रिया।

  • फ़्रेम एन्कोडिंग: एनीमेशन की नींव स्थापित करने के लिए संदर्भ छवियों और गति फ़्रेमों से सुविधाएँ निकालता है।
  • प्रसार प्रक्रिया: ऑडियो इनपुट को संसाधित करने के लिए पूर्व-प्रशिक्षित ऑडियो एनकोडर का उपयोग करता है। यह एनीमेशन पीढ़ी के लिए मल्टी-फ्रेम शोर के साथ चेहरे के क्षेत्र के मुखौटे को एकीकृत करता है। बैकबोन नेटवर्क संदर्भ-ध्यान और ऑडियो-ध्यान तंत्र द्वारा सहायता प्राप्त एनिमेशन को प्रदर्शित करता है। टेम्पोरल मॉड्यूल गति वेग को समायोजित करते हैं।

आप ईएमओ के साथ क्या कर सकते हैं?

ईएमओ जीवंत एनिमेटेड वीडियो बनाने, वैयक्तिकृत और अभिव्यंजक सामग्री निर्माण की संभावनाओं का विस्तार करने के लिए एक बहुमुखी उपकरण प्रदान करता है, जैसे:

  • गायन: गायन के ऑडियो इनपुट के साथ समन्वयित भावपूर्ण चेहरे के भावों के साथ मुखर अवतार वीडियो तैयार करता है।
पोर्ट्रेट एनिमेशन में क्रांति लाने वाले अलीबाबा एआई अनुसंधान ईएमओ से मिलें! स्थिर फ़ोटो से लेकर भाषण या गीत तक, इमोट पोर्ट्रेट अलाइव सभी को संभाल सकता है।
ईएमओ ऑडियो को सीधे वीडियो फ्रेम में परिवर्तित करके 3डी मॉडल को बायपास करता है (छवि क्रेडिट)
  • भाषा एवं शैली: विविध भाषाओं और पोर्ट्रेट शैलियों का समर्थन करता है, गतिशील अवतार एनिमेशन के लिए टोनल विविधताओं को कैप्चर करता है।
  • तीव्र लय: तेज गति वाली लय के साथ चरित्र एनिमेशन का सिंक्रनाइज़ेशन सुनिश्चित करता है।
  • बात कर रहे: विभिन्न भाषाओं और शैलियों में बोले गए ऑडियो इनपुट के जवाब में चित्रों को एनिमेट करता है।
  • क्रॉस-अभिनेता प्रदर्शन: फिल्मों या अन्य मीडिया के पात्रों को बहुभाषी और बहुसांस्कृतिक संदर्भों में चित्रित करता है।

संक्षेप में, ईएमओ, जिसे इमोट पोर्ट्रेट अलाइव के नाम से भी जाना जाता है, एनीमेशन तकनीक में एक महत्वपूर्ण प्रगति है। यह स्थिर चित्रों को जीवंत वीडियो में बदल सकता है जहां विषय यथार्थवादी रूप से बात करते या गाते दिखाई देते हैं। ईएमओ ऑडियो को सीधे वीडियो फ्रेम में परिवर्तित करके, चेहरे के भाव और गतिविधियों को सटीक रूप से कैप्चर करके इसे प्राप्त करता है। जबकि ईएमओ गतिशील दृश्य सामग्री बनाने के लिए रोमांचक संभावनाएं प्रदान करता है, इसके संभावित दुरुपयोग के बारे में नैतिक चिंताओं को संबोधित किया जाना चाहिए। फिर भी, ईएमओ स्थिर छवियों को जीवन में लाने के लिए एक मूल्यवान उपकरण प्रस्तुत करता है और भविष्य में दृश्य मीडिया के साथ हमारी बातचीत के तरीके को संभावित रूप से बदल सकता है।

अधिक विस्तृत जानकारी के लिए, यहाँ उत्पन्न करें इसका शोध पत्र है.

विशेष रुप से प्रदर्शित छवि क्रेडिट: ईएमओ: इमोट पोर्ट्रेट अलाइव रिसर्च

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी