जेफिरनेट लोगो

VideoPoet: Google AI वीडियो निर्माण में प्रभुत्व के लिए OpenAI सोरा और स्टेबल डिफ्यूजन को चुनौती देना चाहता है - टेक स्टार्टअप

दिनांक:

फरवरी में, OpenAI ने बड़ी धूम मचाई सोरा का अनावरण, एक प्रभावशाली AI टूल जो टेक्स्ट प्रॉम्प्ट को आकर्षक वीडियो में बदल सकता है। सोरा के साथ, उपयोगकर्ता संक्षिप्त पाठ संकेतों से एआई शिल्प गतिशील 60-सेकंड के वीडियो देखकर अपने विचारों में जान डाल सकते हैं। लेकिन शहर में एक और खिलाड़ी इंटरनेट पर धूम मचा रहा है: VideoPoet, Google का एक वीडियो जेनरेशन टूल जो तीन महीने पहले ही सामने आया था।

VideoPoet Google रिसर्च के 31 शोधकर्ताओं की एक टीम के दिमाग की उपज है, और यह मल्टीमीडिया निर्माण की दुनिया में एक गेम-चेंजर है। जबकि सोरा पाठ को दृश्य कहानियों में बदलने पर ध्यान केंद्रित करता है, वीडियोपोएट एक अलग दृष्टिकोण अपनाता है। ऑटोरेग्रेसिव भाषा मॉडलिंग और मैग्विट वी2 और साउंडस्ट्रीम जैसे टोकननाइज़र जैसी उन्नत तकनीकों की बदौलत यह टेक्स्ट, छवियों या यहां तक ​​कि मौजूदा वीडियो फुटेज का उपयोग करके यथार्थवादी वीडियो बनाने में उत्कृष्टता प्राप्त करता है। यह बहुमुखी प्रतिभा डिजिटल कला, फिल्म निर्माण और इंटरैक्टिव मीडिया के लिए संभावनाओं की दुनिया खोलती है।

स्रोत: गूगल रिसर्च

VideoPoet को जो चीज़ सबसे अलग बनाती है, वह है इसकी अनूठी वास्तुकला। जबकि कई वीडियो जेनरेशन मॉडल प्रसार-आधारित तरीकों पर भरोसा करते हैं, जिन्हें क्षेत्र में शीर्ष प्रदर्शनकर्ता माना जाता है, Google रिसर्च ने एक अलग रास्ता अपनाया। लोकप्रिय स्थिर प्रसार मॉडल का उपयोग करने के बजाय, Google शोधकर्ताओं ने ट्रांसफॉर्मर आर्किटेक्चर पर आधारित एक बड़े भाषा मॉडल (एलएलएम) को चुना। इस प्रकार का AI मॉडल, जो आमतौर पर टेक्स्ट और कोड जेनरेशन के लिए उपयोग किया जाता है, को वीडियो बनाने के लिए पुन: उपयोग किया गया है - एक साहसिक कदम जो VideoPoet को भीड़ से अलग करता है।

“अधिकांश मौजूदा मॉडल प्रसार-आधारित तरीकों को नियोजित करते हैं जिन्हें अक्सर वीडियो निर्माण में वर्तमान शीर्ष प्रदर्शनकर्ता माना जाता है। ये वीडियो मॉडल आम तौर पर एक पूर्व-प्रशिक्षित छवि मॉडल से शुरू होते हैं, जैसे कि स्थिर प्रसार, जो व्यक्तिगत फ्रेम के लिए उच्च-निष्ठा वाली छवियां तैयार करता है, और फिर वीडियो फ्रेम में अस्थायी स्थिरता में सुधार करने के लिए मॉडल को ठीक करता है, "Google रिसर्च टीम ने अपने पूर्व में लिखा था- समीक्षा शोध पत्र.

VideoPoet क्या है और यह कैसे काम करता है?

इसके मूल में, VideoPoet वीडियो, छवि, ऑडियो और टेक्स्ट जैसे विभिन्न तौर-तरीकों से सीखने के लिए एक ऑटोरेग्रेसिव भाषा मॉडल का उपयोग करता है। यह कई टोकननाइजरों को नियोजित करके संभव बनाया गया है-मैग्विट V2 वीडियो और छवि के लिए, और ऑडियो के लिए साउंडस्ट्रीम।

जब मॉडल किसी दिए गए संदर्भ के आधार पर टोकन उत्पन्न करता है, तो इन टोकन को बाद में संबंधित टोकननाइज़र के डिकोडर का उपयोग करके दृश्य प्रतिनिधित्व में परिवर्तित कर दिया जाता है। यह मीडिया के विभिन्न रूपों के बीच निर्बाध अनुवाद की अनुमति देता है, जिससे सभी तौर-तरीकों में एक सामंजस्यपूर्ण और व्यापक समझ सुनिश्चित होती है। VideoPoet के घटक नीचे दिए गए हैं:

  • पूर्व-प्रशिक्षित MAGVIT V2 और साउंडस्ट्रीम टोकनाइज़र, जो छवियों, वीडियो और ऑडियो क्लिप को कोड के अनुक्रम में अनुवादित करते हैं जिन्हें मॉडल समझ सकता है।
  • एक ऑटोरेग्रेसिव भाषा मॉडल, जो अनुक्रम में अगले टोकन की भविष्यवाणी करने के लिए विभिन्न तौर-तरीकों-वीडियो, छवि, ऑडियो और टेक्स्ट-से सीखता है।
  • टेक्स्ट-टू-वीडियो, टेक्स्ट-टू-इमेज, इमेज-टू-वीडियो और बहुत कुछ सहित जेनरेटिव लर्निंग उद्देश्यों की एक श्रृंखला, जो VideoPoet को विविध और उच्च-गुणवत्ता वाले वीडियो बनाने में सक्षम बनाती है।

क्रांतिकारी विशेषताएँ और क्षमताएँ

सोरा और स्टेबल डिफ्यूज़न की तरह, VideoPoet में कुछ क्रांतिकारी विशेषताएं हैं जो वीडियो निर्माण में एक नया दृष्टिकोण लाती हैं।

हाई-मोशन वेरिएबल-लेंथ वीडियो: पारंपरिक मॉडलों के विपरीत, VideoPoet आसानी से हाई-मोशन वैरिएबल-लंबाई वाले वीडियो तैयार करता है, जो वीडियो निर्माण में संभव की सीमाओं को आगे बढ़ाता है।

क्रॉस-मोडैलिटी लर्निंग: VideoPoet की एक ताकत विभिन्न तौर-तरीकों से सीखने की क्षमता में निहित है। टेक्स्ट, छवियों, वीडियो और ऑडियो के बीच अंतर को पाटकर, VideoPoet एक समग्र समझ प्रदान करता है जो रचनात्मक प्रक्रिया को समृद्ध करता है।

इंटरैक्टिव संपादन क्षमताएँ: VideoPoet सिर्फ वीडियो नहीं बनाता है - यह उपयोगकर्ताओं को इंटरैक्टिव संपादन सुविधाओं से सशक्त बनाता है। इनपुट वीडियो के विस्तार से लेकर गतियों को नियंत्रित करने और टेक्स्ट संकेतों के आधार पर शैलीगत प्रभाव लागू करने तक, यह उपयोगकर्ता के हाथों में रचनात्मक नियंत्रण देता है।

Google का VideoPoet सिर्फ एक वीडियो जेनरेशन टूल से कहीं अधिक है - यह AI की दुनिया में गेम-चेंजर है। एक ही बड़े भाषा मॉडल (एलएलएम) में कई क्षमताओं को सहजता से एकीकृत करके, यह वीडियो निर्माण के परिदृश्य को फिर से परिभाषित करता है। टेक्स्ट, छवि और ऑडियो को संसाधित करने में इसकी बहुमुखी प्रतिभा इसे सामग्री निर्माताओं और एआई उत्साही लोगों के लिए अपरिहार्य बनाती है, जो रचनात्मकता और नवीनता के लिए एक नया मानक स्थापित करती है।

यहां नीचे दिए गए चित्र का उपयोग करके VideoPoet की क्षमताओं का विवरण दिया गया है।

सबसे पहले, इनपुट छवियों को एनीमेशन के साथ जीवंत बनाया जा सकता है, जिससे वीडियो के भीतर गतिशील गति पैदा हो सकती है। इसके अतिरिक्त, उपयोगकर्ताओं के पास कुछ क्षेत्रों को क्रॉप या मास्क करके वीडियो संपादित करने का विकल्प होता है, जिससे निर्बाध इनपेंटिंग या आउटपेंटिंग प्रभाव की अनुमति मिलती है।

जब शैलीकरण की बात आती है, तो मॉडल एक वीडियो का विश्लेषण करके अपना जादू चलाता है जो गहराई और ऑप्टिकल प्रवाह को पकड़ता है - अनिवार्य रूप से, दृश्य के भीतर की गति। इस जानकारी का उपयोग करते हुए, यह टेक्स्ट संकेतों द्वारा निर्देशित शैलीगत तत्वों को लागू करता है, जो वीडियो की समग्र दृश्य अपील को बढ़ाता है।

विस्तार करने के लिए क्लिक करें

लेकिन पर्याप्त तकनीकी शब्दजाल - आइए परिणामों पर बात करें। वीडियोपोएट की क्षमताओं को प्रदर्शित करने के लिए, Google रिसर्च टीम ने एक कहानी कहने वाले एआई, बार्ड के संकेतों के आधार पर एक लघु फिल्म का निर्माण किया। परिणाम? एक यात्रा करने वाले रैकून की एक आकर्षक कहानी, जिसे मनोरम वीडियो क्लिप की एक श्रृंखला के माध्यम से जीवंत किया गया है। यह कहानी कहने में एआई की शक्ति का प्रमाण है, और मल्टीमीडिया निर्माण के भविष्य की एक झलक है।

[एम्बेडेड सामग्री]

ऐसी दुनिया में जहां सामग्री राजा है, सोरा और वीडियोपोएट जैसे उपकरण खेल को बदल रहे हैं, रचनाकारों को अपने विचारों को ऐसे तरीके से जीवन में लाने के लिए सशक्त बना रहे हैं जो पहले कभी संभव नहीं था। अपनी उन्नत क्षमताओं और उपयोगकर्ता-अनुकूल इंटरफेस के साथ, ये एआई-संचालित उपकरण हमारे कहानियों को बताने और वीडियो के माध्यम से खुद को अभिव्यक्त करने के तरीके में क्रांतिकारी बदलाव लाने के लिए तैयार हैं।

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी