जेफिरनेट लोगो

Google AI ने 30,000 घंटे तक वीडियो गेम देखे-अब यह अपना खुद का गेम बनाता है

दिनांक:

AI प्रचुर मात्रा में प्रकाश और गर्मी उत्पन्न करना जारी रखता है। पाठ और छवियों में सर्वश्रेष्ठ मॉडल - अब सदस्यता ले रहे हैं और उपभोक्ता उत्पादों में शामिल हो रहे हैं - इंच के लिए प्रतिस्पर्धा कर रहे हैं। OpenAI, Google और Anthropic सभी, कमोबेश, गर्दन और गर्दन पर हैं।

इसमें कोई आश्चर्य की बात नहीं है कि एआई शोधकर्ता जेनरेटिव मॉडल को नए क्षेत्र में धकेलना चाह रहे हैं। चूंकि एआई को प्रचुर मात्रा में डेटा की आवश्यकता होती है, इसलिए पूर्वानुमान लगाने का एक तरीका यह है कि चीजें आगे कहां जा रही हैं, यह देखना है कि कौन सा डेटा व्यापक रूप से ऑनलाइन उपलब्ध है, लेकिन अभी भी बड़े पैमाने पर अप्रयुक्त है।

वीडियो, जिसमें प्रचुर मात्रा में है, एक स्पष्ट अगला कदम है। दरअसल, पिछले महीने OpenAI का पूर्वावलोकन किया गया था सोरा नामक एक नया टेक्स्ट-टू-वीडियो AI जिसे देखने वाले दंग रह गए।

लेकिन वीडियो...गेम के बारे में क्या?

पूछें और प्राप्त करें

यह पता चला है कि ऑनलाइन बहुत सारे गेमर वीडियो हैं। Google DeepMind का कहना है कि उसने 30,000 घंटों के क्यूरेटेड वीडियो फ़ुटेज पर एक नए AI, जिनी को प्रशिक्षित किया है, जिसमें गेमर्स को सरल प्लेटफ़ॉर्मर खेलते हुए दिखाया गया है - शुरुआती निनटेंडो गेम के बारे में सोचें - और अब यह स्वयं के उदाहरण बना सकता है.

जिन्न एक साधारण छवि, फोटो या स्केच को एक इंटरैक्टिव वीडियो गेम में बदल देता है।

एक संकेत दिए जाने पर, जैसे किसी पात्र और उसके परिवेश का चित्रण, एआई तब किसी पात्र को उसकी दुनिया में स्थानांतरित करने के लिए खिलाड़ी से इनपुट ले सकता है। एक ब्लॉग पोस्ट में, डीपमाइंड ने जिनी की कृतियों को 2डी परिदृश्यों में नेविगेट करते हुए, चारों ओर घूमते हुए या प्लेटफार्मों के बीच कूदते हुए दिखाया। जैसे एक साँप अपनी पूँछ खा रहा है, इनमें से कुछ दुनियाएँ AI-जनित छवियों से भी प्राप्त की गई थीं।

पारंपरिक वीडियो गेम के विपरीत, जिनी इन इंटरैक्टिव दुनियाओं को फ्रेम दर फ्रेम उत्पन्न करता है। स्थानांतरित करने के लिए एक संकेत और आदेश दिए जाने पर, यह सबसे अधिक संभावित अगले फ़्रेमों की भविष्यवाणी करता है और उन्हें तुरंत बनाता है। इसने लंबन की भावना को शामिल करना भी सीखा, जो प्लेटफ़ॉर्मर्स में एक सामान्य विशेषता है जहां अग्रभूमि पृष्ठभूमि की तुलना में तेज़ी से चलती है।

विशेष रूप से, एआई के प्रशिक्षण में लेबल शामिल नहीं थे। बल्कि, जिनी ने अपने प्रशिक्षण में उदाहरणों को देखकर इनपुट कमांडों को सहसंबंधित करना सीखा - जैसे, बाएं, दाएं जाना या कूदना। यानी, जब किसी वीडियो में कोई पात्र बाईं ओर जाता है, तो कमांड को गति से जोड़ने वाला कोई लेबल नहीं होता है। जिन्न ने उस भाग का स्वयं ही पता लगा लिया। इसका मतलब है, संभावित रूप से, भविष्य के संस्करणों को उतने ही लागू वीडियो पर प्रशिक्षित किया जा सकता है जितना ऑनलाइन उपलब्ध है।

एआई अवधारणा का एक प्रभावशाली प्रमाण है, लेकिन यह अभी भी विकास के शुरुआती दौर में है, और डीपमाइंड अभी तक मॉडल को सार्वजनिक करने की योजना नहीं बना रहा है।

गेम स्वयं एक फ्रेम प्रति सेकंड की गति से स्ट्रीम होने वाली पिक्सेलयुक्त दुनिया हैं। तुलनात्मक रूप से, समकालीन वीडियो गेम प्रति सेकंड 60 या 120 फ्रेम तक पहुंच सकते हैं। इसके अलावा, सभी जेनरेटिव एल्गोरिदम की तरह, जिन्न अजीब या असंगत दृश्य कलाकृतियाँ उत्पन्न करता है। इसमें "अवास्तविक भविष्य" का मतिभ्रम होने का भी खतरा है। टीम ने अपने पेपर में एआई का वर्णन करते हुए लिखा.

जैसा कि कहा गया है, यह विश्वास करने के कुछ कारण हैं कि जिन्न यहां से सुधार करेगा।

व्हिपिंग अप वर्ल्ड्स

क्योंकि एआई बिना लेबल वाले ऑनलाइन वीडियो से सीख सकता है और अभी भी एक मामूली आकार है - केवल 11 बिलियन पैरामीटर - इसे बढ़ाने के पर्याप्त अवसर हैं। अधिक जानकारी पर प्रशिक्षित बड़े मॉडल में नाटकीय रूप से सुधार होता है। और एक के साथ बढ़ते उद्योग ने अनुमान पर ध्यान केंद्रित किया- वह प्रक्रिया जिसके द्वारा एक प्रशिक्षित एआई चित्र या पाठ उत्पन्न करने जैसे कार्य करता है - इसके तेज़ होने की संभावना है।

डीपमाइंड का कहना है कि जिनी पेशेवर डेवलपर्स जैसे लोगों को वीडियो गेम बनाने में मदद कर सकता है। लेकिन OpenAI की तरह - जो मानता है कि सोरा वीडियो से कहीं अधिक है - टीम बड़ी सोच रही है। यह दृष्टिकोण वीडियो गेम से कहीं आगे तक जा सकता है।

एक उदाहरण: एआई जो रोबोट को नियंत्रित कर सकता है. टीम ने विभिन्न कार्यों को पूरा करने वाले रोबोटिक हथियारों के वीडियो पर एक अलग मॉडल का प्रशिक्षण दिया। मॉडल ने रोबोटों में हेरफेर करना और विभिन्न वस्तुओं को संभालना सीखा।

डीपमाइंड ने यह भी कहा कि एआई एजेंटों को प्रशिक्षित करने के लिए जिनी-जनित वीडियो गेम वातावरण का उपयोग किया जा सकता है। यह कोई नई रणनीति नहीं है. 2021 के एक पेपर में दूसरा डीपमाइंड टीम ने XLand नामक एक वीडियो गेम की रूपरेखा तैयार की यह एआई एजेंटों और एआई अधिपति द्वारा चुनौती देने के लिए कार्यों और खेलों को तैयार करने से भरा हुआ था। विचार यह है कि एआई में अगले बड़े कदम के लिए एल्गोरिदम की आवश्यकता होगी जो एक दूसरे को प्रशिक्षित कर सकें या सिंथेटिक प्रशिक्षण डेटा उत्पन्न कर सकें कर्षण प्राप्त करना.

यह सब AI में प्रगति दिखाने के लिए OpenAI और Google के बीच एक तीव्र प्रतिस्पर्धा में नवीनतम चुनौती है। जबकि क्षेत्र में अन्य लोग, एंथ्रोपिक की तरह, GPT-4 जैसे मल्टीमॉडल मॉडल को आगे बढ़ा रहे हैं, Google और OpenAI भी दुनिया का अनुकरण करने वाले एल्गोरिदम पर केंद्रित प्रतीत होते हैं। ऐसे एल्गोरिदम योजना बनाने और बातचीत करने में बेहतर हो सकते हैं। दोनों एआई एजेंटों के लिए महत्वपूर्ण कौशल होंगे, दोनों संगठन उत्पादन करने का इरादा रखते हैं।

शोधकर्ताओं ने लिखा, "जिन्न को उन छवियों के साथ प्रेरित किया जा सकता है जो उसने पहले कभी नहीं देखी हैं, जैसे कि वास्तविक दुनिया की तस्वीरें या रेखाचित्र, जो लोगों को उनकी काल्पनिक आभासी दुनिया के साथ बातचीत करने में सक्षम बनाते हैं - अनिवार्य रूप से एक बुनियादी विश्व मॉडल के रूप में कार्य करते हैं।" जिन्न ब्लॉग पोस्ट. “हम ध्यान केंद्रित करते हैं 2डी प्लेटफ़ॉर्मर गेम और रोबोटिक्स के वीडियो लेकिन हमारी पद्धति सामान्य है और इसे किसी भी प्रकार के डोमेन के लिए काम करना चाहिए, और बड़े इंटरनेट डेटासेट के लिए स्केलेबल है।

इसी तरह, जब ओपनएआई ने पिछले महीने सोरा का पूर्वावलोकन किया, तो शोधकर्ताओं ने सुझाव दिया कि यह कुछ और मूलभूत चीज़ की शुरुआत कर सकता है: एक विश्व सिम्युलेटर। यानी, दोनों टीमें ऑनलाइन वीडियो के विशाल भंडार को एआई को अपने स्वयं के वीडियो बनाने के लिए प्रशिक्षित करने के एक तरीके के रूप में देखती हैं, हां, लेकिन साथ ही ऑनलाइन या ऑफ-दुनिया में अधिक प्रभावी ढंग से समझने और संचालित करने के लिए भी।

क्या यह लाभांश देता है, या दीर्घकालिक टिकाऊ है, यह एक खुला प्रश्न है। मानव मस्तिष्क एक प्रकाश बल्ब जितनी शक्ति पर काम करता है; जेनरेटिव एआई संपूर्ण डेटा केंद्रों का उपयोग करता है। लेकिन बेहतर होगा कि प्रतिभा, तकनीक, दिमाग और नकदी के मामले में अभी काम कर रही ताकतों को कम न आंका जाए, जिसका लक्ष्य न केवल एआई में सुधार करना है बल्कि इसे और अधिक कुशल बनाना है।

हमने टेक्स्ट, चित्र, ऑडियो और तीनों में एक साथ प्रभावशाली प्रगति देखी है। वीडियो बर्तन में फेंकी जाने वाली अगली सामग्री हैं, और वे और भी अधिक शक्तिशाली काढ़ा बना सकते हैं।

छवि क्रेडिट: Google डीपमाइंड

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी