شعار زيفيرنت

أخبار سيئة لمطوري الألعاب، Google Genie يسعى وراء وظائفكم

التاريخ:

استعد للدخول إلى عالم من الخيال الخالص، لأن Google Genie وصل ليجعل أحلامك حقيقة افتراضية!

في الأسبوع الماضي، أذهلنا OpenAI جميعًا بأداة إنشاء الفيديو المتقدمة، سورا آيوالآن يعمل نموذج الذكاء الاصطناعي الرائد من Google على تحويل الصور البسيطة إلى بيئات افتراضية قابلة للتشغيل بالكامل.

نعم، يمكنك الآن صياغة لعبة منصات ثنائية الأبعاد كاملة بنقرة من معصمك (أو لمسة من لوحة المفاتيح، على الأقل).

تيم روكتاشيل، قائد فريق النهاية المفتوحة في جوجل العقل العميق، تم الإعلان عن ميلاد Google Genie على X بالكلمات التالية:

ما هو جوجل جيني؟

غالبًا ما يتطلب تصميم الألعاب التقليدية مهارات برمجية معقدة. مع Google Genie، تم تقليل الحواجز التقنية بشكل كبير. يتعامل الذكاء الاصطناعي مع العمليات المعقدة لتحويل فكرتك إلى بيئة افتراضية قابلة للتشغيل، مما يتيح لك التركيز على متعة الإبداع الخالصة.

يعد Google Genie في طليعة تكنولوجيا الذكاء الاصطناعي، ويصنف على أنه “نموذج العالم التأسيسي".

وهذا يعني أنه قد تم تدريبه على مجموعة بيانات ضخمة من مقاطع الفيديو على الإنترنت، خاصة تلك التي تعرض أسلوب اللعب. من خلال هذا التدريب، يطور جيني فهمًا عميقًا لكيفية عمل البيئات وكيفية تفاعل اللاعبين معها عادةً.

فكر في Google Genie باعتباره مساعدك الشخصي لتطوير الألعاب. كل ما عليك فعله هو توفير نقطة بداية ويمكن أن تكون:

  • an صورة
  • a وصف مكتوب
  • a رسم بسيط مرسومة باليد

بعد ذلك، يأخذ Google Genie مدخلاتك ويستخدم قوته الإبداعية لإنشاء مساحة افتراضية فريدة وقابلة للتشغيل بالكامل.

السحر الحقيقي هنا هو أن Google Genie يتعلم كيفية الإنشاء عوالم افتراضية يمكن التحكم فيها دون تعليمات لعب محددة. يقوم بتحليل مقاطع الفيديو لفهم القواعد الأساسية للبيئات وما يمكن للاعبين التفاعل معه. ومن اللافت للنظر أن هذا يسمح بخطط تحكم متسقة حتى عبر عوالم جديدة تمامًا تم إنشاؤها بواسطة الذكاء الاصطناعي.

ما هو جوجل جيني وكيفية استخدامه
باستخدام خوارزميات معقدة، يقوم Google Genie بتحويل الصور الثابتة إلى ألعاب قابلة للعب (الصورة الائتمان)

سحر جوجل DeepMind

جوجل DeepMind تمكن من صدمتنا بكل ما يفعله تقريبًا وGoogle Genie ليس استثناءً.

إن دماغ Google Genie مبني على نوع خاص من المحولات يسمى أ المحول الزماني المكاني (ST).. على عكس المحولات العادية المصممة للنص، يتم ضبط محولات ST خصيصًا لفهم مقاطع الفيديو. إنهم يهتمون بما يحدث داخل كل إطار فردي (الانتباه المكاني) وأيضًا كيفية تغير الأشياء عبر إطارات متعددة بمرور الوقت (الانتباه الزمني). وهذا يجعلها أفضل بكثير في التعامل مع الأنماط المعقدة الموجودة في الصور المتحركة.

تتكون مقاطع الفيديو من عدد كبير من وحدات البكسل، وهو ما يمكن أن يمثل عددًا كبيرًا من العناصر التي يمكن للنموذج التعامل معها. الجني يستخدم رمزًا مميزًا للفيديو لسحق تلك الإطارات المليئة بالبكسل وصولاً إلى أجزاء أصغر وأسهل في المعالجة تسمى الرموز المميزة. فكر في الأمر مثل ترجمة فيلم كامل إلى سلسلة من الرموز الأساسية. هذا التبسيط يجعل عملية إنشاء الفيديو بأكملها أكثر سلاسة وأسرع.

يشبه LAM المحقق داخل Google Genie. فهو يشاهد مقاطع الفيديو ويحاول اكتشاف الأحداث غير المعلنة التي تحدث بين الإطارات. يعد هذا أمرًا مهمًا لأنه إذا كنت تريد التحكم في كيفية تشغيل مقطع فيديو تم إنشاؤه، فأنت بحاجة إلى فهم الإجراءات التي تدفعه. نظرًا لأن مقاطع الفيديو من الإنترنت لا تأتي مع تصنيفات عمل، فيجب على LAM أن يتعلم اكتشاف هذه الأشياء بنفسه.

نموذج ديناميكي هو قلب قوة صناعة الفيديو في Google Genie. فهو يأخذ رموز الفيديو والإجراءات المكتشفة من LAM ويستخدمها للتنبؤ بالشكل الذي يجب أن يبدو عليه الإطار التالي للفيديو. إنه مثل وجود كرة بلورية يمكنها أن تظهر لك الخطوة التالية في الفيلم بناءً على ما حدث حتى الآن والإجراء الذي تريد اتخاذه.

VQ-VAE هي تقنية رائعة تساعد Google Genie في تنظيم المعلومات. إنه يشبه إلى حد ما إعطاء كل من رمز الفيديو و LAM كتاب رموز خاصًا لترجمة الأشياء إلى أجزاء أصغر وأكثر قابلية للإدارة. وهذا يجعل التعلم وتمثيل الأنماط المعقدة في مقاطع الفيديو أكثر كفاءة.

ما هو جوجل جيني وكيفية استخدامه
النموذج الديناميكي المستخدم في Google Genie يتنبأ وينشئ الإطار التالي للفيديو، مما يحافظ على استمرار اللعب (الصورة الائتمان)

فيما يلي ملخص لسير عمل Google Genie:

  1. استنتاج الفعل الكامن:
    1. التشفير: يأخذ في تسلسل الفيديو. يقوم بإنشاء تمثيلات مستمرة تتعلق بالإجراءات التي تحدث بين الإطارات
    2. فك: هذا المكون موجود فقط للتدريب. يتنبأ بالإطار التالي الفعلي باستخدام الإطارات السابقة والإجراءات الكامنة التي ينتجها برنامج التشفير. يساعد هذا في تدريب LAM لإنشاء تمثيلات عمل ذات معنى
    3. VQ-VAE: يتم قياس الإجراءات الكامنة المتوقعة في مجموعة صغيرة من الرموز المنفصلة. وهذا يضمن مفردات عمل محدودة، مما يجعل التحكم البشري أثناء عملية التوليد أسهل
  2. ترميز الفيديو:
    1. أداة ترميز الفيديو المعتمدة على ST-Transformer (ST-ViViT): يتضمن المعلومات المكانية والزمانية أثناء مرحلة الترميز. يؤدي ذلك إلى تحسين جودة إنشاء الفيديو مقارنةً بالرموز المميزة المكانية فقط
  3. النمذجة الديناميكية:
    1. محول ماسك جيت: يستخدم Genie متغير وحدة فك التشفير فقط من بنية MaskGIT
    2. إدخال: في كل خطوة، يتلقى كلاً من رموز الفيديو السابقة والإجراء الكامن المقابل
    3. الناتج: يتنبأ بالرموز التي تمثل الإطار التالي
    4. قادة الإيمان: تم التدريب على خسارة الإنتروبيا المتقاطعة لمحاذاة الرموز المميزة المتوقعة مع الرموز الحقيقية من الفيديو. يتم استخدام الإخفاء في وقت التدريب لتحسين المتانة
  4. الإستنباط:
    1. التهيئة: يوفر المستخدم إطار صورة أوليًا، يتم ترميزه
    2. اختيار العمل: يختار المستخدم الإجراء المطلوب من المفردات المنفصلة التي تعلمها خلال مرحلة LAM
    3. تنبؤ: يقوم النموذج الديناميكي بإنشاء الرموز المميزة للإطار التالي بناءً على الرموز المميزة للإطار الأولي والإجراء المختار
    4. فك: تقوم وحدة فك ترميز الفيديو المميزة بتحويل الرموز المميزة المتوقعة مرة أخرى إلى إطار فيديو
    5. الانحدار التلقائي: تتكرر العملية، حيث يصبح الإطار الذي تم إنشاؤه حديثًا والإجراء الجديد المحدد من قبل المستخدم بمثابة مدخل للتنبؤ التالي

تريد معرفة المزيد؟ هنا ورقة بحث جوجل جيني.

ما هو جوجل جيني وكيفية استخدامه
يلمح Google Genie إلى مستقبل تكون فيه مشاركة لعبتك المخصصة أمرًا سهلاً مثل مشاركة الصورة (الصورة الائتمان)

كيفية استخدام جوجل جيني

بينما Google Genie ليس متاحًا للاستخدام العام بعد، يمكنك العثور على مزيد من المعلومات و عروض توضيحية رائعة على الموقع الرسمي. وترقب: هذه التكنولوجيا لديها القدرة على إحداث تغيير جذري في كيفية إنشاء الألعاب وتجربتها!

بناء مستقبل الألعاب

بينما لا يزال Google Genie في مراحله الأولى، فإنه يعرض القوة المذهلة للإبداع القائم على الذكاء الاصطناعي. إنه يطمس الخط الفاصل بين عوالمنا المتخيلة والعوالم التي نلعب فيها، مما يشير إلى مستقبل تكون فيه مشاركة لعبتك بنفس سهولة مشاركة الصورة.

ومع ذلك، هناك تحديات يجب التغلب عليها. حالياً، يتفوق الجني في ألعاب المنصات ثنائية الأبعاد، لكن التوسع في العوالم ثلاثية الأبعاد المعقدة يظل أمرًا صعبًا.

بالإضافة إلى الألعاب التي تم إنشاؤها لديك ضوابط بسيطة نسبيا; من المرجح أن تركز الأبحاث المستقبلية على التحكم الدقيق والميكانيكا المعقدة.

كنموذج توليدي، يمكن أن يكون جيني مفاجئًا، للأفضل أو للأسوأ - بإيجاد طرق لفعل ذلك توجيه عملية التوليد نحو نية الخالق هو مجال للبحث النشط.


رصيد الصورة المميز: أوليغ جامولينسكي / بيكساباي.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة