Zephyrnet Logosu

Kötü haber oyun geliştiricileri, Google Genie işlerinizin peşinde

Tarih:

Saf hayal dünyasına adım atmaya hazır olun, çünkü Google Genie hayallerinizi sanal gerçekliğe dönüştürmek için geldi!

Geçtiğimiz hafta OpenAI, gelişmiş video oluşturma aracıyla hepimizi büyüledi. Sora AIve artık Google'ın çığır açan yapay zeka modeli, basit görüntüleri tamamen oynatılabilir sanal ortamlara dönüştürüyor.

Evet, artık bir tane oluşturabilirsiniz 2D platform oyununun tamamı bileğinizin bir hareketiyle (veya en azından klavyenizin bir dokunuşuyla).

Tim Rocktaschel, Açık Uçluluk Takım Lideri şirketinde Google Derin Zihin, Google Genie'nin X'te doğuşunu şu sözlerle duyurdu:

Google Genie nedir?

Geleneksel oyun tasarımı genellikle karmaşık kodlama becerileri gerektirir. Google Genie ile teknik engeller önemli ölçüde azaltılmıştır. Yapay zeka, fikrinizi oynanabilir bir sanal ortama dönüştürmenin karmaşık süreçlerini yöneterek, yaratmanın saf keyfine odaklanmanıza olanak tanır.

Google Genie, yapay zeka teknolojisinin ön sıralarında yer alıyor ve "temel dünya modeli".

Bu, özellikle oynanışı sergileyenler olmak üzere çok sayıda internet videosu veri seti üzerinde eğitildiği anlamına gelir. Bu eğitim sayesinde Genie, ortamların nasıl işlediğine ve oyuncuların genellikle onlarla nasıl etkileşime girdiğine dair derin bir anlayış geliştirir.

Google Genie'yi kişisel oyun geliştirme asistanınız olarak düşünün. Tek yapmanız gereken bir başlangıç ​​noktası sağlamaktır ve bu şunlar olabilir:

  • an görüntü
  • a yazılı açıklama
  • a basit elle çizilmiş kroki

Google Genie daha sonra girdilerinizi alır ve benzersiz, tamamen oynanabilir bir sanal alan oluşturmak için yaratıcı gücünü kullanır.

Buradaki gerçek sihir, Google Genie'nin yaratmayı öğrenmesidir Belirli oyun talimatları olmadan kontrol edilebilir sanal dünyalar. Ortamların temel kurallarını ve oyuncuların nelerle etkileşime girebileceğini anlamak için videoları analiz eder. Dikkat çekici bir şekilde bu, yapay zeka tarafından oluşturulan tamamen yeni dünyalarda bile tutarlı kontrol şemalarına olanak tanıyor.

Google Genie nedir ve nasıl kullanılır?
Google Genie, karmaşık algoritmalar kullanarak statik görüntüleri oynanabilir oyunlara dönüştürür (Resim kredi)

Google DeepMind'ın büyüsü

Google DeepMind Yaptığı neredeyse her şeyle bizi şaşırtmayı başarıyor ve Google Genie de bir istisna değil.

Google Genie'nin beyni, adı verilen özel bir transformatör türü üzerine inşa edilmiştir. uzay-zamansal (ST) transformatör. Metin için tasarlanan normal transformatörlerin aksine, ST transformatörleri videoları anlamak için özel olarak ayarlanmıştır. Her bir karede neler olup bittiğine (mekansal dikkat) ve ayrıca birden fazla karede zaman içinde olayların nasıl değiştiğine (zamansal dikkat) dikkat ederler. Bu, hareketli görüntülerde bulunan karmaşık desenleri ele alma konusunda onları çok daha iyi hale getiriyor.

Videolar tonlarca pikselden oluşur ve bu, bir model için çok fazla olabilir. Cin piksel dolu kareleri ezmek için bir video tokenizer kullanıyor jeton adı verilen daha küçük, işlenmesi daha kolay parçalara bölünür. Bunu, bütün bir filmi bir dizi anahtar sembole dönüştürmek gibi düşünün. Bu basitleştirme, tüm video oluşturma sürecini daha sorunsuz ve daha hızlı hale getirir.

LAM, Google Genie'deki bir dedektif gibidir. Videoları izliyor ve kareler arasında gerçekleşen söylenmemiş eylemleri anlamaya çalışıyor. Bu önemlidir çünkü oluşturulan bir videonun nasıl oynatılacağını kontrol etmek istiyorsanız onu yönlendiren eylemleri anlamanız gerekir. İnternetteki videolar eylem etiketleriyle birlikte gelmediğinden, LAM'in bunları kendi başına çözmeyi öğrenmesi gerekiyor.

The dinamik modeli Google Genie'nin video oluşturma gücünün kalbidir. LAM'den video belirteçlerini ve belirlenen eylemleri alır ve bunları videonun bir sonraki karesinin nasıl görünmesi gerektiğini tahmin etmek için kullanır. Bu, şu ana kadar olup bitenlere ve yapmak istediğiniz eyleme göre size bir filmdeki bir sonraki adımı gösterebilecek kristal bir küreye sahip olmak gibidir.

VQ-VAE Google Genie'nin bilgileri düzenlemesine yardımcı olan süslü bir tekniktir. Bu, hem video tokenizer'a hem de LAM'e, işleri daha küçük, daha yönetilebilir parçalara çevirmek için özel bir kod kitabı vermek gibi bir şey. Bu, videolardaki karmaşık kalıpların öğrenilmesini ve temsil edilmesini çok daha verimli hale getirir.

Google Genie nedir ve nasıl kullanılır?
Google Genie'de kullanılan Dinamik Modeli Oyunun devam etmesini sağlamak için videonun bir sonraki karesini tahmin edip oluşturur (Resim kredi)

İşte Google Genie'nin iş akışının bir özeti:

  1. Gizli eylem çıkarımı:
    1. Encoder: Bir video sekansı çeker. Çerçeveler arasında meydana gelen eylemlerle ilgili sürekli temsiller üretir.
    2. şifre çözücü: Bu bileşen yalnızca eğitim için mevcuttur. Önceki kareleri ve kodlayıcı tarafından üretilen gizli eylemleri kullanarak gerçek bir sonraki kareyi tahmin eder. Bu, LAM'in anlamlı eylem temsilleri oluşturacak şekilde eğitilmesine yardımcı olur
    3. VQ-VAE: Tahmin edilen gizli eylemler küçük bir dizi ayrı kod halinde nicelenir. Bu, sınırlı bir eylem sözlüğü sağlar ve üretim süreci sırasında insan kontrolünü kolaylaştırır.
  2. Video tokenizasyonu:
    1. ST-Transformer Tabanlı Video Belirteçleyici (ST-ViViT): Tokenleştirme aşamasında hem mekansal hem de zamansal bilgileri içerir. Bu, yalnızca uzamsal belirteçlere kıyasla video oluşturma kalitesini artırır
  3. Dinamik modelleme:
    1. MaskGIT Transformatörü: Genie, MaskGIT mimarisinin yalnızca kod çözücüye yönelik bir çeşidini kullanır
    2. Giriş: Her adımda hem önceki video belirteçlerini hem de karşılık gelen gizli eylemi alır.
    3. Çıktı: Bir sonraki kareyi temsil eden belirteçleri tahmin eder
    4. Eğitim: Tahmin edilen jetonları videodaki gerçek jetonlarla hizalamak için çapraz entropi kaybıyla eğitildi. Sağlamlığı artırmak için eğitim sırasında maskeleme kullanılır
  4. Çıkarım:
    1. Başlatma: Kullanıcı, simgeleştirilmiş bir başlangıç ​​görüntü çerçevesi sağlar
    2. Eylem Seçimi: Kullanıcı, LAM aşaması sırasında öğrenilen ayrık sözcüklerden istenen eylemi seçer
    3. Tahmin: Dinamik modeli, ilk kare belirteçlerine ve seçilen eyleme dayalı olarak sonraki karenin belirteçlerini oluşturur
    4. şifre çözme: Video belirteçleyicinin kod çözücüsü, tahmin edilen belirteçleri tekrar video karesine dönüştürür
    5. Otoregresyon: Yeni oluşturulan çerçeve ve kullanıcı tarafından belirlenen yeni bir eylemin bir sonraki tahmin için girdi olmasıyla süreç tekrarlanır

Daha fazla öğrenmek ister misiniz? Burada Google Genie'nin araştırma makalesi.

Google Genie nedir ve nasıl kullanılır?
Google Genie, özel oyununuzu paylaşmanın resim paylaşmak kadar zahmetsiz olacağı bir geleceğin ipuçlarını veriyor (Resim kredi)

Google Genie nasıl kullanılır?

Süre Google Genie henüz genel kullanıma sunulmadı, daha fazla bilgi bulabilirsiniz ve resmi web sitesinde büyüleyici demolar. Ve dikkat edin: Bu teknoloji, oyunları oluşturma ve deneyimleme şeklimizi temelden değiştirme potansiyeline sahip!

Oyunun geleceğini inşa etmek

Henüz başlangıç ​​aşamasında olmasına rağmen Google Genie, yapay zeka destekli yaratıcılığın şaşırtıcı gücünü sergiliyor. Hayal ettiğimiz dünyalar ile içinde oynadığımız dünyalar arasındaki çizgiyi bulanıklaştırıyor ve oyununuzu paylaşmanın fotoğraf paylaşmak kadar kolay olduğu bir geleceğe işaret ediyor.

Ancak aşılması gereken zorluklar var. Şu anda, Genie 2D platform oyunlarında başarılıancak karmaşık 3 boyutlu dünyalara ölçeklendirme hâlâ zor.

Ayrıca oluşturulan oyunlar nispeten basit kontrollere sahip; gelecekteki araştırmalar muhtemelen daha hassas kontrol ve karmaşık mekaniklere odaklanacaktır.

Üretken bir model olarak Genie, iyi ya da kötü, şaşırtıcı olabilir; Üretim sürecini yaratıcının amacına doğru yönlendirin aktif bir araştırma alanıdır.


Öne çıkan resim kredisi: Oleg Gamulinskii/Pixabay.

spot_img

En Son İstihbarat

spot_img