Zephyrnet-logo

Een AI van Google heeft 30,000 uur aan videogames bekeken en maakt nu zijn eigen game

Datum:

AI blijft veel licht en warmte genereren. De beste modellen op het gebied van tekst en afbeeldingen – die nu abonnementen afdwingen en verweven zijn in consumentenproducten – strijden om centimeters. OpenAI, Google en Anthropic zijn allemaal min of meer nek aan nek.

Het is dan ook geen verrassing dat AI-onderzoekers generatieve modellen naar nieuw terrein willen duwen. Omdat AI enorme hoeveelheden gegevens nodig heeft, is een manier om te voorspellen waar het heen gaat, door te kijken welke gegevens overal online beschikbaar zijn, maar nog grotendeels ongebruikt zijn.

Video, waarvan er genoeg zijn, is een voor de hand liggende volgende stap. Vorige maand werd er inderdaad een preview van OpenAI getoond een nieuwe tekst-naar-video AI genaamd Sora dat verbaasde toeschouwers.

Maar hoe zit het met videogames?

Vraag en ontvang

Het blijkt dat er nogal wat gamervideo's online zijn. Google DeepMind zegt dat het een nieuwe AI, Genie, heeft getraind op basis van 30,000 uur aan samengestelde videobeelden waarop gamers eenvoudige platformgames spelen (denk aan vroege Nintendo-games) en nu kan het zijn eigen voorbeelden creëren.

Genie verandert een eenvoudige afbeelding, foto of schets in een interactief videospel.

Gegeven een prompt, bijvoorbeeld een tekening van een personage en zijn omgeving, kan de AI vervolgens de input van een speler gebruiken om een ​​personage door zijn wereld te verplaatsen. In een blogpost liet DeepMind de creaties van Genie zien die door 2D-landschappen navigeerden, rondliepen of tussen platforms sprongen. Net als een slang die zijn staart opeet, zijn sommige van deze werelden zelfs afkomstig van door AI gegenereerde beelden.

In tegenstelling tot traditionele videogames genereert Genie deze interactieve werelden frame voor frame. Gegeven een prompt en opdracht om te bewegen, voorspelt het de meest waarschijnlijke volgende frames en creëert deze direct. Het leerde zelfs een gevoel van parallax toe te voegen, een veel voorkomend kenmerk bij platformgames waarbij de voorgrond sneller beweegt dan de achtergrond.

Opvallend was dat de training van de AI geen labels bevatte. In plaats daarvan leerde Genie invoercommando's (zoals naar links, rechts of springen) te correleren met bewegingen in het spel, simpelweg door tijdens de training voorbeelden te observeren. Dat wil zeggen: wanneer een personage in een video naar links bewoog, was er geen label dat het commando aan de beweging koppelde. Genie heeft dat deel zelf bedacht. Dat betekent dat toekomstige versies mogelijk kunnen worden getraind op net zoveel toepasselijke video als er online is.

De AI is een indrukwekkend proof-of-concept, maar bevindt zich nog in een zeer vroeg stadium van ontwikkeling en DeepMind is nog niet van plan het model openbaar te maken.

De games zelf zijn gepixelde werelden die met een ploeteren frame per seconde voorbij stromen. Ter vergelijking: hedendaagse videogames kunnen 60 of 120 frames per seconde halen. Bovendien genereert Genie, net als alle generatieve algoritmen, vreemde of inconsistente visuele artefacten. Het is ook gevoelig voor het hallucineren van ‘onrealistische toekomsten’, het team schreef in hun paper waarin ze de AI beschrijven.

Dat gezegd hebbende, zijn er een paar redenen om aan te nemen dat Genie vanaf nu zal verbeteren.

Werelden opkloppen

Omdat de AI kan leren van ongelabelde online video's en nog steeds een bescheiden omvang heeft (slechts 11 miljard parameters), zijn er voldoende mogelijkheden om op te schalen. Grotere modellen die op meer informatie zijn getraind, hebben de neiging dramatisch te verbeteren. En met een groeiende industrie gericht op gevolgtrekking– het proces waarmee een getrainde AI taken uitvoert, zoals het genereren van afbeeldingen of tekst – zal waarschijnlijk sneller gaan.

DeepMind zegt dat Genie mensen, zoals professionele ontwikkelaars, kan helpen bij het maken van videogames. Maar net als OpenAI – dat gelooft dat Sora over meer gaat dan alleen video’s – denkt het team groter. De aanpak zou veel verder kunnen gaan dan videogames.

Een voorbeeld: AI die robots kan besturen. Het team trainde een apart model op video van robotarmen die verschillende taken uitvoerden. Het model leerde de robots manipuleren en met een verscheidenheid aan objecten omgaan.

DeepMind zei ook dat door Genie gegenereerde videogameomgevingen kunnen worden gebruikt om AI-agenten te trainen. Het is geen nieuwe strategie. In een paper uit 2021 nog een Het DeepMind-team schetste een videogame genaamd Xland dat werd bevolkt door AI-agenten en een AI-overlord die taken en games genereerde om hen uit te dagen. Het idee dat voor de volgende grote stap in AI algoritmen nodig zijn die elkaar kunnen trainen of synthetische trainingsgegevens kunnen genereren, is dat wel tractie krijgen.

Dit alles is het nieuwste salvo in een intense concurrentie tussen OpenAI en Google om vooruitgang op het gebied van AI te laten zien. Terwijl anderen in het veld zoals antropisch, multimodale modellen ontwikkelen die vergelijkbaar zijn met GPT-4, lijken Google en OpenAI ook gericht op algoritmen die de wereld simuleren. Dergelijke algoritmen zijn mogelijk beter in planning en interactie. Beide zullen cruciale vaardigheden zijn voor de AI-agenten die beide organisaties lijken te willen produceren.

"Genie kan worden aangezet met beelden die het nog nooit eerder heeft gezien, zoals foto's of schetsen uit de echte wereld, waardoor mensen kunnen communiceren met hun ingebeelde virtuele werelden - in wezen fungerend als een fundamenteel wereldmodel", schreven de onderzoekers in de Genie blogpost. “Wij concentreren ons op video's van 2D-platformgames en robotica maar onze methode is algemeen en zou voor elk type domein moeten werken, en is schaalbaar naar steeds grotere internetdatasets.’

Op dezelfde manier suggereerden onderzoekers, toen OpenAI vorige maand Sora bekeek, dat het iets fundamentelers zou kunnen inluiden: een wereldsimulator. Dat wil zeggen dat beide teams de enorme cache van online video lijken te zien als een manier om AI te trainen om zijn eigen video te genereren, ja, maar ook om de wereld, online of offline, effectiever te begrijpen en te opereren.

Of dit vruchten afwerpt of op de langere termijn duurzaam is, is een open vraag. Het menselijk brein werkt op de kracht van een gloeilamp; generatieve AI verbruikt hele datacenters. Maar het is het beste om de krachten die momenteel spelen – in termen van talent, technologie, hersenen en geld – niet te onderschatten, met als doel de AI niet alleen te verbeteren, maar ook efficiënter te maken.

We hebben indrukwekkende vooruitgang gezien op het gebied van tekst, afbeeldingen, audio en alle drie samen. Video's zijn het volgende ingrediënt dat in de pot wordt gegooid, en ze kunnen zorgen voor een nog krachtiger brouwsel.

Krediet van het beeld: Google DeepMind

spot_img

Laatste intelligentie

spot_img