OpenAI's nieuwe AI leerde Minecraft spelen door 70,000 uur YouTube te bekijken

In 2020 blies OpenAI's machine learning-algoritme GPT-3 mensen weg toen het, na het innemen van miljarden woorden die van internet waren geschraapt, begon goed gemaakte zinnen uitspugen. Dit jaar veroorzaakte DALL-E 2, een neef van GPT-3 die getraind was in tekst en afbeeldingen, online een soortgelijke opschudding toen het begon op te zwepen surrealistische beelden van astronauten die op paarden rijden en, meer recentelijk, rare dingen maken, fotorealistische gezichten van mensen die niet bestaan.

Nu zegt het bedrijf dat de nieuwste AI Minecraft heeft leren spelen na het bekijken van zo'n 70,000 uur aan video waarin mensen te zien zijn die het spel op YouTube spelen.

Mijnschool

Vergeleken met talloze eerdere Minecraft-algoritmen die in veel eenvoudigere "sandbox" -versies van het spel werken, speelt de nieuwe AI in dezelfde omgeving als mensen, met behulp van standaard toetsenbord- en muisopdrachten.

In een blogpost en preprint het OpenAI-team beschrijft het werk en zegt dat het algoritme uit de doos basisvaardigheden heeft geleerd, zoals bomen omhakken, planken maken en werktafels bouwen. Ze zagen hem ook zwemmen, jagen, koken en 'pilaarspringen'.

"Voor zover wij weten, is er geen gepubliceerd werk dat actief is in de volledige, ongewijzigde menselijke actieruimte, inclusief slepen en neerzetten van voorraadbeheer en het maken van items", schreven de auteurs in hun paper.

Met fijnafstemming - dat wil zeggen, het model trainen op een meer gerichte dataset - ontdekten ze dat het algoritme al deze taken betrouwbaarder uitvoerde, maar begon het ook zijn technologische bekwaamheid te vergroten door houten en stenen werktuigen te fabriceren en basisschuilplaatsen te bouwen, dorpen en plunderkisten.

Na verdere verfijning met versterkingsleren, leerde het een diamanten houweel te bouwen - een vaardigheid die menselijke spelers ongeveer 20 minuten en 24,000 acties kost om te volbrengen.

Dit is een opmerkelijk resultaat. AI worstelt al lang met de wijd open gameplay van Minecraft. Games zoals schaken en Go, die AI al onder de knie heeft, hebben duidelijke doelstellingen en de voortgang in de richting van die doelstellingen kan worden gemeten. Om Go te veroveren, gebruikten onderzoekers versterking van leren, waarbij een algoritme een doel krijgt en wordt beloond voor vooruitgang in de richting van dat doel. Minecraft daarentegen heeft een willekeurig aantal mogelijke doelen, de voortgang is minder lineair en algoritmen voor het leren van diepe versterking blijven meestal aan hun wiel draaien.

In de MineRL Minecraft-competitie van 2019 voor AI-ontwikkelaars behaalde bijvoorbeeld geen van de 660 inzendingen de het relatief eenvoudige doel van de concurrentie om diamanten te delven.

Het is vermeldenswaard dat om creativiteit te belonen en te laten zien dat het niet altijd de oplossing is om rekenkracht op een probleem te gooien, de MineRL-organisatoren strikte beperkingen oplegden aan de deelnemers: ze kregen één NVIDIA GPU en 1,000 uur opgenomen gameplay. Hoewel de deelnemers bewonderenswaardig presteerden, lijkt het OpenAI-resultaat, behaald met meer data en 720 NVIDIA GPU's, aan te tonen dat rekenkracht nog steeds zijn voordelen heeft.

AI wordt sluw

Met zijn video pre-training (VPT) algoritme voor Minecraft, keerde OpenAI terug naar de benadering die het gebruikt met GPT-3 en DALL-E: pre-training van een algoritme op een torenhoge dataset van door mensen gemaakte inhoud. Maar het succes van het algoritme werd niet alleen mogelijk gemaakt door rekenkracht of data. Het trainen van een Minecraft AI op zoveel video was voorheen niet praktisch.

Onbewerkte videobeelden zijn niet zo nuttig voor gedrags-AI's als voor contentgenerators zoals GPT-3 en DALL-E. Het laat zien wat mensen doen, maar het legt niet uit hoe ze het doen. Om ervoor te zorgen dat het algoritme video aan acties koppelt, heeft het labels nodig. Een videoframe dat bijvoorbeeld de verzameling objecten van een speler laat zien, moet het label 'inventaris' hebben naast de opdrachttoets 'E' die wordt gebruikt om de inventaris te openen.

Elk frame in 70,000 uur video labelen zou ... krankzinnig zijn. Dus betaalde het team Upwork-aannemers om elementaire Minecraft-vaardigheden op te nemen en te labelen. Ze gebruikten 2,000 uur van deze video om een tweede algoritme te leren hoe ze Minecraft-video's moeten labelen, en dat algoritme, IDM, heeft alle 70,000 uur aan YouTube-beelden geannoteerd. (Het team zegt dat IDM meer dan 90 procent nauwkeurig was bij het labelen van toetsenbord- en muisopdrachten.)

Deze benadering van mensen die een algoritme voor gegevenslabeling trainen om online gedragsgegevenssets te ontgrendelen, kan AI ook helpen andere vaardigheden te leren. “VPT effent het pad naar het toestaan van agenten om leren handelen door de enorme aantallen video's op internet te bekijken', schreef de onderzoeker. Naast Minecraft denkt OpenAI dat VPT nieuwe toepassingen in de echte wereld kan brengen, zoals algoritmen die computers op een prompt bedienen (stel je bijvoorbeeld voor dat je je laptop vraagt een document te zoeken en dit naar je baas te e-mailen).

Diamanten zijn niet voor altijd

Tot grote ergernis van de organisatoren van de MineRL-competitie, lijken de resultaten misschien aan te tonen dat rekenkracht en middelen nog steeds de naald op de meest geavanceerde AI verplaatsen.

Ongeacht de kosten van computergebruik, zei OpenAI dat de Upwork-aannemers alleen al $ 160,000 kosten. Maar om eerlijk te zijn, het handmatig labelen van de hele dataset zou in de miljoenen lopen en veel tijd kosten om te voltooien. En hoewel de rekenkracht niet te verwaarlozen was, was het model eigenlijk vrij klein. De honderden miljoenen parameters van VPT zijn ordes van grootte minder dan de honderden miljarden van GPT-3.

Toch is de drive om slimme nieuwe benaderingen te vinden die minder data en computergebruik gebruiken geldig. Een kind kan de basisprincipes van Minecraft leren door een of twee video's te bekijken. De AI van vandaag vereist veel meer om zelfs eenvoudige vaardigheden te leren. Maken AI efficiënter is een grote, waardige uitdaging.

In ieder geval is OpenAI deze keer in een deelstemming. De onderzoekers zeggen dat VPT niet zonder risico is - ze hebben strikt gecontroleerde toegang tot algoritmen zoals GPT-3 en DALL-E, deels om misbruik te beperken - maar het risico is voorlopig minimaal. Ze hebben de gegevens, de omgeving en het algoritme open source gemaakt en werken samen met MineRL. De deelnemers van dit jaar kunnen de nieuwste Minecraft AI gebruiken, wijzigen en verfijnen.

De kans is groot dat ze deze keer ver voorbij de mijnbouwdiamanten komen.

Krediet van het beeld: SIMON LEE / Unsplash

Generatieve data-intelligentie

OpenAI's nieuwe AI leerde Minecraft spelen door 70,000 uur YouTube te kijken

Mijnschool

AI wordt sluw

Diamanten zijn niet voor altijd

BLAST Premier en GG.BET bundelen hun krachten in een exclusief partnerschap

Nope Challenge gamificeert het onder ogen zien van je fobieën in VR On Quest

Laatste intelligentie

Vergeet de AI-doem en hype, laten we computers nuttig maken

Het in Berlijn gevestigde Goodcarbon haalt 5.25 miljoen euro binnen om nieuwe hoogwaardige, op de natuur gebaseerde oplossingen op de markt te brengen | EU-startups

Arcade Paradise VR bevestigt releasedatum op Quest

Het Parijse Edonia haalt €2 miljoen op voor de productie van plantaardige ingrediënten uit microalgen | EU-startups

Generatief AI-landschap in de industrie voor de ontwikkeling van mobiele apps

VS zegt “Bye-Bye TikTok” tenzij ByteDance de app verkoopt

Chat met ons