Zephyrnet-logotyp

OpenAI:s nya AI lärde sig att spela Minecraft genom att titta på 70,000 XNUMX timmar YouTube

Datum:

bild

År 2020 blåste OpenAI:s maskininlärningsalgoritm GPT-3 människor bort när den, efter att ha fått i sig miljarder ord skrapat från internet, började spottar ur sig välgjorda meningar. I år väckte DALL-E 2, en kusin till GPT-3 tränad på text och bilder, en liknande uppståndelse på nätet när den började piska upp surrealistiska bilder av astronauter som rider på hästar och, på senare tid, hantverk konstigt, fotorealistiska ansikten på människor som inte existerar.

Nu säger företaget att dess senaste AI har lärt sig att spela Minecraft efter att ha sett cirka 70,000 XNUMX timmars video som visar människor som spelar spelet på YouTube.

School of Mines 

Jämfört med många tidigare Minecraft-algoritmer som fungerar i mycket enklare "sandlåde"-versioner av spelet, spelar den nya AI i samma miljö som människor, med vanliga tangentbord-och-mus-kommandon.

I en blogginlägg och preprint OpenAI-teamet säger i detalj om arbetet att algoritmen ur lådan lärde sig grundläggande färdigheter, som att hugga ner träd, göra plankor och bygga hantverksbord. De såg också att den simmade, jagade, lagade mat och "pelarhoppning".

"Såvitt vi vet finns det inget publicerat arbete som verkar i det fullständiga, omodifierade mänskliga handlingsutrymmet, vilket inkluderar dra-och-släpp-inventering och konstruktion av föremål," skrev författarna i sin tidning.

Med finjustering – det vill säga att träna modellen på en mer fokuserad datamängd – fann de att algoritmen utförde alla dessa uppgifter mer tillförlitligt, men började också utveckla sin tekniska skicklighet genom att tillverka trä- och stenverktyg och bygga grundläggande skyddsrum, utforska byar och plundrar i kistor.

Efter ytterligare finjustering med förstärkningsinlärning lärde den sig att bygga en diamanthacka – en färdighet som tar mänskliga spelare cirka 20 minuter och 24,000 XNUMX åtgärder att utföra.

Detta är ett anmärkningsvärt resultat. AI har länge kämpat med Minecrafts vidöppna spelupplägg. Spel som schack och Go, som AI redan behärskar, har tydliga mål och framsteg mot dessa mål kan mätas. För att erövra Go använde forskare förstärkning lärande, där en algoritm ges ett mål och belönas för framsteg mot det målet. Minecraft, å andra sidan, har hur många möjliga mål som helst, framstegen är mindre linjära, och algoritmer för inlärning av djup förstärkning brukar oftast snurra på hjulen.

I 2019 MineRL Minecraft-tävling för AI-utvecklare, till exempel, uppnådde ingen av de 660 bidragen konkurrensens relativt enkla mål att bryta diamanter.

Det är värt att notera att för att belöna kreativitet och visa att att kasta datorkraft på ett problem inte alltid är svaret, satte MineRL-arrangörerna strikta gränser för deltagarna: de tilläts en NVIDIA GPU och 1,000 720 timmars inspelat spel. Även om de tävlande presterade beundransvärt, verkar OpenAI-resultatet, uppnått med mer data och XNUMX NVIDIA GPU: er, visa att datorkraft fortfarande har sina fördelar.

AI blir smart

Med sin videopre-training (VPT) algoritm för Minecraft, återgick OpenAI till det tillvägagångssätt som det används med GPT-3 och DALL-E: förträning av en algoritm på en hög datauppsättning av mänskligt skapat innehåll. Men algoritmens framgång möjliggjordes inte av enbart datorkraft eller data. Att träna en Minecraft AI på så mycket video var inte praktiskt tidigare.

Rå videofilmer är inte lika användbara för beteendemässiga AI:er som det är för innehållsgeneratorer som GPT-3 och DALL-E. Det visar vad folk gör, men det förklarar inte hur de gör det. För att algoritmen ska länka video till åtgärder behöver den etiketter. En videoram som visar en spelares samling av objekt, till exempel, skulle behöva märkas "inventering" tillsammans med kommandotangenten "E" som används för att öppna inventeringen.

Att märka varje bildruta i 70,000 2,000 timmars video skulle vara ... galet. Så laget betalade Upwork-entreprenörer för att spela in och märka grundläggande Minecraft-kunskaper. De använde XNUMX XNUMX timmar av den här videon för att lära ut en andra algoritm hur man märker Minecraft-videor, och den där algoritm, IDM, kommenterade alla 70,000 90 timmars YouTube-material. (Teamet säger att IDM var över XNUMX procent korrekt vid märkning av tangentbords- och muskommandon.)

Det här tillvägagångssättet för människor som tränar en datamärkningsalgoritm för att låsa upp beteendedatauppsättningar online kan hjälpa AI att lära sig andra färdigheter också. "VPT banar vägen mot att tillåta agenter att lära sig agera genom att titta på det stora antalet videor på internet”, skrev forskaren. Utöver Minecraft tror OpenAI att VPT kan ta med nya applikationer i den verkliga världen, som algoritmer som driver datorer direkt (föreställ dig till exempel att du ber din bärbara dator att hitta ett dokument och skicka det till din chef via e-post).

Diamanter är inte för alltid

Till MineRL-tävlingsarrangörernas förtret kanske resultaten verkar visa att datorkraft och resurser fortfarande flyttar nålen på den mest avancerade AI.

Strunta i kostnaden för datoranvändning, OpenAI sa att enbart Upwork-entreprenörerna kostade $160,000 3. Även om för att vara rättvis, manuell märkning av hela datamängden skulle ha gått i miljontal och tagit lång tid att slutföra. Och även om datorkraften inte var försumbar, var modellen faktiskt ganska liten. VPT:s hundratals miljoner parametrar är storleksordningar mindre än GPT-XNUMX:s hundratals miljarder.

Ändå är strävan efter att hitta smarta nya metoder som använder mindre data och datoranvändning giltig. Ett barn kan lära sig grunderna i Minecraft genom att titta på en eller två videor. Dagens AI kräver mycket mer för att lära sig även enkla färdigheter. Tillverkning AI effektivare är en stor, värdig utmaning.

OpenAI är i alla fall på delningshumör den här gången. Forskarna säger att VPT inte är utan risk – de har strikt kontrollerat tillgången till algoritmer som GPT-3 och DALL-E delvis för att begränsa missbruk – men risken är minimal för nu. De har öppen källkod för data, miljö och algoritm och samarbetar med MineRL. Årets tävlande är fria att använda, modifiera och finjustera det senaste inom Minecraft AI.

Chansen är stor att de kommer att ta sig långt förbi att bryta diamanter den här gången.

Image Credit: SIMON LEE / Unsplash 

plats_img

Senaste intelligens

plats_img

Chatta med oss

Hallå där! Hur kan jag hjälpa dig?