Zephyrnet-logotyp

En AI lärde sig att spela Atari 6,000 XNUMX gånger snabbare genom att läsa instruktionerna

Datum:

Trots imponerande framsteg är dagens AI-modeller mycket ineffektiva elever, tar enorma mängder tid och data för att lösa problem som människor upptäcker nästan omedelbart. Ett nytt tillvägagångssätt kan drastiskt påskynda saker och ting genom att få AI att läsa bruksanvisningar innan du försöker en utmaning.

Ett av de mest lovande tillvägagångssätten för att skapa AI som kan lösa en mängd olika problem är förstärkningsinlärning, vilket innebär att sätta ett mål och belöna AI för att vidta åtgärder som fungerar mot det målet. Detta är tillvägagångssättet bakom de flesta av de stora genombrotten inom spelande AI, som DeepMinds AlphaGo.

Hur kraftfull tekniken än är, den förlitar sig i huvudsak på försök och misstag för att hitta en effektiv strategi. Det betyder att dessa algoritmer kan ägna motsvarande flera år åt att blundera genom video- och brädspel tills de träffar en vinnande formel.

Tack vare kraften hos moderna datorer kan detta göras på en bråkdel av den tid det skulle ta en människa. Men denna dåliga "proveffektivitet" innebär att forskare behöver tillgång till ett stort antal dyra specialiserade AI-chips, vilket begränsar vem som kan arbeta med dessa problem. Det begränsar också allvarligt tillämpningen av förstärkningsinlärning till verkliga situationer där det helt enkelt inte är möjligt att göra miljontals genomgångar.

Nu har ett team från Carnegie Mellon University hittat ett sätt att hjälpa förstärkningsinlärningsalgoritmer att lära sig mycket snabbare genom att kombinera dem med en språkmodell som kan läsa bruksanvisningar. Deras tillvägagångssätt, som beskrivs i en förtryck publicerat på arXiv, lärde en AI att spela ett utmanande Atari-videospel tusentals gånger snabbare än en toppmodern modell utvecklad av DeepMind.

"Vårt arbete är det första som visar möjligheten av ett helautomatiskt ramverk för inlärning av förstärkning för att dra nytta av en bruksanvisning för ett brett studerat spel", säger Yue Wu, som ledde forskningen. "Vi har genomfört experiment på andra mer komplicerade spel som Minecraft, och har sett lovande resultat. Vi tror att vårt tillvägagångssätt bör gälla mer komplexa problem."

Atari videospel har varit ett populärt riktmärke för att studera förstärkningsinlärning tack vare den kontrollerade miljön och det faktum att spelen har ett poängsystem, som kan fungera som en belöning för algoritmerna. Men för att ge deras AI ett försprång ville forskarna ge den några extra tips.

Först tränade de en språkmodell för att extrahera och sammanfatta viktig information från spelets officiella bruksanvisning. Denna information användes sedan för att ställa frågor om spelet till en förtränad språkmodell liknande GPT-3 i storlek och kapacitet. Till exempel, i spelet PacMan kan detta vara, "Ska du slå ett spöke om du vill vinna spelet?", för vilket svaret är nej.

Dessa svar används sedan för att skapa ytterligare belöningar för förstärkningsalgoritmen, utöver spelets inbyggda poängsystem. I PacMan-exemplet skulle det nu få ett straff på -5 poäng att slå ett spöke. Dessa extra belöningar matas sedan in i en väletablerad förstärkningsinlärningsalgoritm för att hjälpa den att lära sig spelet snabbare.

Forskarna testade sitt tillvägagångssätt på Skidåkning 6000, som är ett av de svåraste Atari-spelen för AI att bemästra. 2D-spelet kräver att spelare slalom nerför en backe, navigerar mellan stolpar och undviker hinder. Det kanske låter enkelt nog, men den ledande AI:n var tvungen att köra igenom 80 miljarder bildrutor i spelet för att uppnå prestanda jämförbar med en människa.

Däremot krävde det nya tillvägagångssättet bara 13 miljoner bildrutor för att få kläm på spelet, även om det bara kunde uppnå en poäng ungefär hälften så bra som den ledande tekniken. Det betyder att det inte är lika bra som ens den genomsnittliga människan, men det gjorde betydligt bättre än flera andra ledande metoder för förstärkningsinlärning som inte alls kunde få kläm på spelet. Det inkluderar den väletablerade algoritmen som den nya AI förlitar sig på.

Forskarna säger att de redan har börjat testa sin metod på mer komplexa 3D-spel som Minecraft, med lovande tidiga resultat. Men förstärkningsinlärning har länge kämpat för att ta steget från videospel, där datorn har tillgång till en komplett modell av världen, till den röriga osäkerheten i den fysiska verkligheten.

Wu säger att han är hoppfull om att snabba förbättringar av kapaciteten för objektdetektering och lokalisering snart kan sätta applikationer som autonom körning eller hushållsautomation inom räckhåll. Hur som helst, resultaten tyder på att snabba förbättringar av AI-språkmodeller kan fungera som en katalysator för framsteg på andra håll inom området.

Image Credit: Kreg Steppe / Flickr

plats_img

Senaste intelligens

plats_img