Zephyrnet-logotyp

Google DeepMind tränar "artificiell brainstorming" i Chess AI | Quanta Magazine

Datum:

Beskrivning

När Covid-19 skickade hem människor i början av 2020, kom datavetaren Tom Zahavy återupptäckt schack. Han hade spelat som barn och hade nyligen läst Garry Kasparovs djupa tankar, en memoar av stormästarens matcher 1997 mot IBM:s schackdator, Deep Blue. Han tittade på schackvideor på YouTube och Drottningens Gambit på Netflix.

Trots sitt förnyade intresse letade Zahavy inte efter sätt att förbättra sitt spel. "Jag är ingen bra spelare", sa han. "Jag är bättre på schackpussel" - arrangemang av pjäser, ofta konstruerade och sannolikt inte att inträffa under ett riktigt spel, som utmanar en spelare att hitta kreativa sätt att få fördelar.

Pusslen kan hjälpa spelare att vässa sina färdigheter, men på senare tid har de hjälpt till att avslöja schackprogrammens dolda begränsningar. Ett av de mest ökända pusslen, utarbetade av matematikern Sir Roger Penrose 2017, sätter starkare svarta pjäser (som drottningen och tornen) på brädet, men i besvärliga positioner. En erfaren mänsklig spelare, som spelar vit, kunde lätt styra spelet till oavgjort, men kraftfulla datorschackprogram skulle säga att svart hade en klar fördel. Den skillnaden, sa Zahavy, föreslog att även om datorer kunde besegra världens bästa mänskliga spelare, kunde de ännu inte känna igen och arbeta igenom alla slags svåra problem. Sedan dess har Penrose och andra skapat vidsträckta samlingar av pussel som datorer kämpar för att lösa.

Schack har länge varit en prövosten för att testa nya idéer i artificiell intelligens, och Penroses pussel väckte Zahavys intresse. "Jag försökte förstå vad som gör dessa positioner så svåra för datorer när åtminstone några av dem vi kan lösa som människor," sa han. "Jag var helt fascinerad." Det utvecklades snart till ett professionellt intresse: Som forskare på Google DeepMind utforskar Zahavy kreativa problemlösningsmetoder. Målet är att utveckla AI-system med ett spektrum av möjliga beteenden utöver att utföra en enda uppgift.

Ett traditionellt AI-schackprogram, tränat för att vinna, kanske inte är meningsfullt som ett Penrose-pussel, men Zahavy misstänkte att ett program som består av många olika system, som arbetar tillsammans som en grupp, kunde göra framsteg. Så han och hans kollegor utvecklade ett sätt att väva samman flera (upp till 10) beslutsfattande AI-system, vart och ett optimerat och tränat för olika strategier, med början med AlphaZero, DeepMinds kraftfulla schackprogram. Det nya systemet, de rapporterade i augusti, spelade bättre än AlphaZero ensamt, och det visade mer skicklighet – och mer kreativitet – när det gäller att hantera Penroses pussel. Dessa förmågor kom på sätt och vis från självsamarbete: Om ett tillvägagångssätt träffade en vägg vände programmet helt enkelt till ett annat.

Det tillvägagångssättet är i grunden vettigt, sa Allison Liemhetcharat, en datavetare på DoorDash som har arbetat med multi-agent strategier för problemlösning inom robotik. "Med en population av agenter är det större sannolikhet att pusslen är i den domän som minst en av agenterna är utbildad i."

Arbetet tyder på att team av olika AI-system effektivt skulle kunna hantera svåra problem långt bortom spelplanen. "Det här är ett bra exempel på att letar efter mer än ett sätt att lösa ett problem - som att vinna ett schackspel - ger många fördelar," sa Antoine Cully, en AI-forskare vid Imperial College London som inte var involverad i DeepMind-projektet. Han jämförde det med en konstgjord version av mänskliga brainstormingsessioner. "Denna tankeprocess leder till kreativa och effektiva lösningar som man skulle missa utan att göra den här övningen."

Jagar misslyckanden

Innan Zahavy började med DeepMind var Zahavy intresserad av djup förstärkningsinlärning, ett område för artificiell intelligens där ett system använder neurala nätverk för att lära sig en uppgift genom att trial and error. Det är grunden för de mest kraftfulla schackprogrammen (och används i andra AI-applikationer som självkörande bilar). Systemet börjar med sin omgivning. I till exempel schack innefattar miljön spelplanen och eventuella drag. Om uppgiften är att köra bil omfattar miljön allt runt fordonet. Systemet fattar sedan beslut, vidtar åtgärder och utvärderar hur nära det kom målet. När det närmar sig målet samlar det på sig belöningar, och allt eftersom systemet samlar på sig belöningar förbättrar det dess prestanda. Den "djupa" delen av detta tillvägagångssätt beskriver de neurala nätverk som används för att analysera och bedöma beteenden.

Förstärkningsinlärning är hur AlphaZero lärde sig att bli en schackmästare. DeepMind rapporterade att det under programmets första nio träningstimmar, i december 2017, spelade 44 miljoner matcher mot sig själv. Till en början bestämdes dess drag slumpmässigt, men med tiden lärde den sig att välja drag med större sannolikhet att leda mot schackmatt. Efter bara timmars träning utvecklade AlphaZero förmågan att besegra alla mänskliga schackspelare.

Men så framgångsrik som förstärkningsinlärning kan vara, leder det inte alltid till strategier som speglar en allmän förståelse av spelet. Under det senaste halvt decenniet eller så har Zahavy och andra märkt en ökning av de märkliga felen som kan hända på system som tränats med trial and error. Ett system som till exempel spelar tv-spel kan hitta ett kryphål och komma på hur man fuskar eller hoppar över en nivå, eller så kan det lika gärna fastna i en upprepad loop. Pussel i Penrose-stil antydde på liknande sätt en sorts blind fläck, eller glitch, i AlphaZero - det kunde inte lista ut hur man skulle närma sig ett problem som det aldrig tidigare sett.

Men kanske inte alla fel bara är fel. Zahavy misstänkte att AlphaZeros blinda fläckar faktiskt kan vara något annat i förklädnad – beslut och beteenden kopplade till systemets interna belöningar. Inlärningssystem för djup förstärkning, sa han, vet inte hur man misslyckas - eller ens hur man känner igen misslyckanden. Förmågan att misslyckas har länge varit kopplad till kreativ problemlösning. "Kreativitet har en mänsklig kvalitet", skrev Kasparov i djupa tankar. "Den accepterar begreppet misslyckande."

AI-system gör det vanligtvis inte. Och om ett system inte känner igen att det misslyckades med att slutföra sin uppgift, kanske det inte försöker något annat. Istället kommer den bara att fortsätta att försöka göra vad den redan har gjort. Det är troligtvis det som ledde till dessa återvändsgränder i videospel - eller till att fastna i några Penrose-utmaningar, sa Zahavy. Systemet jagade "konstiga typer av inneboende belöningar", sa han, som det hade utvecklats under sin träning. Saker som såg ut som misstag utifrån var sannolikt konsekvensen av att utveckla specifika men i slutändan misslyckade strategier.

Systemet betraktade dessa konstiga belöningar som steg mot det större målet, som det faktiskt inte kunde uppnå, och det visste inte att prova något nytt. "Jag försökte förstå dem," sa Zahavy.

Ett bättre spel

En del av anledningen till att dessa fel kan visa sig vara så följdriktiga - och så användbara - kommer från vad forskare känner igen som ett problem med generalisering. Medan system för förstärkning av lärande kan utveckla en effektiv strategi för att koppla en given situation till en specifik åtgärd - som forskare kallar en "policy" - kan de inte tillämpa den på olika problem. "Vad som normalt brukar hända med förstärkningsinlärning, nästan oavsett metod, är att du får den policy som löser den specifika instansen av problemet du har tränat på, men den generaliserar inte," sa Julian Togelius, en datavetare vid New York University och forskningschef på modl.ai.

Zahavy såg att Penrose-pusslen krävde just denna typ av generalisering. AlphaZero kanske inte kunde lösa de flesta pussel eftersom det var så fokuserat på att vinna hela spel, från början till slut. Men det tillvägagångssättet introducerade blinda fläckar som exponerades av de osannolika arrangemangen av bitar i Penrose-pussel. Kanske, resonerade han, skulle programmet kunna lära sig slå pusslet om det hade tillräckligt med kreativt utrymme för att brainstorma och komma åt olika träningsmetoder.

Så han och hans kollegor samlade först en uppsättning med 53 Penrose-pussel och 15 ytterligare utmaningspussel. På egen hand löste AlphaZero mindre 4 % av Penrose-pusslen och under 12 % av resten. Zahavy var inte förvånad: Många av dessa pussel designades av schackmästare för att avsiktligt förvirra datorer.

Som ett test försökte forskarna träna AlphaZero att spela mot sig själv med hjälp av Penrose-pusselarrangemanget som startposition, istället för helbrädet med typiska spel. Dess prestanda förbättrades dramatiskt: Den löste 96 % av Penrose-pusslen och 76 % av utmaningsuppsättningen. I allmänhet, när AlphaZero tränade på ett specifikt pussel kunde det lösa det pusslet, precis som det kunde vinna när det tränade på ett helt spel. Kanske, tänkte Zahavy, om ett schackprogram på något sätt kunde få tillgång till alla dessa olika versioner av AlphaZero, tränade på de olika positionerna, då skulle den mångfalden kunna sätta fart på förmågan att närma sig nya problem produktivt. Kanske skulle det kunna generalisera, med andra ord, att lösa inte bara Penrose-pusslen, utan alla bredare schackproblem.

Hans grupp bestämde sig för att ta reda på det. De byggde den nya, diversifierade versionen av AlphaZero, som inkluderar flera AI-system som tränade självständigt och i en mängd olika situationer. Algoritmen som styr det övergripande systemet fungerar som en slags virtuell matchmaker, sa Zahavy: en designad för att identifiera vilken agent som har störst chans att lyckas när det är dags att göra ett drag. Han och hans kollegor kodade också in en "mångfaldsbonus" - en belöning till systemet närhelst det hämtade strategier från ett stort urval av val.

När det nya systemet släpptes för att spela sina egna matcher såg laget en hel del variation. Den diversifierade AI-spelaren experimenterade med nya, effektiva öppningar och nya – men sunda – beslut om specifika strategier, som när och var man ska kasta sig. I de flesta matcher besegrade den den ursprungliga AlphaZero. Teamet fann också att den diversifierade versionen kunde lösa dubbelt så många utmaningspussel som originalet och kunde lösa mer än hälften av den totala katalogen av Penrose-pussel.

"Tanken är att istället för att hitta en lösning, eller en enda policy, som skulle slå vilken spelare som helst, här [använder den] idén om kreativ mångfald," sa Cully.

Med tillgång till fler och olika spelade spel, sa Zahavy, hade den diversifierade AlphaZero fler alternativ för klibbiga situationer när de uppstod. "Om du kan kontrollera vilken typ av spel som den ser, kontrollerar du i princip hur det kommer att generaliseras," sa han. Dessa konstiga inneboende belöningar (och deras associerade rörelser) kan bli styrkor för olika beteenden. Då kunde systemet lära sig att bedöma och värdera de olika tillvägagångssätten och se när de var mest framgångsrika. "Vi fann att den här gruppen agenter faktiskt kan komma överens om dessa positioner."

Och, avgörande, konsekvenserna sträcker sig bortom schack.

Kreativitet i verkligheten

Cully sa att ett diversifierat tillvägagångssätt kan hjälpa alla AI-system, inte bara de som bygger på förstärkningsinlärning. Han har länge använt mångfald för att träna fysiska system, inklusive ett sexbent robot som fick utforska olika typer av rörelser, innan han avsiktligt "skadade" den, så att den kunde fortsätta röra sig med några av de tekniker den hade utvecklat tidigare. "Vi försökte bara hitta lösningar som skilde sig från alla tidigare lösningar vi har hittat hittills." Nyligen har han också samarbetat med forskare för att använda mångfald för att identifiera lovande nya läkemedelskandidater och utveckla effektiva aktiehandelsstrategier.

"Målet är att generera en stor samling av potentiellt tusentals olika lösningar, där varje lösning är väldigt annorlunda från nästa," sa Cully. Så – precis som den diversifierade schackspelaren lärde sig att göra – för varje typ av problem kunde det övergripande systemet välja den bästa möjliga lösningen. Zahavys AI-system, sa han, visar tydligt hur "att söka efter olika strategier hjälper till att tänka utanför boxen och hitta lösningar."

Zahavy misstänker att för att AI-system ska kunna tänka kreativt måste forskare helt enkelt få dem att överväga fler alternativ. Den hypotesen antyder ett märkligt samband mellan människor och maskiner: Kanske är intelligens bara en fråga om beräkningskraft. För ett AI-system kanske kreativitet handlar om förmågan att överväga och välja från en tillräckligt stor buffé med alternativ. När systemet vinner belöningar för att välja en mängd olika optimala strategier, förstärks och stärks denna typ av kreativ problemlösning. I slutändan, i teorin, skulle det kunna efterlikna alla typer av problemlösningsstrategier som anses vara kreativa hos människor. Kreativitet skulle bli ett beräkningsproblem.

Liemhetcharat noterade att ett diversifierat AI-system är osannolikt att helt lösa det bredare generaliseringsproblemet inom maskininlärning. Men det är ett steg i rätt riktning. "Det mildrar en av bristerna," sa hon.

Mer praktiskt resonerar Zahavys resultat med de senaste ansträngningarna som visar hur samarbete kan leda till bättre prestation på svåra uppgifter bland människor. De flesta av hits på Billboard 100-listan skrevs av team av låtskrivare, till exempel, inte individer. Och det finns fortfarande utrymme för förbättringar. Det mångsidiga tillvägagångssättet är för närvarande beräkningsmässigt dyrt, eftersom det måste överväga så många fler möjligheter än ett typiskt system. Zahavy är inte heller övertygad om att även den diversifierade AlphaZero fångar hela spektrumet av möjligheter.

"Jag [tror fortfarande] att det finns utrymme att hitta olika lösningar", sa han. "Det är inte klart för mig att givet all information i världen finns det [bara] ett svar på varje fråga."

Quanta genomför en serie undersökningar för att bättre betjäna vår publik. Ta vår datavetenskaplig läsarundersökning och du kommer att delta för att vinna gratis Quanta handelsvaror.

plats_img

Senaste intelligens

plats_img