Zephyrnet-logo

Google DeepMind traint 'kunstmatig brainstormen' in schaak-AI | Quanta-tijdschrift

Datum:

Introductie

Toen Covid-19 begin 2020 mensen naar huis stuurde, zei de computerwetenschapper Tom Zahavy herontdekt schaken. Hij had als kind gespeeld en onlangs dat van Garry Kasparov gelezen Diep nadenken, een memoires van de wedstrijden van de grootmeester in 1997 tegen IBM's schaakcomputer Deep Blue. Hij bekeek schaakvideo's op YouTube en The Queen's Gambit op Netflix.

Ondanks zijn hernieuwde interesse was Zahavy niet op zoek naar manieren om zijn spel te verbeteren. "Ik ben geen geweldige speler", zei hij. “Ik ben beter in schaakpuzzels” – arrangementen van stukjes, vaak gekunsteld en waarschijnlijk niet voorkomend tijdens een echt spel, die een speler uitdagen om creatieve manieren te vinden om voordeel te behalen.

De puzzels kunnen spelers helpen hun vaardigheden aan te scherpen, maar recentelijk hebben ze geholpen de verborgen beperkingen van schaakprogramma's bloot te leggen. Een van de meest beruchte puzzels, bedacht door de wiskundige Sir Roger Penrose in 2017, plaatst sterkere zwarte stukken (zoals de dame en de torens) op het bord, maar in lastige posities. Een ervaren menselijke speler die wit speelde, kon het spel gemakkelijk in remise sturen, maar krachtige computerschaakprogramma's zouden zeggen dat zwart een duidelijk voordeel had. Dat verschil, zei Zahavy, suggereerde dat hoewel computers de beste menselijke spelers ter wereld zouden kunnen verslaan, ze nog niet elk soort lastig probleem konden herkennen en oplossen. Sindsdien hebben Penrose en anderen uitgestrekte verzamelingen puzzels bedacht die computers moeilijk kunnen oplossen.

Schaken is lange tijd een toetssteen geweest voor het testen van nieuwe ideeën kunstmatige intelligentie, en de puzzels van Penrose wekten de interesse van Zahavy. “Ik probeerde te begrijpen wat deze posities zo moeilijk maakt voor computers, terwijl we er tenminste een aantal als mens kunnen oplossen,” zei hij. “Ik was helemaal gefascineerd.” Het groeide al snel uit tot een professionele interesse: als onderzoekswetenschapper bij Google DeepMind onderzoekt Zahavy creatieve probleemoplossende benaderingen. Het doel is om AI-systemen te ontwerpen met een spectrum aan mogelijke gedragingen die verder gaan dan het uitvoeren van één enkele taak.

Een traditioneel AI-schaakprogramma, getraind om te winnen, is misschien niet logisch in een Penrose-puzzel, maar Zahavy vermoedde dat een programma dat bestaat uit veel verschillende systemen, die als een groep samenwerken, vooruitgang zou kunnen boeken. Daarom ontwikkelden hij en zijn collega's een manier om meerdere (tot wel tien) besluitvormings-AI-systemen samen te voegen, elk geoptimaliseerd en getraind voor verschillende strategieën, te beginnen met AlphaZero, het krachtige schaakprogramma van DeepMind. Het nieuwe systeem, zij gemeld in augustus, speelde beter dan AlphaZero alleen, en toonde meer vaardigheid – en meer creativiteit – bij het omgaan met de puzzels van Penrose. Deze vaardigheden kwamen in zekere zin voort uit zelf-samenwerking: als de ene aanpak tegen een muur stuitte, ging het programma eenvoudigweg over op de andere.

Die aanpak is fundamenteel logisch, zei Allison Liemhetcharat, een computerwetenschapper bij DoorDash die heeft gewerkt met multi-agentbenaderingen voor het oplossen van problemen in de robotica. “Met een populatie agenten is de kans groter dat de puzzels zich in het domein bevinden waarin ten minste één van de agenten is getraind.”

Het werk suggereert dat teams van diverse AI-systemen op efficiënte wijze harde problemen kunnen aanpakken die ver buiten het speelbord liggen. “Dit is een goed voorbeeld van het feit dat het zoeken naar meer dan één manier om een ​​probleem op te lossen – zoals het winnen van een schaakspel – veel voordelen biedt,” zei Antoine Cully, een AI-onderzoeker aan het Imperial College London die niet betrokken was bij het DeepMind-project. Hij vergeleek het met een kunstmatige versie van menselijke brainstormsessies. “Dit denkproces leidt tot creatieve en effectieve oplossingen die je zou missen zonder deze oefening te doen.”

Op jacht naar mislukkingen

Voordat Zahavy bij DeepMind kwam, was hij geïnteresseerd in diepgaand versterkend leren, een gebied van kunstmatige intelligentie waarbij een systeem neurale netwerken gebruikt om met vallen en opstaan ​​een taak te leren. Het is de basis voor de krachtigste schaakprogramma's (en wordt gebruikt in andere AI-toepassingen zoals zelfrijdende auto's). Het systeem begint bij zijn omgeving. Bij schaken omvat de omgeving bijvoorbeeld het speelbord en mogelijke zetten. Als het de taak is om een ​​auto te besturen, omvat de omgeving alles rondom het voertuig. Het systeem neemt vervolgens beslissingen, onderneemt actie en evalueert hoe dicht het bij zijn doel is gekomen. Naarmate het dichter bij het doel komt, verzamelt het beloningen, en naarmate het systeem beloningen verzamelt, verbetert het de prestaties. Het ‘diepe’ deel van deze benadering beschrijft de neurale netwerken die worden gebruikt om gedrag te analyseren en te beoordelen.

Versterkend leren is hoe AlphaZero leerde een schaakmeester te worden. Diepe geest gerapporteerd dat het tijdens de eerste negen uur training van het programma, in december 2017, 44 miljoen wedstrijden tegen zichzelf speelde. Aanvankelijk werden zijn zetten willekeurig bepaald, maar na verloop van tijd leerde hij zetten te selecteren die waarschijnlijker tot schaakmat zouden leiden. Na slechts enkele uren training ontwikkelde AlphaZero het vermogen om elke menselijke schaker te verslaan.

Maar hoe succesvol versterkend leren ook kan zijn, het leidt niet altijd tot strategieën die een algemeen begrip van het spel weerspiegelen. De afgelopen vijftig jaar hebben Zahavy en anderen een toename opgemerkt in de eigenaardige problemen die kunnen optreden op systemen die met vallen en opstaan ​​zijn getraind. Een systeem dat bijvoorbeeld videogames speelt, kan een maas in de wet vinden en uitzoeken hoe je vals kunt spelen of een niveau kunt overslaan, of het kan net zo gemakkelijk vastlopen in een zich herhalende lus. Puzzels in Penrose-stijl suggereerden op dezelfde manier een soort blinde vlek of glitch in AlphaZero: het kon niet bedenken hoe het een probleem moest aanpakken dat het nog nooit eerder had gezien.

Maar misschien zijn niet alle problemen alleen maar fouten. Zahavy vermoedde dat de blinde vlekken van AlphaZero misschien wel iets anders vermomds waren: beslissingen en gedragingen die verband hielden met de interne beloningen van het systeem. Diepgaande leersystemen, zei hij, weten niet hoe ze moeten falen – of zelfs hoe ze mislukkingen moeten herkennen. Het vermogen om te falen wordt al lang in verband gebracht met het creatief oplossen van problemen. ‘Creativiteit heeft een menselijke kwaliteit’, schreef Kasparov Diep nadenken. “Het accepteert het idee van falen.”

AI-systemen doen dat doorgaans niet. En als een systeem niet inziet dat het zijn taak niet heeft voltooid, dan mag het niets anders proberen. In plaats daarvan zal het gewoon blijven proberen te doen wat het al heeft gedaan. Dat is waarschijnlijk wat leidde tot die doodlopende wegen in videogames – of tot het vastlopen van een aantal Penrose-uitdagingen, zei Zahavy. Het systeem jaagde op ‘rare soorten intrinsieke beloningen’, zei hij, die het tijdens zijn training had ontwikkeld. Dingen die van buitenaf op fouten leken, waren waarschijnlijk het gevolg van het ontwikkelen van specifieke, maar uiteindelijk onsuccesvolle strategieën.

Het systeem beschouwde deze rare beloningen als stappen in de richting van het grotere doel, dat het eigenlijk niet kon bereiken, en het wist niet hoe het iets nieuws moest proberen. ‘Ik probeerde ze te begrijpen,’ zei Zahavy.

Een beter spel

Een deel van de reden waarom deze storingen zo veel gevolgen kunnen hebben – en zo nuttig zijn – komt voort uit wat onderzoekers erkennen als een probleem met generalisatie. Hoewel versterkende leersystemen een effectieve strategie kunnen ontwikkelen om een ​​bepaalde situatie aan een specifieke actie te koppelen – wat onderzoekers een ‘beleid’ noemen – kunnen ze deze niet op verschillende problemen toepassen. “Wat normaal gesproken de neiging heeft te gebeuren bij versterkend leren, vrijwel ongeacht de methode, is dat je het beleid krijgt dat het specifieke exemplaar van het probleem oplost waarop je hebt getraind, maar dat het niet generaliseert”, zegt Julian Togelius, een computerwetenschapper aan de New York University en onderzoeksdirecteur bij modl.ai.

Zahavy was van mening dat de Penrose-puzzels precies dit soort generalisatie vereisten. Misschien kon AlphaZero de meeste puzzels niet oplossen omdat het zo gefocust was op het winnen van hele games, van begin tot eind. Maar die aanpak introduceerde blinde vlekken die blootgelegd werden door de onwaarschijnlijke rangschikking van stukjes in Penrose-puzzels. Misschien, zo redeneerde hij, zou het programma de puzzel kunnen oplossen als het voldoende creatieve ruimte had om te brainstormen en toegang te krijgen tot verschillende trainingsmethoden.

Dus verzamelden hij en zijn collega's eerst een set van 53 Penrose-puzzels en 15 extra uitdagingspuzzels. Op zichzelf loste AlphaZero minder dan 4% van de Penrose-puzzels op en minder dan 12% van de rest. Zahavy was niet verrast: veel van deze puzzels zijn ontworpen door schaakmeesters om computers opzettelijk te verwarren.

Als test probeerden de onderzoekers AlphaZero te trainen om tegen zichzelf te spelen, waarbij ze het Penrose-puzzelarrangement als startpositie gebruikten, in plaats van het volledige bord met typische spellen. De prestaties verbeterden dramatisch: het loste 96% van de Penrose-puzzels op en 76% van de uitdagingen. Over het algemeen kan AlphaZero, als hij traint op een specifieke puzzel, die puzzel oplossen, net zoals hij kan winnen als hij traint voor een volledig spel. Misschien, dacht Zahavy, als een schaakprogramma op de een of andere manier toegang zou kunnen hebben tot al die verschillende versies van AlphaZero, getraind op die verschillende posities, dan zou die diversiteit het vermogen kunnen aanwakkeren om nieuwe problemen productief te benaderen. Misschien zou het kunnen generaliseren, met andere woorden, en niet alleen de Penrose-puzzels oplossen, maar elk breder schaakprobleem.

Zijn groep besloot erachter te komen. Ze bouwden de nieuwe, gediversifieerde versie van AlphaZero, die meerdere AI-systemen omvat die onafhankelijk en in verschillende situaties trainden. Het algoritme dat het totale systeem bestuurt, fungeert als een soort virtuele matchmaker, zei Zahavy: een algoritme dat is ontworpen om te identificeren welke agent de beste kans van slagen heeft wanneer het tijd is om een ​​zet te doen. Hij en zijn collega's hebben ook een 'diversiteitsbonus' ingevoerd: een beloning voor het systeem wanneer het strategieën uit een grote selectie keuzes haalt.

Toen het nieuwe systeem losgelaten werd om zijn eigen spellen te spelen, constateerde het team veel variatie. De gediversifieerde AI-speler experimenteerde met nieuwe, effectieve openingen en nieuwe – maar goede – beslissingen over specifieke strategieën, zoals wanneer en waar te kasteelen. In de meeste wedstrijden versloeg het de originele AlphaZero. Het team ontdekte ook dat de gediversifieerde versie twee keer zoveel uitdagingspuzzels kon oplossen als het origineel en meer dan de helft van de totale catalogus van Penrose-puzzels kon oplossen.

“Het idee is dat in plaats van één oplossing of één enkel beleid te vinden dat elke speler zou kunnen verslaan, hier het idee van creatieve diversiteit wordt gebruikt,” zei Cully.

Met toegang tot meer en verschillende gespeelde games, zei Zahavy, had de gediversifieerde AlphaZero meer opties voor lastige situaties toen deze zich voordeden. “Als je controle hebt over het soort games dat het ziet, heb je in principe ook controle over hoe het zal generaliseren”, zei hij. Die rare intrinsieke beloningen (en de bijbehorende bewegingen) kunnen sterke punten worden voor divers gedrag. Vervolgens zou het systeem kunnen leren de uiteenlopende benaderingen te beoordelen en te waarderen, en te zien wanneer deze het meest succesvol waren. “We hebben vastgesteld dat deze groep agenten daadwerkelijk tot overeenstemming kan komen over deze standpunten.”

En, cruciaal, de implicaties reiken verder dan schaken.

Real-life creativiteit

Cully zei dat een gediversifieerde aanpak elk AI-systeem kan helpen, niet alleen systemen die gebaseerd zijn op versterkend leren. Hij heeft diversiteit lang gebruikt om fysieke systemen te trainen, waaronder: zespotige robot die verschillende soorten bewegingen mocht verkennen, voordat hij het opzettelijk ‘verwondde’, waardoor het kon blijven bewegen met behulp van enkele van de technieken die het eerder had ontwikkeld. “We probeerden alleen maar oplossingen te vinden die anders waren dan alle eerdere oplossingen die we tot nu toe hebben gevonden.” Onlangs heeft hij ook samengewerkt met onderzoekers om diversiteit te gebruiken om veelbelovende nieuwe kandidaat-geneesmiddelen te identificeren en effectieve aandelenhandelstrategieën te ontwikkelen.

“Het doel is om een ​​grote verzameling van potentieel duizenden verschillende oplossingen te genereren, waarbij elke oplossing heel anders is dan de volgende”, aldus Cully. Dus – net zoals de gediversifieerde schaker leerde te doen – kon het totale systeem voor elk type probleem de best mogelijke oplossing kiezen. Het AI-systeem van Zahavy laat volgens hem duidelijk zien hoe “het zoeken naar diverse strategieën helpt om buiten de gebaande paden te denken en oplossingen te vinden.”

Zahavy vermoedt dat als AI-systemen creatief willen denken, onderzoekers ze simpelweg meer opties moeten laten overwegen. Die hypothese suggereert een merkwaardig verband tussen mens en machine: misschien is intelligentie slechts een kwestie van rekenkracht. Voor een AI-systeem komt creativiteit misschien neer op het vermogen om een ​​voldoende groot aanbod aan opties te overwegen en te selecteren. Naarmate het systeem beloond wordt voor het selecteren van een verscheidenheid aan optimale strategieën, wordt dit soort creatieve probleemoplossing steeds versterkt. Uiteindelijk zou het in theorie elke vorm van probleemoplossende strategie kunnen nabootsen die bij mensen als creatief wordt beschouwd. Creativiteit zou een computationeel probleem worden.

Liemhetcharat merkte op dat het onwaarschijnlijk is dat een gediversifieerd AI-systeem het bredere generalisatieprobleem bij machinaal leren volledig zal oplossen. Maar het is een stap in de goede richting. "Het verzacht een van de tekortkomingen", zei ze.

Meer praktisch resoneren de resultaten van Zahavy met recente inspanningen die laten zien hoe samenwerking kan leiden tot betere prestaties bij moeilijke taken onder mensen. De meeste hits op de Billboard 100-lijst zijn bijvoorbeeld geschreven door teams van songwriters, en niet door individuen. En er is nog ruimte voor verbetering. De diverse aanpak is momenteel computationeel duur, omdat er met zoveel meer mogelijkheden rekening moet worden gehouden dan bij een typisch systeem. Zahavy is er ook niet van overtuigd dat zelfs de gediversifieerde AlphaZero het hele spectrum aan mogelijkheden omvat.

“Ik denk nog steeds dat er ruimte is om verschillende oplossingen te vinden”, zei hij. “Het is mij niet duidelijk dat er, gegeven alle gegevens ter wereld, slechts één antwoord op elke vraag bestaat.”

Quanta voert een reeks onderzoeken uit om ons publiek beter van dienst te zijn. Neem onze lezersenquête informatica en je doet mee om gratis te winnen Quanta handelswaar.

spot_img

Laatste intelligentie

spot_img