Zephyrnet-logo

AI-agenten met 'meerdere zelven' leren zich snel aan te passen in een veranderende wereld

Datum:

Elke dag jongleren we met verschillende behoeften. Ik heb honger maar ben uitgeput; moet ik op de bank ploffen of eten maken? Ik raak oververhit bij gevaarlijke temperaturen maar heb ook enorme dorst; moet ik het lauwe water opslurpen dat onder de zon heeft opgewarmd, of mijn hoofd in de vriezer steken tot ik het mentale vermogen heb om ijs te maken?

Wanneer we voor dilemma's komen te staan, volgen we vaak zonder erbij na te denken onze basisinstincten. Maar onder de motorkap concurreren meerdere neurale netwerken om op elk moment de 'beste' beslissing te nemen. Slaap over eten. Vriezer boven lauw water. Achteraf kunnen het vreselijke beslissingen zijn, maar de volgende keer leren we van onze fouten uit het verleden.

Ons aanpassingsvermogen aan een steeds veranderende wereld is een superkracht die momenteel de meeste AI-agenten ontgaat. Zelfs de meest geavanceerde AI-agenten falen - of hebben onhoudbare hoeveelheden rekentijd nodig - terwijl ze met tegenstrijdige doelen jongleren.

Voor een team onder leiding van Dr. Jonathan Cohen van het Princeton Neuroscience Institute is de reden simpel: machine learning-systemen werken over het algemeen als een enkele entiteit, gedwongen om één doel tegelijk te evalueren, berekenen en uitvoeren. Hoewel de AI kan leren van zijn fouten, worstelt hij om de juiste balans te vinden wanneer hij wordt uitgedaagd met meerdere tegengestelde doelen tegelijk.

Dus waarom de AI niet uit elkaar halen?

In een nieuwe studie gepubliceerd PNAS, nam het team een ​​pagina uit de cognitieve neurowetenschap en bouwde een modulaire AI-agent.

Het idee is ogenschijnlijk simpel. In plaats van een monolithische AI ​​- een enkel netwerk dat het hele "zelf" omvat - bouwde het team een ​​modulaire agent, elk onderdeel met zijn eigen "motivatie" en doelen, maar met het bevel over een enkel "lichaam". Net als in een democratische samenleving pleit het AI-systeem in zichzelf om te beslissen over de beste reactie, waarbij de actie die het meest waarschijnlijk de grootste winnende uitkomst zal opleveren, de volgende stap bepaalt.

In verschillende simulaties presteerde de modulaire AI beter dan zijn klassieke monolithische tegenhanger. Het aanpassingsvermogen kwam vooral tot uiting toen de onderzoekers kunstmatig het aantal doelen verhoogden dat het tegelijkertijd moest handhaven. De Lego-achtige AI paste zich snel aan, terwijl zijn monolithische tegenhanger moeite had om bij te blijven.

"Een van de meest fundamentele vragen over keuzevrijheid is hoe een individu omgaat met tegenstrijdige behoeften", aldus het team. Door een AI-agent te deconstrueren, geeft het onderzoek niet alleen inzicht in slimmere machine learning-agenten. Het maakt ook "de weg vrij voor het begrijpen van psychologische conflicten die inherent zijn aan de menselijke psyche", schreef Dr. Rober Boshra van Princeton University, die niet bij het werk betrokken was.

Het videospel van het leven

Hoe leren intelligente wezens tegenstrijdige behoeften in evenwicht te brengen in een complexe, veranderende wereld?

De filosofische vraag heeft meerdere gebieden achtervolgd - neurowetenschap, psychologie, economie - die zich verdiepen in de menselijke natuur. We hebben nog geen duidelijke antwoorden. Maar nu AI steeds vaker met vergelijkbare uitdagingen wordt geconfronteerd wanneer het de echte wereld binnenkomt, is het tijd om het eeuwenoude probleem frontaal aan te pakken.

De nieuwe studie ging de uitdaging aan in de vorm van een eenvoudige RPG (rollenspel). Er zijn twee personages die door een rasterachtige wereld navigeren en elk proberen middelen te vinden om te overleven.

De eerste deelnemer: de monolithische agent - ook wel bekend als het 'zelf' - getraind met behulp van deep-Q-learning (DQL). Gepopulariseerd door DeepMind, is het algoritme vooral krachtig in het uitzoeken van de volgende optimale stap, afhankelijk van de huidige status. Moet ik bijvoorbeeld, zoals in een videogame, links of rechts gaan? Welk schaak- of Go-stuk verplaatsen, en naar waar? Hier onderzoekt het algoritme de hele omgeving terwijl het een enkel beloningssignaal volgt, dat wil zeggen het uiteindelijke doel. In zekere zin is de monolithische agent een verenigd brein dat probeert het beste resultaat te maximaliseren na gelijktijdig alle bronnen gelijktijdig te hebben verwerkt.

De tegenstander: modulaire AI. Net als een octopus met semi-autonome ledematen, wordt de AI-agent opgesplitst in subagenten, elk met zijn eigen doelen en feedback. Om er een eerlijk gevecht van te maken, wordt elke module ook getraind met DQL. De afzonderlijke 'hersenen' observeren hun omgeving en leren de beste optie te selecteren, maar alleen afgestemd op hun eigen doelen. De voorspelde uitkomsten worden vervolgens opgeteld. Vervolgens wordt de oplossing met het potentieel optimale resultaat geselecteerd, waardoor de AI-agent naar zijn volgende keuze wordt geleid.

En het speelveld?

De game is een extreem uitgeklede versie van een survivalgame. Elke AI-agent dwaalt rond in een tweedimensionaal raster waarin in sommige regio's verschillende soorten bronnen zijn verborgen. Het doel is om de vier statistieken van de agent op het ingestelde niveau te houden, waarbij elk in de loop van de tijd geleidelijk afneemt. Wanneer meerdere statistieken tuimelen, is het aan de AI om te beslissen welke prioriteit moet krijgen.

Voor videogamers, beschouw de test als een nieuwe gamekaart en proberen middelen te vinden om bijvoorbeeld gezondheid, magie, uithoudingsvermogen en aanvalskracht te verbeteren. Voor ons dagelijks leven is het de balans tussen honger, temperatuur, slaap en andere fysiologische basisbehoeften.

"Als de agent bijvoorbeeld een lage 'honger'-statistiek had, zou hij de 'voedsel'-bron kunnen verzamelen door naar de locatie van die bron te gaan', legde het team uit.

Bos door de bomen

De eerste test begon met een relatief eenvoudige omgeving. De locatie voor elk grondstofdoel was vastgesteld op de hoek van de speelarena. Het monolithische middel behield gemakkelijk zijn vier statistieken na 30,000 trainingsstappen, hoewel het een periode van overschrijding en onderschrijding doormaakte totdat de beoogde doelen werden bereikt. De modulaire agent leerde daarentegen veel sneller. Na 5,000 leerstappen had de agent al een goed begrip van de 'toestand van de wereld'.

Een deel van de bekwaamheid van de modulaire AI kwam voort uit een intrinsiek gevoel van vrije verkenning, aldus de auteurs. In tegenstelling tot eerdere methoden voor modulaire systemen die verdelen en heersen om naar een einddoel te gaan, vertegenwoordigt de AI hier een meer holistische sociale relatie - een waarin sommige modules winnen en andere verliezen door een constante staat van interne concurrentie.

Omdat het 'lichaam' van de AI-agent alleen wordt geleid door de winnende module, moeten de verliezers instemmen met een beslissing waar ze het niet mee eens zijn en worden ze gedwongen een nieuwe realiteit in te gaan. Ze moeten zich dan snel aanpassen en de beste oplossing herberekenen voor de volgende stap. Met andere woorden, modules bevinden zich vaak buiten hun comfortzone. Het is keiharde liefde, maar de onverwachte resultaten dwingen hen om na te denken over nieuwe oplossingen - soms met betere resultaten die ze niet zouden hebben overwogen als ze het probleem alleen hadden aangepakt.

Over het algemeen vormt het modulaire systeem een ​​"deugdzame cyclus met verkenning" om AI-acties verder te verbeteren, zei studieauteur Zack Dulberg.

Dit aanpassingsvermogen kwam nog meer naar voren toen het team beide AI-agenten uitdaagde in veranderende omgevingen. In één test verplaatsten de resourcedoelposities zich op sporadische tijdschalen naar een willekeurige rasterlocatie. De modulaire AI pikte de veranderingen snel op en paste zich eraan aan, terwijl de monolithische agent veel slechter presteerde.

In een andere test draaide het team de knop hoger, waardoor de AI-agenten tegelijkertijd acht factoren moesten behouden in plaats van de oorspronkelijke vier. De test pakte het probleem aan dat berekeningen steeds onwaarschijnlijker worden in termen van tijd en energieverbruik naarmate het aantal variabelen toeneemt - ook wel de 'vloek van dimensionaliteit' genoemd.

De modulaire agent paste zich snel aan om middelen te zoeken om zijn doelen te bereiken. De monolithische agent daarentegen worstelde opnieuw en deed er veel langer over om terug te keren naar de gewenste niveaus voor elk van zijn statistieken.

Eén versus veel

De modulaire aanpak is een ander voorbeeld van het aanboren van neurowetenschap voor de ontwikkeling van AI, terwijl het inzicht geeft in hoe onze noggins werken.

Net als bij eerder werk laten de modulaire modules zien dat het mogelijk is om een ​​enkele AI-agent parallel afzonderlijke en eenvoudigere subproblemen te laten leren op een manier die relatief gedecentraliseerd is in termen van gegevensverwerking. Het toevoegen van een model met een hiërarchisch besturingssysteem zou de AI kunnen versterken, aldus de auteurs, omdat beide structuren in de natuurlijke wereld bestaan.

Voorlopig is elke module geprogrammeerd voor zijn eigen gewin - een veelvoud van zelven. Maar onze doelen in het leven zijn vaak met elkaar verbonden; dorst verlichten en hitte bestrijden sluiten elkaar bijvoorbeeld niet uit. Het team benadrukt de noodzaak om deze cross-overs te integreren - en te leren of ze erfelijk of aangeleerd zijn - in toekomstige tests.

Naar Dulberg, het onbekende maakt deel uit van de opwinding. “Hoe ontwikkelen modules zich? Welke kenmerken van de ontwikkelomgeving zetten verschillende oplossingen onder druk?” hij vroeg. "En verklaren de voordelen van modulariteit waarom interne psychologische conflicten zo centraal lijken te staan ​​in de menselijke conditie?"

Krediet van het beeld: Anestjev/Pixabay

spot_img

Laatste intelligentie

spot_img