Zephyrnet-logo

Iedereen begroet Cicero, de Veroveraar - AI verslaat mensen in diplomatie

Datum:

Meta Platforms Inc, het moederbedrijf van Facebook, zei dat het een AI heeft gemaakt die mensen te slim af kan zijn in een online versie van het populaire strategiespel Diplomacy, waarin zeven spelers strijden om geografische controle over Europa door stukken op een kaart te verplaatsen.

In een paper gepubliceerd op Science.com, zei Meta Cicero was de eerste AI-agent die prestaties op menselijk niveau behaalde in diplomatie, een spel met zowel samenwerking als competitie dat de nadruk legt op onderhandeling in natuurlijke taal en tactische coördinatie tussen zeven spelers.

In een totaal van 40 anonieme spellen van online diplomatie, zei Meta dat Cicero meer dan het dubbele van de gemiddelde score van de menselijke spelers had behaald en in de top 10% van deelnemers die meer dan één spel speelden, had behaald.

De leidende technologiegroep zei dat dit deel uitmaakte van zijn strategische en langetermijndoelstelling op het gebied van kunstmatige intelligentie om agenten te bouwen die kunnen plannen, coördineren en onderhandelen met mensen in natuurlijke taal.

Hoe belangrijk is Cicero?

Meta zegt dat Cicero behoorlijk belangrijk is omdat de AI afhankelijk is van niet-vijandige omgevingen.

In tegenstelling tot eerdere grote successen voor multi-agent AI in puur vijandige omgevingen, zoals Chess (2), Go (3) en Poker (4), waar communicatie geen waarde heeft, maakt Cicero gebruik van een strategische redeneermachine en bestuurbare dialoogmodule.

Om deze redenen zegt meta dat diplomatie heeft gediend als een uitdagende maatstaf voor multi-agent leren.

“Cicero koppelt een bestuurbare dialoogmodule aan een strategische redeneermachine. Op elk punt in het spel modelleert Cicero hoe de andere spelers zich waarschijnlijk zullen gedragen op basis van de spelstatus en hun gesprekken”, zegt Meta.

De AI plant vervolgens hoe de spelers kunnen coördineren in hun wederzijds voordeel en zet deze plannen om in berichten in natuurlijke taal.

Gezond wantrouwen

Cicero vermijdt blindelings te vertrouwen op voorstellen van andere spelers en verwerpt plannen die een lage "voorspelde waarde" hebben en die parallel lopen aan haar eigen belangen.

Vanwege het feit dat dialoog in diplomatie privé plaatsvindt tussen paren spelers, redeneert en analyseert Cicero de informatie waartoe spelers toegang hebben bij het doen van voorspellingen.

"Als Cicero bijvoorbeeld een aanval coördineert met een bondgenoot tegen een tegenstander, moet Cicero's voorspelling van het beleid van de tegenstander verklaren dat de tegenstander niet op de hoogte is van de beoogde coördinatie", aldus Meta.

Meta zegt dat het Cicero tussen 40 augustus en 19 oktober 13 anoniem heeft ingevoerd in 2022 Diplomacy-spellen in een online competitie van menselijke spelers.

In de loop van 72 uur spelen, waarbij 5,277 berichten werden verzonden, stond Cicero in de top 10% van deelnemers die meer dan één spel speelden, zei het.

Meta zegt dat het gegevens heeft verzameld van 125,261 spellen van Diplomacy die online zijn gespeeld op webDiplomacy.net. Van deze spellen bevatten in totaal 40,408 spellen dialoog, met in totaal 12,901,662 berichten die tussen spelers werden uitgewisseld.

Prompt: "Robot verslaat iedereen in diplomatiespel"

Prompt: "Robot verslaat iedereen in een diplomatiespel" (door AI gegenereerd).

Meta merkt op dat de nieuwe AI verre van perfect is

Cicero stuurde berichten die fouten bevatten, soms in tegenspraak waren met zijn eigen plannen en strategische blunders maakten.

Maar Meta houdt vol dat mensen er toch voor kozen om met de AI samen te werken in plaats van met andere spelers zonder te beseffen dat het een Bot was.

“Bijna alle eerdere AI-doorbraken in games waren in zero-sum (2p0s)-instellingen voor twee spelers, waaronder schaken, Go, heads-up poker en StarCraft. In eindige 2p0s-spellen zullen bepaalde algoritmen voor versterkend leren (RL) die leren door tegen zichzelf te spelen - een proces dat bekend staat als self-play - convergeren naar een beleid dat onverslaanbaar is in verwachting in gebalanceerde spellen, "voegde Meta toe in de krant. "Met andere woorden, elk eindig 2p0s-spel kan worden opgelost via zelfspel met voldoende reken- en modelcapaciteit."

Meta zei echter met betrekking tot games waarbij samenwerking betrokken is, dat self-play zonder menselijke gegevens niet langer gegarandeerd een beleid vindt dat goed presteert met mensen, zelfs met oneindige reken- en modelcapaciteit, omdat de self-play-agent kan convergeren naar een beleid dat is onverenigbaar met menselijke normen en verwachtingen.

Meta voegde eraan toe dat Cicero waarschijnlijke acties voor elke speler anticipeert op basis van de status van het bord en de dialoog, en dat gebruikt als uitgangspunt voor een planningsalgoritme met behulp van RL-getrainde modellen.

De AI gebruikt een module voor strategisch redeneren om op intelligente wijze intenties en acties te selecteren, zegt het bedrijf.

Deze module voert vervolgens een planningsalgoritme uit dat het beleid van alle andere spelers voorspelt op basis van de spelstatus en dialoog en dat rekening houdt met zowel de kracht van verschillende acties als hun waarschijnlijkheid in menselijke spellen. Op basis van deze informatie en variabelen wordt de beste optimale actie voor Cicero ondernomen.

Onder de oprichter en CEO van Meta, Mark Zuckerberg, heeft het bedrijf zwaar geïnvesteerd in AI en de metaverse om te profiteren van de snelgroeiende industrie die wordt gezien als de toekomst van technologie.

Voor MetaNieuws.

spot_img

Laatste intelligentie

spot_img