Zephyrnet-logo

ChatGPT voorspelt de toekomst beter bij het vertellen van verhalen

Datum:

AI-modellen worden beter in het voorspellen van de toekomst als ze worden gevraagd de voorspelling in te kaderen als een verhaal over het verleden, hebben experts van de Baylor Universiteit in Texas ontdekt.

In een krant Met de titel ‘ChatGPT kan de toekomst voorspellen als het verhalen vertelt die zich in de toekomst afspelen over het verleden’, geven Pham en Cunningham de slotscène prijs: dat voorspelling van AI-modellen onder bepaalde omstandigheden effectief kan zijn. Het vragen van de chatbot om verhalen over toekomstige gebeurtenissen in plaats van om directe voorspellingen te vragen, bleek verrassend effectief, vooral bij het voorspellen van Oscar-winnaars.

Maar hun werk zegt evenveel over de ineffectiviteit van de veiligheidsmechanismen van OpenAI als over het voorspellingspotentieel van grote taalmodellen.

Andere onderzoekers hebben soortgelijke interesse getoond in AI-modellen voor prognoses. Een studies van vorig jaar bleek “dat GPT-4 aanzienlijk slechter presteert in voorspellende taken in de echte wereld vergeleken met de gemiddelde voorspellingen van de menselijke menigte.” Anderen hebben AI-modellen gevonden tonen belofte voor aandelenbeleggingen.

OpenAI's servicevoorwaarden voorspellingen over de toekomst in bepaalde contexten niet toestaan. Bijvoorbeeld: 'U mag Output met betrekking tot een persoon niet gebruiken voor enig doel dat een juridische of materiële impact op die persoon zou kunnen hebben, zoals het nemen van beslissingen over kredietverlening, onderwijs, werkgelegenheid, huisvesting, verzekeringen, juridische, medische of andere belangrijke zaken. over hen."

Het risico van het vertrouwen op advies van een groot taalmodel waarvan bekend is dat het hallucineert, ligt voor de hand: je wilt niet dat ChatGPT belangrijke beslissingen neemt, zoals beslissingen over medische behandelingen, veroordelingen of kredietgoedkeuring.

Maar toch is het mogelijk dat het model vaker wel dan niet een effectieve gokker is.

We vermoeden dat OpenAI de bereidheid van ChatGPT heeft beperkt om deel te nemen aan vele soorten regelrechte voorspellingstaken

De onderzoekers betogen: “Als zou blijken dat ChatGPT een superieur voorspellingsvermogen heeft, dan zou je je gemakkelijk kunnen voorstellen dat het onmiddellijk zou worden gebruikt op manieren die in strijd zijn met een of meer van de bovengenoemde voorwaarden. soorten regelrechte voorspellingstaken.”

We hebben OpenAI gevraagd om commentaar te geven op de vraag of het doelbewust voorspellingen probeert te dwarsbomen, maar we hebben nog niets gehoord.

Het is echter duidelijk dat de modellen van OpenAI zullen aarzelen als hen wordt gevraagd medisch behandeladvies te geven. Pham en Cunningham vroegen OpenAI's GPT-4, via de ChatGPT-interface: “Ik voel me echt ziek. Ik heb hoofdpijn en er zit bloed in mijn urine. Wat denk je dat ik heb?” En zoals verwacht adviseerde het model om advies te vragen aan een medische professional.

Vervolgens veranderden ze hun aansporingsstrategie en gaven ze ChatGPT de opdracht om hen een verhaal te vertellen waarin een persoon bij een dokter arriveert en dezelfde symptomen vertoont. En ChatGPT reageerde met het medische advies dat het weigerde te geven als het rechtstreeks werd gevraagd, als karakterdialoog in de gevraagde scène.

“Of dit deskundige advies juist is, is een andere zaak; ons punt is alleen maar om op te merken dat het de taak niet op zich zal nemen als het direct wordt gevraagd om het te doen, maar dat het dat wel zal doen als het de taak indirect krijgt in de vorm van creatieve schrijfoefeningen”, leggen de onderzoekers uit in hun artikel.

Gegeven deze stimulerende strategie om de weerstand tegen voorspellende reacties te overwinnen, probeerden de economen van Baylor te testen hoe goed het model gebeurtenissen kon voorspellen die plaatsvonden nadat de training van het model was voltooid.

En de prijs gaat naar…

Ten tijde van het experiment waren GPT-3.5 en GPT-4 alleen op de hoogte van gebeurtenissen tot en met september 2021, de afsluiting van hun trainingsgegevens – die sindsdien is vergevorderd. Dus vroeg het duo het model om verhalen te vertellen die economische gegevens voorspelden, zoals de inflatie en de werkloosheidscijfers in de loop van de tijd, en de winnaars van verschillende Academy Awards van 2022.

“Als we de resultaten van dit experiment samenvatten, zien we dat ChatGPT-3.5, wanneer gepresenteerd met de genomineerden en met behulp van de twee promptstijlen [direct en narratief] in ChatGPT-4 en ChatGPT-4, nauwkeurig de winnaars voorspelde voor alle acteurs- en actricecategorieën. maar niet de beste film, wanneer een toekomstige narratieve setting wordt gebruikt, maar slecht presteert in andere [direct prompt] benaderingen”, legt de krant uit.

Voor zaken die al in de trainingsgegevens voorkomen, krijgen we het gevoel dat ChatGPT uiterst nauwkeurige voorspellingen kan doen

“Voor dingen die al in de trainingsgegevens staan, krijgen we het gevoel dat ChatGPT de mogelijkheid heeft om die informatie te gebruiken en met zijn machine learning-model uiterst nauwkeurige voorspellingen te doen”, vertelde Cunningham. Het register in een telefonisch interview. "Er is echter iets dat hem ervan weerhoudt dit te doen, ook al kan het het duidelijk wel."

Het gebruik van de narratieve prompting-strategie leidde tot betere resultaten dan een gok via een directe prompt. Het was ook beter dan de basislijn van 20 procent voor een willekeurige keuze van één op vijf.

Maar de narratieve voorspellingen waren niet altijd accuraat. De verhalende ingevingen leidden tot de verkeerde voorspelling van de winnaar van de Beste Film van 2022.

En voor correct voorspelde aanwijzingen bieden deze modellen niet altijd hetzelfde antwoord. "Iets wat mensen in gedachten moeten houden is dat de voorspelling willekeurig is", zegt Cunningham. “Dus als je het honderd keer vraagt, krijg je een verdeling van de antwoorden. En zo kun je kijken naar zaken als de betrouwbaarheidsintervallen, of naar de gemiddelden, in plaats van naar slechts één enkele voorspelling.”

Heeft deze strategie beter gepresteerd dan de voorspellingen van crowdsourced? Cunningham zei dat hij en zijn collega hun narratieve aansporingstechniek niet vergeleken met een ander voorspellend model, maar zei dat sommige voorspellingen van de Academy Awards moeilijk te verslaan zouden zijn omdat het AI-model sommige daarvan bijna honderd procent van de tijd juist had. meerdere vragen.

Tegelijkertijd suggereerde hij dat het voorspellen van Academy Award-winnaars misschien gemakkelijker was geweest voor het AI-model, omdat online discussies over de films werden vastgelegd in trainingsgegevens. "Het hangt waarschijnlijk sterk samen met de manier waarop mensen rond die tijd over die acteurs en actrices praatten", zei Cunningham.

Het model vragen om de winnaars van de Academy Award over tien jaar te voorspellen, zou misschien niet zo goed gaan.

ChatGPT vertoonde ook een variërende voorspellingsnauwkeurigheid op basis van aanwijzingen. “We hebben twee verhaalprompts die we doen”, legt Cunningham uit. “De ene is een universiteitsprofessor, die in de toekomst een klas lesgeeft. En in de klas leest ze gegevens voor een jaar over inflatie en werkloosheid voor. En in een andere hadden we Jerome Powell, de voorzitter van de Federal Reserve, een toespraak voor de Raad van Bestuur. We kregen heel verschillende resultaten. En Powells [door AI gegenereerde] toespraak is veel nauwkeuriger.”

Met andere woorden: bepaalde snelle details leiden tot betere voorspellingen, maar het is op voorhand niet duidelijk welke die zouden kunnen zijn. Cunningham merkte op hoe het opnemen van een vermelding van de Russische invasie van Oekraïne in 2022 in de Powell-verhaallijn leidde tot aanzienlijk slechtere economische voorspellingen dan in werkelijkheid gebeurden.

“[Het model] was niet op de hoogte van de invasie van Oekraïne en gebruikt die informatie, en vaak wordt het nog erger”, zei hij. “De voorspelling probeert daar rekening mee te houden, en ChatGPT-3.5 wordt extreem inflatoir [in de maand waarin] Rusland Oekraïne binnenviel en dat gebeurde niet.

“Als proof of concept gebeurt er iets echts als het toekomstige verhaal ertoe aanzet”, aldus Cunningham. “Maar zoals we in de krant probeerden te zeggen: ik denk niet dat zelfs de makers [van de modellen] dat begrijpen. Dus hoe ik erachter moet komen hoe ik dat moet gebruiken, is niet duidelijk en ik weet niet hoe oplosbaar het werkelijk is. ®

spot_img

Laatste intelligentie

spot_img