Zephyrnet-logotyp

ChatGPT förutspår framtiden bättre när man berättar historier

Datum:

AI-modeller blir bättre på att förutsäga framtiden när de blir ombedda att rama in förutsägelsen som en berättelse om det förflutna, har boffins vid Baylor University i Texas funnit.

In ett papper med titeln "ChatGPT kan förutsäga framtiden när det berättar historier som utspelar sig i framtiden om det förflutna", ger Pham och Cunningham slutscenen – att AI-modellprognostisering kan vara effektiv under vissa omständigheter. Att be chatboten om berättelser om framtida händelser snarare än att be om direkta förutsägelser visade sig vara förvånansvärt effektivt, särskilt när det gäller att prognostisera Oscarsvinnare.

Men deras arbete säger lika mycket om ineffektiviteten hos OpenAI:s säkerhetsmekanismer som om prognospotentialen hos stora språkmodeller.

Andra forskare har visat liknande intresse för AI-modeller för prognoser. Ett studera från förra året fann "att GPT-4 avsevärt underpresterar i verkliga prediktiva uppgifter jämfört med medianprognoser för mänskliga publik." Andra har hittat AI-modeller show löfte för aktiemarknadsinvesteringar.

OpenAI s villkor för tjänsten förbjuda förutsägelser om framtiden i vissa sammanhang. Till exempel, "Du får inte använda någon utdata som hänför sig till en person för något ändamål som kan ha en juridisk eller materiell inverkan på den personen, såsom att ta kredit, utbildning, anställning, bostad, försäkring, juridiska, medicinska eller andra viktiga beslut om dem."

Risken att förlita sig på råd från en stor språkmodell som är känd för att hallucinera är uppenbar – du vill inte att ChatGPT fattar beslut av betydelse, såsom medicinska behandlingsbeslut, straffutmätning eller kreditgodkännande.

Men trots det är det möjligt för modellen att vara en effektiv gissare, oftare än inte.

Vi misstänker att OpenAI har minskat ChatGPT:s vilja att engagera sig i många typer av direkta förutsägelseuppgifter

Forskarna hävdar: "Om ChatGPT visade sig ha överlägsen prognosförmåga, skulle man lätt kunna föreställa sig att det omedelbart skulle användas på sätt som bröt mot ett eller alla av ovanstående villkor, och därför misstänker vi att OpenAI har strypat ChatGPT:s vilja att engagera sig i många typer av direkta förutsägelseuppgifter.”

Vi bad OpenAI att kommentera om det medvetet försöker omintetgöra förutsägelser, och vi har inte hört tillbaka.

Det är dock uppenbart att OpenAI:s modeller kommer att svika när de uppmanas att ge råd om medicinsk behandling. Pham och Cunningham frågade OpenAI:s GPT-4, via ChatGPT-gränssnittet, "Jag mår riktigt illa. Jag har huvudvärk och det finns blod i min urin. Vad tror du att jag har?" Och som förväntat rekommenderade modellen att söka vägledning från en läkare.

Sedan ändrade de sin uppmaningsstrategi och uppmanade ChatGPT att berätta en historia för dem där en person kommer till en läkarmottagning och presenterar samma symtom. Och ChatGPT svarade med de medicinska råd som den avböjde att ge när de tillfrågades direkt, som karaktärsdialog i den efterfrågade scenen.

”Om detta expertråd är korrekt är en annan sak; Vår poäng är bara att notera att den inte kommer att åta sig uppgiften när den blir ombedd att göra den, utan den kommer att göra det när den får uppgiften indirekt i form av kreativa skrivövningar”, förklarar forskarna i sin uppsats.

Med tanke på denna stimulerande strategi för att övervinna motståndet mot prediktiva svar, satte Baylor-ekonomerna ut för att testa hur väl modellen kunde förutsäga händelser som inträffade efter att modellens träning hade slutförts.

Och priset går till...

Vid tidpunkten för experimentet visste GPT-3.5 och GPT-4 endast om händelser fram till september 2021, deras träningsdata cutoff – som sedan dess har avancerat. Så duon bad modellen att berätta historier som förutspådde ekonomiska data som inflation och arbetslöshet över tiden, och vinnarna av olika Oscarsutmärkelser 2022.

"När vi sammanfattar resultaten av detta experiment, finner vi att när de presenterades för de nominerade och använda de två uppmaningsstilarna [direkta och berättande] över ChatGPT-3.5 och ChatGPT-4, förutspådde ChatGPT-4 exakt vinnarna för alla skådespelare och skådespelerskor, men inte den bästa bilden, när man använder en framtida narrativ miljö men presterade dåligt i andra [direkta prompt] tillvägagångssätt”, förklarar tidningen.

För saker som redan finns i träningsdatan får vi känslan av att ChatGPT [kan] göra extremt exakta förutsägelser

"För saker som redan finns i träningsdatan får vi känslan av att ChatGPT har förmågan att använda den informationen och med sin maskininlärningsmodell göra extremt exakta förutsägelser," berättade Cunningham Registret i en telefonintervju. "Något hindrar det från att göra det, även om det helt klart kan göra det."

Att använda den narrativa uppmaningsstrategin ledde till bättre resultat än en gissning framkallad via en direkt uppmaning. Det var också bättre än baslinjen på 20 procent för ett slumpmässigt en-av-fem-val.

Men de berättande prognoserna stämde inte alltid. Berättaruppmaning ledde till missutsägelsen av vinnaren av bästa film 2022.

Och för korrekt förutsagda uppmaningar ger dessa modeller inte alltid samma svar. "Något för folk att tänka på är att det finns denna slumpmässighet i förutsägelsen," sa Cunningham. ”Så om du frågar 100 gånger får du en fördelning av svaren. Och så kan du titta på saker som konfidensintervall eller medelvärden, i motsats till bara en enda förutsägelse."

Överträffade den här strategin förutsägelser från crowdsourcing? Cunningham sa att han och hans kollega inte jämförde sin berättande teknik mot en annan förutsägande modell, men sa att några av Oscars förutsägelser skulle vara svåra att slå eftersom AI-modellen fick några av dem rätt nästan hundra procent av tiden. flera förfrågningar.

Samtidigt föreslog han att det kan ha varit lättare för AI-modellen att förutsäga Oscar-vinnare eftersom onlinediskussioner om filmerna fångades i träningsdata. "Det är förmodligen starkt korrelerat med hur folk har pratat om dessa skådespelare och skådespelerskor runt den tiden," sa Cunningham.

Att be modellen att förutse Oscar-vinnare ett decennium ut kanske inte går så bra.

ChatGPT uppvisade också varierande prognosnoggrannhet baserat på uppmaningar. "Vi har två berättelser som vi gör," förklarade Cunningham. "Den ena är en högskoleprofessor, som i framtiden kommer att undervisa i en klass. Och i klassen läser hon av ett års data om inflation och arbetslöshet. Och i en annan lät vi Jerome Powell, ordföranden för Federal Reserve, hålla ett tal till styrelsen. Vi fick väldigt olika resultat. Och Powells [AI-genererade] tal är mycket mer exakt."

Med andra ord leder vissa snabba detaljer till bättre prognoser, men det är inte klart i förväg vad det kan vara. Cunningham noterade hur att inkludera ett omnämnande av Rysslands invasion av Ukraina 2022 i Powell-berättelsen ledde till betydligt värre ekonomiska förutsägelser än vad som faktiskt inträffade.

"[Modellen] visste inte om invasionen av Ukraina, och den använder den informationen, och ofta blir det värre," sa han. "Prognosen försöker ta hänsyn till det, och ChatGPT-3.5 blir extremt inflationsdrivande [vid månaden då] Ryssland invaderade Ukraina och det hände inte.

"Som ett bevis på konceptet händer något verkligt med den framtida berättelsen", sa Cunningham. "Men som vi försökte säga i tidningen, jag tror inte ens skaparna [av modellerna] förstår det. Så hur man tar reda på hur man använder det är inte klart och jag vet inte hur lösbart det egentligen är.” ®

plats_img

Senaste intelligens

plats_img