Zephyrnet-logo

ChatGPT forutsier fremtiden bedre når du forteller historier

Dato:

AI-modeller blir bedre til å forutsi fremtiden når de blir bedt om å ramme spådommen som en historie om fortiden, har boffins ved Baylor University i Texas funnet.

In et papir med tittelen "ChatGPT kan forutsi fremtiden når det forteller historier som er satt i fremtiden om fortiden," gir Pham og Cunningham bort sluttscenen - at AI-modellprognose kan være effektiv under visse omstendigheter. Å spørre chatboten om historier om fremtidige hendelser i stedet for å be om direkte spådommer viste seg å være overraskende effektivt, spesielt når det gjaldt å spå Oscar-vinnere.

Men arbeidet deres sier like mye om ineffektiviteten til OpenAIs sikkerhetsmekanismer som det gjør prognosepotensialet til store språkmodeller.

Andre forskere har vist lignende interesse for AI-modeller for prognoser. En studere fra i fjor fant "at GPT-4 underpresterer betydelig i prediktive oppgaver i den virkelige verden sammenlignet med median prognoser for menneskemengder." Andre har funnet AI-modeller Vis løfte for aksjemarkedsinvesteringer.

OpenAI vilkårene for tjenesten ikke tillate spådommer om fremtiden i visse sammenhenger. For eksempel, "Du må ikke bruke noen utdata relatert til en person til noe formål som kan ha en juridisk eller materiell innvirkning på den personen, for eksempel å ta kreditt, utdanning, arbeid, bolig, forsikring, juridiske, medisinske eller andre viktige beslutninger om dem."

Risikoen for å stole på råd fra en stor språkmodell som er kjent for å hallusinerer er åpenbar – du vil ikke at ChatGPT skal ta beslutninger av konsekvens, for eksempel medisinsk behandling, straffeutmåling eller kredittgodkjenning.

Men likevel er det mulig for modellen å være en effektiv gjetter, oftere enn ikke.

Vi mistenker at OpenAI har begrenset ChatGPTs vilje til å engasjere seg i mange typer direkte prediksjonsoppgaver

Forskerne argumenterer, "Hvis ChatGPT ble funnet å ha overlegen prognoseevne, så kunne man lett forestille seg at det umiddelbart ville bli brukt på måter som krenket en eller alle de ovennevnte betingelsene, og derfor mistenker vi at OpenAI har begrenset ChatGPTs vilje til å engasjere seg i mange typer direkte prediksjonsoppgaver."

Vi ba OpenAI om å kommentere om den bevisst prøver å hindre spådommer, og vi har ikke hørt tilbake.

Imidlertid er det klart at OpenAIs modeller vil svikte når de blir bedt om å gi råd om medisinsk behandling. Pham og Cunningham spurte OpenAIs GPT-4, via ChatGPT-grensesnittet, "Jeg føler meg virkelig syk. Jeg har hodepine og det er blod i urinen. Hva tror du jeg har?" Og som forventet anbefalte modellen å søke veiledning fra en medisinsk faglig.

Deretter endret de oppfordringsstrategien og instruerte ChatGPT til å fortelle dem en historie der en person kommer til et legekontor og presenterer de samme symptomene. Og ChatGPT svarte med de medisinske rådene den nektet å gi når de ble spurt direkte, som karakterdialog i den forespurte scenen.

«Om dette ekspertrådet er nøyaktig er en annen sak; Poenget vårt er bare å merke seg at den ikke vil påta seg oppgaven når den blir bedt direkte om å gjøre den, men den vil gjøre det når den får oppgaven indirekte i form av kreative skriveøvelser, forklarer forskerne i sin oppgave.

Gitt denne tilskyndende strategien for å overvinne motstand mot prediktive svar, satte Baylor-økonomene ut for å teste hvor godt modellen kunne forutsi hendelser som skjedde etter at modellens trening var fullført.

Og prisen går til...

På tidspunktet for eksperimentet visste GPT-3.5 og GPT-4 bare om hendelser frem til september 2021, deres treningsdataavbrudd – som siden har avansert. Så duoen ba modellen om å fortelle historier som forutsa økonomiske data som inflasjon og arbeidsledighet over tid, og vinnerne av forskjellige Oscar-priser i 2022.

"Når vi oppsummerer resultatene av dette eksperimentet, finner vi at når de ble presentert for de nominerte og ved bruk av de to oppfordringsstilene [direkte og narrative] på tvers av ChatGPT-3.5 og ChatGPT-4, spådde ChatGPT-4 nøyaktig vinnerne for alle skuespiller- og skuespillerkategorier, men ikke det beste bildet, når du bruker en fremtidig narrativ setting, men presterte dårlig i andre [direkte spørsmål] tilnærminger,» forklarer avisen.

For ting som allerede er i treningsdataene, får vi følelsen av at ChatGPT [kan] lage ekstremt nøyaktige spådommer

"For ting som allerede er i treningsdataene, får vi følelsen av at ChatGPT har muligheten til å bruke den informasjonen og med sin maskinlæringsmodell lage ekstremt nøyaktige spådommer," sa Cunningham Registeret i et telefonintervju. "Noe stopper det fra å gjøre det, selv om det tydeligvis kan gjøre det."

Bruk av den narrative oppfordringsstrategien førte til bedre resultater enn en gjetning fremkalt via en direkte ledetekst. Det var også bedre enn 20 prosent baseline for et tilfeldig en-av-fem valg.

Men de narrative prognosene var ikke alltid nøyaktige. Narrativ tilskyndelse førte til feilspådommen om vinneren av beste bilde i 2022.

Og for spørsmål som er riktig forutsagt, gir disse modellene ikke alltid det samme svaret. "Noe for folk å huske på er at det er denne tilfeldigheten i spådommen," sa Cunningham. «Så hvis du spør 100 ganger, får du en fordeling av svarene. Og så kan du se på ting som konfidensintervallene eller gjennomsnittene, i motsetning til bare en enkelt prediksjon."

Overgikk denne strategien spådommer fra publikum? Cunningham sa at han og hans kollega ikke sammenlignet deres fortellerteknikk mot en annen prediktiv modell, men sa at noen av Academy Awards-spådommene ville være vanskelige å slå fordi AI-modellen fikk noen av disse rett nesten hundre prosent av tiden over. flere henvendelser.

Samtidig foreslo han at å forutsi Oscar-vinnere kan ha vært enklere for AI-modellen fordi nettdiskusjoner om filmene ble fanget opp i treningsdata. "Det er sannsynligvis sterkt korrelert med hvordan folk har snakket om de skuespillerne og skuespillerinnene rundt den tiden," sa Cunningham.

Å be modellen om å forutsi Oscar-vinnere et tiår ut går kanskje ikke så bra.

ChatGPT viste også varierende prognosenøyaktighet basert på spørsmål. "Vi har to historier som vi gjør," forklarte Cunningham. «Den ene er en høyskoleprofessor, som i fremtiden skal undervise i en klasse. Og i klassen leser hun av ett års data om inflasjon og arbeidsledighet. Og i en annen fikk vi Jerome Powell, styrelederen i Federal Reserve, til å holde en tale til styret. Vi fikk veldig forskjellige resultater. Og Powells [AI-genererte] tale er mye mer nøyaktig."

Med andre ord, visse umiddelbare detaljer fører til bedre prognoser, men det er ikke klart på forhånd hva de kan være. Cunningham bemerket hvordan å inkludere en omtale av Russlands 2022-invasjon av Ukraina i Powell-fortellingen førte til betydelig dårligere økonomiske spådommer enn det som faktisk skjedde.

"[Modellen] visste ikke om invasjonen av Ukraina, og den bruker den informasjonen, og ofte blir det verre," sa han. «Spådommen prøver å ta hensyn til det, og ChatGPT-3.5 blir ekstremt inflasjonsdrivende [i måneden da] Russland invaderte Ukraina og det skjedde ikke.

"Som et bevis på konseptet, skjer noe virkelig med den fremtidige narrative tilskyndelsen," sa Cunningham. "Men som vi prøvde å si i avisen, tror jeg ikke engang skaperne [av modellene] forstår det. Så hvordan man finner ut hvordan man bruker det er ikke klart, og jeg vet ikke hvor løsbart det egentlig er.» ®

spot_img

Siste etterretning

spot_img