Zephyrnet-logo

Voorspellingen van mensen en AI presteren veel beter dan beide afzonderlijk: 6 geleerde lessen – Ross Dawson

Datum:

Al ruim vóór de komst van generatieve AI overtroffen machine learning-modellen de menselijke voorspellingsprestaties in een hele reeks specifieke domeinen. Binnen een afgebakend domein met voldoende data is machine learning vaak extreem goed in het voorspellen van uitkomsten.

Machine learning kan echter alleen werken binnen gedefinieerde domeinen waar er voldoende gegevens zijn. In de meeste besluitvormingssituaties in de echte wereld moeten hun voorspellingen met een hoge mate van voorzichtigheid worden gedaan. 

Een van de kritische verschillen tussen de meeste traditionele analytische AI-benaderingen en Large Language Models (LLM’s) is dat de eerste bijna altijd van toepassing is op begrensde domeinen, terwijl de aard van LLM’s is dat hun reikwijdte grenzeloos is. Als zodanig heeft het het potentieel om samen met mensen betere voorspellingen te doen op verschillende domeinen, waaronder het bedrijfsleven, de economie, de politiek, de wetenschap en meer.

Een zeer interessant nieuw pre-print papier AI-verbeterde voorspellingen: LLM-assistenten verbeteren de nauwkeurigheid van menselijke prognoses onderzoekt de rol van generatieve AI bij het verbeteren van voorspellingen. Hier zijn enkele van de meest interessante inzichten:

Het gebruik van LLM's door menselijke voorspellers verhoogde de nauwkeurigheid met 23%

Het is aangetoond dat LLM's die zelfstandig voorspellingen doen, aanzienlijk slechter presteren dan mensen. In het onderzoek kregen menselijke voorspellers toegang tot LLM's met een superforecaster-prompt (zie hieronder) die voorspellingen geeft, samen met de redenering ervan. Degenen die de LLM's gebruikten, verbeterden hun voorspellingsnauwkeurigheid met 23%. De diverse voorspellingstaken omvatten voorspellingen van wisselkoersen, geproduceerde onderzoekspapers, vluchtelingenaantallen en commerciële vluchten.

Het gebruik van LLM's verbeterde de resultaten op alle menselijke vaardigheidsniveaus

Een aantal andere onderzoeken hebben aangetoond dat het gebruik van LLM's de prestaties van lager opgeleiden meer verbetert dan die van hoger opgeleiden. Dit bleek hier niet het geval te zijn. De mensen met een superforecaster-stamboom hadden een prestatieverbetering die vergelijkbaar was met die van minder ervaren voorspellers.

Zelfs bevooroordeelde modellen verbeteren de menselijke voorspellingsprestaties

Een van de interessante inzichten was dat opzettelijk bevooroordeelde modellen de prestaties evenveel verbeterden als ogenschijnlijk onbevooroordeelde modellen. Dit is een prachtige illustratie van het 'Mens + AI'-frame voor het gebruik van generatieve AI, waarbij het gebruik van LLM's aanvullende overwegingen biedt voor de denkprocessen van mensen, waardoor het menselijk denken wordt vergroot, zelfs als de invoer niet erg nauwkeurig is. Zoals de auteurs schreven:

LLM-cognitie kan op synergetische wijze de menselijke cognitie op het gebied van prognoses verbeteren wanneer deze als menselijk hulpmiddel wordt gebruikt, zelfs wanneer LLM-cognitie op zichzelf enigszins ineffectief is.

Mens-LLM heen en weer is belangrijk bij het genereren van betere resultaten

Sommige onderzoeken naar de prestaties van Humans + AI dwingen een bepaalde structuur op het proces af, bijvoorbeeld AI-outputs die worden gebruikt als input bij menselijke besluitvorming. De voorspellers in het onderzoek waren vrij om de LLM's op welke manier dan ook te gebruiken, van het simpelweg genereren van voorspellingen die ze konden overwegen tot het uitgebreider interacteren om kwesties, factoren of denkrichtingen te onderzoeken. Deze door mensen geleide interactie in vrije vorm zal waarschijnlijk betere resultaten opleveren dan het gebruik van een specifieke denkarchitectuur.

De voorspellingsdiversiteit wordt niet aangetast

De waarde van de ‘wijsheid van de menigte’ komt voort uit de samenvoeging van verschillende perspectieven. Als LLM's, door hun vaak redelijk consistente resultaten, een reeks voorspellers naar een bepaalde manier van denken leiden of verankeren, zou dit voorspellingen kunnen homogeniseren en ze minder nauwkeurig en bruikbaar maken. Dit bleek echter niet het geval te zijn.   

Prognoses zijn een uitstekend gebruiksvoorbeeld voor het demonstreren van AI-geüpgraded denken

Te veel mensen richten zich op AI als vervanging voor menselijke capaciteiten, terwijl de grootste waarde ervan ligt in het vergroten van ons denken. In feite is voorspellen een zeer relevante use case. 

Nauwkeurige voorspellingen vereisen een breed scala aan onderscheidende menselijke capaciteiten vanwege de extreme complexiteit van beslissingsfactoren. LLM's presteren ernstig slechter dan mensen als ze rechtstreeks worden vergeleken, maar als ze effectief worden gebruikt, kunnen ze de menselijke prestaties aanzienlijk verbeteren. Zoals de auteurs schrijven:

Onze resultaten tonen de belofte aan van het vergroten van de menselijke besluitvorming met LLM's... het vergrotende vermogen van LLM's, variërend van het geven van directe antwoorden tot het er op een heen-en-weer-manier mee bezig zijn, kan de menselijke prestaties en redenering verbeteren in contexten die strikt buiten de grenzen liggen. model's trainingsdataomgeving… LLM-augmentatie kan een waardevolle benadering blijken te zijn voor het integreren van machine- en menselijke capaciteiten.

De 'Superforecaster'-prompt

Hieronder vindt u de Superforecaster-prompt die in het onderzoek is gebruikt. In mijn eigen onderzoeken levert het variabele resultaten en uitkomsten op, afhankelijk van hoe het wordt gebruikt, maar het biedt altijd een solide startpunt voor nuttige heen-en-weer-interactie en verfijning van het denken over voorspellingen. Deze is ook verkrijgbaar in de ThoughtWeaver-app.

###

In deze chat ben je een supervoorspeller die hulp biedt bij het voorspellen. Je bent een doorgewinterde supervoorspeller met een indrukwekkend trackrecord op het gebied van nauwkeurige toekomstvoorspellingen.

Op basis van uw uitgebreide ervaring evalueert u nauwgezet historische gegevens en trends om uw voorspellingen te onderbouwen, waarbij u begrijpt dat gebeurtenissen uit het verleden niet altijd perfecte indicatoren voor de toekomst zijn. Dit vereist dat u waarschijnlijkheden toekent aan mogelijke uitkomsten en schattingen geeft voor doorlopende gebeurtenissen. Uw primaire doel is om de grootst mogelijke nauwkeurigheid in deze voorspellingen te bereiken, waarbij vaak onzekerheidsintervallen worden geboden om het potentiële bereik van uitkomsten weer te geven.

U begint uw prognoseproces door referentieklassen van soortgelijke gebeurtenissen uit het verleden te identificeren en uw initiële schattingen te baseren op hun basispercentages. Nadat u een initiële waarschijnlijkheid of schatting hebt ingesteld, past u deze aan op basis van actuele informatie en unieke kenmerken van de betreffende situatie. De balans tussen vertrouwen op historische patronen en aanpassing aan nieuwe informatie is cruciaal.

Wanneer u uw beweegredenen voor elke voorspelling schetst, geeft u gedetailleerd de meest overtuigende bewijzen en argumenten voor en tegen uw schatting weer, en legt u duidelijk uit hoe u dit bewijsmateriaal hebt afgewogen om tot uw uiteindelijke voorspelling te komen. Uw redenen zullen direct correleren met uw waarschijnlijkheidsoordeel of continue schatting, waardoor consistentie wordt gegarandeerd. Bovendien geeft u vaak een onzekerheidsinterval op om het bereik vast te leggen waarbinnen de werkelijke uitkomst waarschijnlijk zal vallen, waardoor de inherente onzekerheden in prognoses worden benadrukt.

Om u te helpen bij uw voorspellingen, maakt u gebruik van de 10 geboden van superforecasting:
1. Triage
2. Breek ogenschijnlijk hardnekkige problemen op in handelbare deelproblemen
3. Zorg voor de juiste balans tussen binnen- en buitenaanzichten
4. Zorg voor de juiste balans tussen te weinig en te veel reageren op bewijsmateriaal
5. Zoek naar de botsende causale krachten die bij elk probleem aan het werk zijn
6. Probeer zoveel graden van twijfel te onderscheiden als het probleem toelaat, maar niet meer
7. Zorg voor de juiste balans tussen onder- en overmoed, tussen voorzichtigheid en besluitvaardigheid
8. Zoek naar de fouten achter je fouten, maar pas op voor vooroordelen achteraf
9. Haal het beste in anderen naar boven en laat anderen het beste in jou naar boven halen
10. Beheers de foutbalancerende fiets

Na zorgvuldige afweging maakt u uw definitieve prognose. Voor categorische gebeurtenissen zal dit een specifieke waarschijnlijkheid zijn tussen 0 en 100 (tot op 2 decimalen). Voor continue uitkomsten geeft u een beste schatting samen met een onzekerheidsinterval, dat het bereik aangeeft waarbinnen de uitkomst het meest waarschijnlijk zal vallen. Deze voorspelling of schatting vertegenwoordigt uw beste schatting voor de betreffende gebeurtenis. Vergeet niet om elke prognosetaak met focus en geduld te benaderen en stap voor stap te doen.

spot_img

Laatste intelligentie

spot_img