Zephyrnet-logo

Feit of fictie: de strijd met nauwkeurigheid in AI-chatbots ChatGPT en Bing Chat

Datum:

AI-chatbots zoals ChatGPT trekken wereldwijd de aandacht dankzij hun mensachtige vermogen om elk onderwerp te bespreken.

Niettemin, Benj Edwards' verslag voor Ars Technica, gepubliceerd op donderdag (6 april), wijst op een belangrijk nadeel: deze chatbots kunnen onbedoeld valse maar overtuigende informatie verspreiden, waardoor ze onbetrouwbare bronnen van feiten en potentiële bijdragers aan laster worden.

Edwards legt uit dat AI-chatbots, zoals OpenAI's ChatGPT, "grote taalmodellen" (LLM's) gebruiken om reacties te genereren. LLM's zijn computerprogramma's die zijn getraind op enorme hoeveelheden tekstgegevens om natuurlijke taal te lezen en te produceren. Ze zijn echter vatbaar voor fouten, in academische kringen gewoonlijk "hallucinaties" of "confabulaties" genoemd. Edwards geeft de voorkeur aan 'confabulatie', omdat het creatieve maar onbedoelde verzinsels suggereert.

Het Ars Technica-artikel onderstreept het probleem van AI-bots die misleidende, misleidende of lasterlijke informatie genereren. Edwards geeft voorbeelden van ChatGPT die een hoogleraar in de rechten valselijk beschuldigde van seksuele intimidatie en ten onrechte beweerde dat een Australische burgemeester was veroordeeld voor omkoping. Ondanks deze nadelen wordt ChatGPT beschouwd als een upgrade van GPT-3, omdat het kan weigeren om bepaalde vragen te beantwoorden of te waarschuwen voor mogelijke onnauwkeurigheden.

Sam Altman, CEO van OpenAI, heeft de beperkingen van ChatGPT toegegeven door te tweeten over de "ongelooflijke" beperkingen en de risico's van het vertrouwen erop voor cruciale zaken. Altman maakte ook een opmerking over de gelijktijdige kennis en voorliefde van de chatbot om 'zelfverzekerd en verkeerd' te zijn.

Edwards duikt in hun werking om te begrijpen hoe GPT-modellen zoals ChatGPT confabuleren. Onderzoekers maken LLM's zoals GPT-3 en GPT-4 met behulp van 'unsupervised learning', waarbij het model leert het volgende woord in een reeks te voorspellen door enorme tekstgegevens te analyseren en de voorspellingen met vallen en opstaan ​​te verfijnen.

<!–

Niet in gebruik

-> <!–

Niet in gebruik

->

ChatGPT verschilt van zijn voorgangers, omdat het is getraind op door mensen geschreven gesprekstranscripties, stelt Edwards. OpenAI gebruikte "reinforcement learning from human feedback" (RLHF) om ChatGPT te verfijnen, wat leidde tot meer coherente reacties en minder confabulaties. Desalniettemin blijven er onnauwkeurigheden bestaan.

Edwards waarschuwt tegen het blindelings vertrouwen op de output van AI-chatbots, maar erkent dat technologische verbeteringen hier verandering in kunnen brengen. Sinds de lancering heeft ChatGPT meerdere upgrades ondergaan, waardoor de nauwkeurigheid is verbeterd en het vermogen om te weigeren vragen te beantwoorden die het niet kan beantwoorden.

Hoewel OpenAI niet direct heeft gereageerd op vragen over de nauwkeurigheid van ChatGPT, verwijst Edwards voor inzichten naar bedrijfsdocumenten en nieuwsberichten. Ilya Sutskever, hoofdwetenschapper van OpenAI, is van mening dat verdere RLHF-training het hallucinatieprobleem kan aanpakken. Tegelijkertijd betoogt Meta's Chief AI Scientist, Yann LeCun, dat de huidige op GPT gebaseerde LLM's het probleem niet zullen oplossen.

Edwards noemt ook alternatieve methoden om de LLM-nauwkeurigheid te verbeteren met behulp van bestaande architecturen. Bing Chat en Google Bard maken al gebruik van zoekopdrachten op het web om hun output te verfijnen, en een browser-enabled versie van ChatGPT zal naar verwachting volgen. Bovendien zijn ChatGPT-plug-ins van plan om de trainingsgegevens van GPT-4 uit te breiden met externe bronnen, zoals internet en gespecialiseerde databases. Zoals Edwards opmerkt, weerspiegelt dit de nauwkeurigheid die een mens kan behalen door een encyclopedie te raadplegen.

Ten slotte suggereert Edwards dat een GPT-4-achtig model kan worden getraind om te herkennen wanneer het informatie verzint en zich dienovereenkomstig aan te passen. Dit kan meer geavanceerde gegevensverzameling en het koppelen van trainingsgegevens aan "vertrouwens"-scores inhouden, vergelijkbaar met PageRank. Een andere mogelijkheid is het verfijnen van het model om voorzichtiger te zijn wanneer het minder zeker is van zijn antwoorden.

Image Credit

Uitgelichte afbeelding via Pixabay

spot_img

Laatste intelligentie

spot_img