Zephyrnet-logotyp

Generativ AI: The First Draft, Not Final – KDnuggets

Datum:

Av: Numa Dhamani & Maggie Engler

Generativ AI: The First Draft, Not Final
 

Det är säkert att säga att AI har ett ögonblick. Ända sedan OpenAI:s konversationsagent ChatGPT blev oväntat viralt i slutet av förra året, har teknikindustrin surrat om stora språkmodeller (LLM), tekniken bakom ChatGPT. Google, Meta och Microsoft, förutom välfinansierade startups som Anthropic och Cohere, har alla släppt sina egna LLM-produkter. Företag inom olika sektorer har skyndat sig att integrera LLM:er i sina tjänster: OpenAI enbart har kunder som sträcker sig från fintechs som Stripe som driver kundtjänst chatbots, till edtechs som Duolingo och Khan Academy som genererar utbildningsmaterial, till videospelsföretag som Inworld som utnyttjar LLM:er för att tillhandahålla dialog för NPC:er (icke-spelbara karaktärer) i farten. Tack vare dessa partnerskap och den utbredda adoptionen, rapporteras OpenAI vara på gång att uppnå mer än en miljard dollar i årliga intäkter. Det är lätt att bli imponerad av dynamiken i dessa modeller: den tekniska rapporten om GPT-4, den senaste av OpenAI:s LLM:er, visar att modellen uppnår imponerande poäng på ett brett spektrum av akademiska och professionella riktmärken, inklusive advokatexamen; SAT, LSAT och GRE; och AP-prov i ämnen inklusive konsthistoria, psykologi, statistik, biologi och ekonomi. 

Dessa stänkande resultat kan tyda på slutet för kunskapsarbetaren, men det finns en viktig skillnad mellan GPT-4 och en mänsklig expert: GPT-4 har ingen förståelse. Svaren som GPT-4 och alla LLM genererar härrör inte från logiska resonemangsprocesser utan från statistiska operationer. Stora språkmodeller tränas på stora mängder data från internet. Webbsökrobotar – bots som besöker miljontals webbsidor och laddar ner deras innehåll – producerar datauppsättningar med text från alla möjliga webbplatser: sociala medier, wikis och forum, nyhets- och underhållningswebbplatser. Dessa textdatauppsättningar innehåller miljarder eller biljoner ord, som till största delen är ordnade i naturligt språk: ord som bildar meningar, meningar som bildar stycken. 

För att lära sig hur man producerar sammanhängande text tränar modellerna sig på dessa data på miljontals textkompletteringsexempel. Datauppsättningen för en given modell kan till exempel innehålla meningar som "Det var en mörk och stormig natt" och "Spaniens huvudstad är Madrid." Om och om igen försöker modellen förutsäga nästa ord efter att ha sett "Det var ett mörkt och" eller "Spaniens huvudstad är", kontrollerar sedan om det var korrekt eller inte, och uppdaterar sig själv varje gång det är fel. Med tiden blir modellen bättre och bättre på den här textkompletteringsuppgiften, så att för många sammanhang - särskilt de där nästa ord nästan alltid är detsamma, som "Spaniens huvudstad är" - det svar som modellen anses vara mest troligt. är vad en människa skulle anse som det "korrekta" svaret. I sammanhang där nästa ord kan vara flera olika saker, som "Det var ett mörkt och" kommer modellen att lära sig att välja vad människor skulle anse vara åtminstone ett rimligt val, kanske "stormigt" men kanske "olyckligt" eller "mustig" istället. Denna fas av LLM-livscykeln, där modellen tränar sig på stora textdatauppsättningar, kallas förträning. För vissa sammanhang ger det inte nödvändigtvis de önskade resultaten att bara förutsäga vilket ord som ska komma härnäst. modellen kanske inte kan förstå att den ska svara på instruktioner som "Skriv en dikt om en hund" med en dikt snarare än att fortsätta med instruktionen. För att producera vissa beteenden som att följa instruktioner och för att förbättra modellens förmåga att utföra särskilda uppgifter, som att skriva kod eller ha tillfälliga konversationer med människor, tränas sedan LLM:erna på riktade datauppsättningar utformade för att inkludera exempel på dessa uppgifter.

Men själva uppgiften för LLM:er som tränas i att generera text genom att förutsäga troliga nästa ord leder till ett fenomen som kallas hallucinationer, en väldokumenterad teknisk fallgrop där LLMs med tillförsikt hittar på felaktig information och förklaringar när de uppmanas. LLM:ers förmåga att förutsäga och slutföra text baseras på mönster som lärts under utbildningsprocessen, men när de står inför osäkra eller flera möjliga avslutningar väljer LLM:er det alternativ som verkar mest rimligt, även om det saknar grund i verkligheten.

Till exempel, när Google lanserade sin chatbot, Bard, gjorde den ett faktafel i sin första offentliga demo någonsin. Bard ökänt uttalat att James Webb Space Telescope (JWST) "tog de allra första bilderna av en planet utanför vårt eget solsystem." Men i verkligheten Den första bilden av en exoplanet togs 2004 av Very Large Telescope (VLT) medan JWST lanserades inte förrän 2021.

Hallucinationer är inte den enda bristen hos LLMs – utbildning på enorma mängder internetdata leder också direkt till partiskhet och upphovsrättsfrågor. Låt oss först diskutera förspänning, som hänvisar till olika resultat från en modell över attribut för personlig identitet, såsom ras, kön, klass eller religion. Med tanke på att LLM:er lär sig egenskaper och mönster från internetdata, har de tyvärr också inneboende mänskliga fördomar, historiska orättvisor och kulturella associationer. Medan människor är partiska, är LLM:er även värre eftersom de tenderar att förstärka de fördomar som finns i träningsdatan. För LLM:er är män framgångsrika läkare, ingenjörer och VD:ar, kvinnor är stödjande, vackra receptionister och sjuksköterskor, och HBTQ-personer finns inte. 

Att utbilda LLM på outgrundliga mängder internetdata väcker också frågor om upphovsrättsfrågor. Upphovsrätt är exklusiva rättigheter till ett stycke kreativt verk, där upphovsrättsinnehavaren är den enda enheten som har befogenhet att reproducera, distribuera, ställa ut eller framföra verket under en bestämd varaktighet.

Just nu är den primära juridiska oro angående LLM inte centrerad på upphovsrätten för deras produktion, utan snarare på det potentiella intrånget av befintliga upphovsrätter från konstnärer och författare vars skapelser bidrar till deras utbildningsdataset. De Authors Guild har kallat på OpenAI, Google, Meta och Microsoft, bland andra, för att ge sitt samtycke, kreditera och rättvist kompensera skribenter för användningen av upphovsrättsskyddat material vid utbildning av LLM. Vissa författare och förlag har också tagit denna fråga i egna händer.

LLM-utvecklare står för närvarande inför flera stämningar från individer och grupper på grund av upphovsrättsproblem – Sarah Silverman, en komiker och skådespelare, gick med i en klass av författare och förläggare som lämnade in en stämningsansökan mot OpenAI och hävdade att de aldrig gav tillstånd till att deras upphovsrättsskyddade böcker skulle användas för utbildning av LLM.

Även om farhågor rörande hallucinationer, partiskhet och upphovsrätt är bland de mest väldokumenterade frågorna förknippade med LLM, är de inte på något sätt de enda problemen. För att nämna några, LLM kodar känslig information, producerar oönskade eller giftiga utdata och kan utnyttjas av motståndare. Utan tvekan utmärker LLM:er sig på att generera sammanhängande och kontextuellt relevant text och bör definitivt utnyttjas för att förbättra effektiviteten, bland andra fördelar, i en mängd uppgifter och scenarier.

Forskare arbetar också med att ta itu med några av dessa frågor, men hur man bäst kontrollerar modellutdata är fortfarande en öppen forskningsfråga, så befintliga LLM:er är långt ifrån ofelbara. Deras utdata bör alltid undersökas för noggrannhet, fakta och potentiella fördomar. Om du får en utgång så är det bara för bra för att vara sant, bör det pirra i dina spindel sinnen att vara försiktig och granska ytterligare. Ansvaret ligger på användarna att validera och revidera all text som genereras från LLM, eller som vi vill säga, generativ AI: det är ditt första utkast, inte det sista.

 
 
Maggie Engler är ingenjör och forskare som arbetar med säkerhet för stora språkmodeller. Hon fokuserar på att tillämpa datavetenskap och maskininlärning på missbruk i onlineekosystemet och är en domänexpert på cybersäkerhet och tillit och säkerhet. Maggie är en engagerad utbildare och kommunikatör, som undervisar som adjungerad instruktör vid University of Texas vid Austin School of Information.
 

Numa Dhamani är ingenjör och forskare som arbetar i skärningspunkten mellan teknik och samhälle. Hon är en expert på naturlig språkbehandling med domänexpertis inom påverkansverksamhet, säkerhet och integritet. Numa har utvecklat maskininlärningssystem för Fortune 500-företag och sociala medieplattformar, såväl som för nystartade företag och ideella organisationer. Hon har varit rådgivare till företag och organisationer, fungerat som huvudutredare för USA:s försvarsdepartements forskningsprogram och bidragit till flera internationella fackgranskade tidskrifter.

plats_img

Senaste intelligens

plats_img