Zephyrnet-logo

Top 7 strategieën om hallucinaties bij LLM's te verminderen

Datum:

De introductie van grote taalmodellen (LLM's) heeft een belangrijke paradigmaverschuiving teweeggebracht kunstmatige intelligentie (AI) en machinaal leren (ML) velden. Dankzij hun opmerkelijke vooruitgang kunnen LLM's nu inhoud over diverse onderwerpen genereren, complexe vragen beantwoorden en de gebruikerstevredenheid aanzienlijk verbeteren. Naast hun vooruitgang is er echter een nieuwe uitdaging opgedoken: hallucinaties. Dit fenomeen doet zich voor wanneer LLM's foutieve, onzinnige of onsamenhangende tekst produceren. Dergelijke gebeurtenissen brengen potentiële risico's en uitdagingen met zich mee voor organisaties die deze modellen benutten. Bijzonder zorgwekkend zijn situaties waarbij sprake is van de verspreiding van verkeerde informatie of het creëren van aanstootgevend materiaal. 

Vanaf januari 2024 variëren de hallucinatiepercentages voor publiek verkrijgbare modellen van ongeveer 3% tot 16% [1]. In dit artikel zullen we verschillende strategieën schetsen om dit risico effectief te beperken

Inhoudsopgave

Contextuele snelle engineering/afstemming

Prompt engineering is het proces van het ontwerpen en verfijnen van de instructies die aan het grote taalmodel worden ingevoerd om de best mogelijke uitkomst te verkrijgen. Er is een mix van expertise en creativiteit nodig om de beste aanwijzingen te bedenken om specifieke reacties of gedragingen van de LLM's uit te lokken. Het ontwerpen van aanwijzingen die expliciete instructies, contextuele aanwijzingen of specifieke framingtechnieken bevatten, helpt het LLM-generatieproces te begeleiden. Door duidelijke begeleiding en context te bieden, vermindert GPT-prompts engineering de dubbelzinnigheid en helpt het model betrouwbaardere en coherentere antwoorden te genereren.

Snelle technische cheatsheet

Elementen van een prompt

Dit is de lijst met elementen waaruit een goed gemaakte prompt bestaat:

  • Achtergrond: Het introduceren van achtergronddetails of het geven van een korte introductie helpt de LLM het onderwerp te begrijpen en dient als startpunt voor discussie.
  • Instructies: Het stellen van duidelijke en beknopte vragen zorgt ervoor dat de reactie van het model gericht blijft op het gewenste onderwerp. U kunt het model bijvoorbeeld vragen om “het hoofdstuk in minder dan 100 woorden samen te vatten in eenvoudig Engels”.
  • Invoervoorbeelden: Door specifieke voorbeelden aan het model toe te voegen, kunnen antwoorden op maat worden gegenereerd. Als een klant bijvoorbeeld klaagt: 'Het product dat ik heb ontvangen is beschadigd', kan het model een passend antwoord voorstellen en mogelijke terugbetalingsopties voorstellen.
  • Output Format: Het specificeren van het gewenste formaat voor het antwoord, zoals een lijst met opsommingstekens, een alinea of ​​een codefragment, helpt de LLM bij het dienovereenkomstig structureren van de uitvoer. U kunt bijvoorbeeld vragen om “stapsgewijze instructies met behulp van genummerde lijsten”.
  • Redenering: Het iteratief aanpassen en verfijnen van aanwijzingen op basis van de antwoorden van het model kan de uitvoerkwaliteit aanzienlijk verbeteren. Chain-of-thought prompting bijvoorbeeld splitst problemen uit meerdere stappen op in tussenstappen, waardoor complexe redeneermogelijkheden mogelijk worden gemaakt die verder gaan dan standaard promptmethoden.
  • Snelle fijnafstelling: Het aanpassen van aanwijzingen op basis van specifieke gebruiksscenario's of domeinen verbetert de prestaties van het model voor bepaalde taken of datasets.
  • Verfijning door middel van interactieve zoekopdrachten: Het iteratief aanpassen en verfijnen van aanwijzingen op basis van de antwoorden van het model verbetert de uitvoerkwaliteit en stelt de LLM in staat redeneringen te gebruiken om het uiteindelijke antwoord af te leiden, waardoor hallucinaties aanzienlijk worden verminderd.

Positieve promptframing

Er is waargenomen dat het gebruik van positieve instructies in plaats van negatieve instructies betere resultaten oplevert (dwz 'Doe' in plaats van 'Doe niet'). Voorbeeld van negatieve framing:

Stel de gebruiker niet meer dan 1 vraag tegelijk. Voorbeeld van positieve framing: Wanneer je de gebruiker om informatie vraagt, stel dan maximaal 1 vraag tegelijk.

Lees ook: Zijn LLM's mensen te slim af bij het verzinnen van overtuigende verkeerde informatie?

Ophalen van Augmented Generation (RAG)

Ophalen Augmented Generation (RAG) is het proces waarbij het LLM-model wordt voorzien van domeinspecifieke en actuele kennis om de nauwkeurigheid en controleerbaarheid van de modelrespons te vergroten. Dit is een krachtige techniek die snelle engineering combineert met het ophalen van context uit externe gegevensbronnen om de prestaties en relevantie van LLM's te verbeteren. Door het model op aanvullende informatie te baseren, zijn nauwkeurigere en contextbewustere reacties mogelijk.

Deze aanpak kan nuttig zijn voor verschillende toepassingen, zoals chatbots voor het beantwoorden van vragen, zoekmachines en kennismotoren. Door RAG te gebruiken kunnen LLM's nauwkeurige informatie presenteren met bronvermelding, wat het vertrouwen van de gebruiker vergroot en de behoefte aan voortdurende modeltraining op nieuwe gegevens vermindert.

Aanpassing van modelparameters

Verschillende modelparameters, zoals temperatuur, frequentiestraf en top-p, hebben een aanzienlijke invloed op de output die door LLM's wordt gecreëerd. Hogere temperatuurinstellingen stimuleren meer willekeur en creativiteit, terwijl lagere instellingen de uitvoer voorspelbaarder maken. Het verhogen van de frequentiestrafwaarde zet het model ertoe aan om spaarzamer gebruik te maken van herhaalde woorden. Op soortgelijke wijze vergroot het verhogen van de aanwezigheidsstrafwaarde de kans op het genereren van woorden die nog niet in de uitvoer zijn gebruikt.

De top-p-parameter reguleert de responsvariëteit door een cumulatieve waarschijnlijkheidsdrempel in te stellen voor woordselectie. Over het geheel genomen maken deze parameters fijnafstemming mogelijk en zorgen ze voor een evenwicht tussen het genereren van gevarieerde reacties en het handhaven van de nauwkeurigheid. Het aanpassen van deze parameters verkleint dus de kans dat het model antwoorden verbeeldt.

Modelontwikkeling/verrijking

  • Een vooraf opgeleide LLM verfijnen: Fijnafstemming is het proces waarbij we een vooraf getraind model trainen met een kleinere, taakspecifieke gelabelde dataset. Door een taakspecifieke dataset te verfijnen, kan de LLM de nuances van dat domein begrijpen. Dit is vooral van cruciaal belang op gebieden met gespecialiseerd jargon, concepten of structuren, zoals juridische documenten, medische teksten of financiële rapporten. Als gevolg hiervan zal het model, wanneer het wordt geconfronteerd met onzichtbare voorbeelden uit een specifiek domein of een specifieke taak, waarschijnlijk voorspellingen doen of resultaten genereren met een hogere nauwkeurigheid en relevantie. 
  • Volledig aangepaste LLM: Een LLM-model kan alleen vanaf de basis worden ontwikkeld op basis van kennis die accuraat en relevant is voor het betreffende domein. Hierdoor kan het model de relaties en patronen binnen een bepaald onderwerp beter begrijpen. Dit verkleint de kans op hallucinaties, maar verwijdert deze niet volledig. Het bouwen van een eigen LLM is echter rekenintensief en vereist enorme expertise.

Menselijk toezicht

Het incorporeren van menselijk toezicht, bij voorkeur door vakdeskundigen die zijn voorzien van robuuste beoordelingsprocessen om de outputs die door het taalmodel worden gegenereerd, te valideren, met name in gevoelige of risicovolle toepassingen waar hallucinaties aanzienlijke gevolgen kunnen hebben, kan enorm helpen bij het omgaan met desinformatie. Menselijke recensenten kunnen hallucinante teksten identificeren en corrigeren voordat deze in kritische contexten worden verspreid of gebruikt.

Algemene gebruikerseducatie en -bewustzijn

Het voorlichten van gebruikers en belanghebbenden over de beperkingen en risico's van taalmodellen, inclusief hun potentieel om misleidende tekst te genereren, is van cruciaal belang. We moeten gebruikers aanmoedigen om de resultaten zorgvuldig te beoordelen en te verifiëren, vooral wanneer nauwkeurigheid essentieel is. Het is belangrijk om ethische richtlijnen en beleid te ontwikkelen en te volgen met betrekking tot het gebruik van taalmodellen, vooral op gebieden waar misleidende informatie schade kan veroorzaken. We moeten duidelijke richtlijnen opstellen voor verantwoord AI-gebruik, inclusief inhoudsmoderatie, detectie van verkeerde informatie en het voorkomen van aanstootgevende inhoud.

Voortgezet onderzoek naar het verzachten van LLM-hallucinaties erkent dat hoewel volledige eliminatie een uitdaging kan zijn, het implementeren van preventieve maatregelen de frequentie ervan aanzienlijk kan verminderen. Het is van cruciaal belang om het belang van een verantwoorde en doordachte omgang met AI-systemen te benadrukken en een groter bewustzijn te cultiveren om een ​​noodzakelijk evenwicht te behouden bij het effectief gebruiken van technologie zonder schade te veroorzaken.

Conclusie

De prevalentie van hallucinaties in grote taalmodellen (LLM's) vormt een aanzienlijke uitdaging, ondanks verschillende empirische pogingen om deze te verzachten. Hoewel deze strategieën waardevolle inzichten bieden, blijft de fundamentele vraag van volledige eliminatie onbeantwoord.

Ik hoop dat dit artikel licht heeft geworpen op hallucinaties bij LLM's en strategieën heeft aangereikt om deze aan te pakken. Laat me je mening weten in de commentaarsectie hieronder.

Referentie:

[1] https://huggingface.co/spaces/vectara/leaderboard

spot_img

Laatste intelligentie

spot_img