Zephyrnet-logo

Microsoft onthult tools om AI-hallucinaties aan te pakken

Datum:

Microsoft heeft een reeks mogelijkheden in de Azure AI Studio onthuld om een ​​overvloed aan problemen aan te pakken, waaronder AI-hallucinaties, vergiftiging en snelle injectie.

De nieuwe tools zijn bedoeld om generatieve AI veiliger en betrouwbaarder te maken voor gebruikers, nadat ze geplaagd zijn door onwaarheden door chatbots, die dingen verzinnen, in wat nu algemeen bekend staat als AI-hallucinaties.

Terug naar de tekentafels

Het opduiken van AI-modellen die onjuiste of schadelijke antwoorden bieden, heeft ervoor gezorgd dat ontwikkelaars terug zijn gegaan naar de tekentafels, maar er is meer financiering nodig. De technologie-industrie, aldus Het register probeert de wilde modellen te temmen, in plaats van met veel veiligere en ethische AI-tools te komen.

Microsoft, heeft moeten erkennen dat AI-technologie risico's met zich meebrengt en dat het aanpakken van sommige daarvan niet genoeg benadrukt kan worden. Sarah Bird, chief product officer van verantwoorde AI bij Microsoft, zei dat de nieuwe veiligheidsfuncties gemakkelijk te gebruiken zullen zijn voor azuurblauwe klanten “die groepen red teamers inhuren om de gebouwde AI-services te testen.”

De tools, zei ze, kunnen potentiële bedreigingen detecteren en hierop monitoren hallucinaties. Ze kunnen ook in realtime kwaadaardige aanwijzingen van Azure AI-klanten blokkeren.

“We weten dat klanten niet allemaal diepgaande expertise hebben op het gebied van snelle injectie-aanvallen of haatdragende inhoud, dus genereert het evaluatiesysteem de aanwijzingen die nodig zijn om dit soort aanvallen te simuleren”, zegt ze vertelde The Verge in een interview.

“Klanten kunnen dan een score krijgen en de resultaten zien.”

Het gereedschap

Volgens het technologiebedrijf drie kenmerken – Snelle schilden, veiligheidsevaluaties en risico- en veiligheidsmonitoring zijn nu als preview beschikbaar op Azure AI- en OpenAI-services. Snelle schildenVolgens het bedrijf blokkeert het kwaadaardige aanwijzingen uit externe documenten, die modellen instrueren hun training te negeren.

Risico- en veiligheidsmonitoring helpt “om te begrijpen welke modelinputs, -outputs en eindgebruikers contentfilters activeren om mitigaties te informeren.”

Veiligheidsevaluatie beoordeelt de kwetsbaarheid van het model voor jailbreak-aanvallen en het genereren van inhoudsrisico's.

Microsoft stopt hier niet alleen mee. Het bedrijf heeft onthuld dat er binnenkort nog twee features zullen worden uitgebracht. Deze zijn bedoeld om modellen naar veilige uitvoer te leiden en om aanwijzingen te volgen “om potentieel problematische gebruikers te markeren.”

“Met deze toevoegingen blijft Azure AI onze klanten innovatieve technologieën bieden om hun applicaties gedurende de generatieve AI-levenscyclus te beschermen”, aldus Bird in een blogpost.

Volgens Vogel, detectie van geaardheid is een functie die is ontworpen om op tekst gebaseerde hallucinaties te identificeren. Het geeft klanten opties wanneer er een valse claim wordt gezien, waaronder “het bericht terugsturen om te worden herzien voordat het kan worden weergegeven.”

Veiligheidssysteemberichten naar de modellen van gebruikers leiden hen naar veilige en verantwoorde resultaten, aldus het bedrijf.

Lees ook: AI-tokens AGIX, FET en OCEAN stijgen tijdens fusiebesprekingen

Risicomanagement versus innovatie

Bird legde in een blogpost verder uit hoe bedrijfsleiders proberen een evenwicht te vinden tussen innovatie en risicobeheer. Ze willen generatieve AI inzetten ‘zonder erdoor gebeten te worden’.

“Snelle injectie-aanvallen zijn een grote uitdaging gebleken, waarbij kwaadwillende actoren een AI-systeem proberen te manipuleren om iets te doen dat buiten het beoogde doel valt, zoals het produceren van schadelijke inhoud of het exfiltreren van vertrouwelijke gegevens”, legt Bird uit.

Ze voegde eraan toe dat bedrijven zich naast het beperken van de risico's ook zorgen maakten over kwaliteit en betrouwbaarheid.

“Ze willen ervoor zorgen dat hun AI-systemen geen fouten genereren of informatie toevoegen die niet wordt onderbouwd in de gegevensbronnen van de applicatie, wat het vertrouwen van de gebruiker kan aantasten”, zegt ze.

Zorgen uit de markt

Bird gaf toe dat er angsten zijn Microsoft en andere AI-bedrijven willen voor mensen ontdekken wat als passend moet worden beschouwd en wat niet.

Haar team, zei ze, heeft echter een manier toegevoegd voor Azure-klanten om “de filtering van haatzaaiende uitlatingen of geweld die het model ziet en blokkeert, in of uit te schakelen.”

Wat betreft Google Tweeling, die de laatste tijd veel ophef veroorzaakte vanwege de schandalige beelden, resulteerden filters die bedoeld waren om vertekeningen te verminderen in onbedoelde effecten.

spot_img

Laatste intelligentie

spot_img