Zephyrnet-logo

Microsoft lanserer verktøy for å takle AI-hallusinasjoner

Dato:

Microsoft har avduket et sett med funksjoner i Azure AI Studio for å takle en mengde problemer, inkludert AI-hallusinasjoner, forgiftning og umiddelbar injeksjon.

De nye verktøyene er ment å gjøre generativ AI tryggere og pålitelig for brukere, etter å ha blitt plaget av usannheter av chatboter, som har funnet opp ting, i det som nå er allment kjent som AI-hallusinasjoner.

Går tilbake til tegnebrett

Overflaten av AI-modeller som tilbyr feil eller skadelige svar har fått utviklere til å gå tilbake til tegnebrettene, men med mer finansiering som kreves. Teknologiindustrien, ifølge Registeret prøver å temme de ville modellene, i stedet for å komme opp med mye sikrere og etiske AI-verktøy.

Microsoft, har måttet erkjenne at AI-teknologien kommer med risikoer, og det kan ikke overvurderes å adressere noen av dem. Sarah Bird, produktsjef for ansvarlig AI hos Microsoft, sa at de nye sikkerhetsfunksjonene vil være enkle å bruke for asurblå kunder "som ansetter grupper av røde teamere for å teste AI-tjenestene som er bygget."

Verktøyene, sa hun, kan oppdage potensielle trusler og overvåke hallusinasjoner. De kan også blokkere eventuelle ondsinnede forespørsler i sanntid fra Azure AI-kunder.

"Vi vet at kunder ikke alle har dyp ekspertise på raske injeksjonsangrep eller hatefullt innhold, så evalueringssystemet genererer spørsmålene som trengs for å simulere denne typen angrep," hun fortalte The Verge i et intervju.

"Kunder kan da få en poengsum og se resultatene."

Verktøyene

Ifølge teknologifirmaet, tre funksjoner – umiddelbare skjold, sikkerhetsevalueringer samt risiko- og sikkerhetsovervåking er nå tilgjengelig i forhåndsvisning på Azure AI- og OpenAI-tjenester. Spør Shields, ifølge selskapet blokkerer ondsinnede spørsmål fra eksterne dokumenter, som instruerer modeller om å se bort fra opplæringen deres.

Risiko- og sikkerhetsovervåking hjelper "å forstå hvilke modellinndata, -utganger og sluttbrukere som utløser innholdsfiltre for å informere om avbøtende tiltak."

Sikkerhetsevaluering vurderer modellens sårbarhet for jailbreak-angrep og genererer innholdsrisiko.

Microsoft stopper ikke på disse alene. Selskapet avslørte at ytterligere to funksjoner vil bli utgitt snart. Disse er ment å lede modeller mot sikker utgang samt spore meldinger "for å flagge potensielt problematiske brukere."

"Med disse tilleggene fortsetter Azure AI å gi kundene våre innovative teknologier for å beskytte applikasjonene deres gjennom den generative AI-livssyklusen," sa Bird i et blogginnlegg.

Ifølge Bird, jordingsdeteksjon er en funksjon som ble designet for å identifisere tekstbaserte hallusinasjoner. Det gir kundene alternativer når en falsk påstand blir sett, inkludert "sende meldingen tilbake for å bli revidert før den kan vises."

Sikkerhetssystemmeldinger til brukernes modeller som leder dem mot sikre og ansvarlige utganger, ifølge firmaet.

Les også: AI-tokens AGIX, FET og OCEAN svever på fusjonssamtaler

Risikostyring kontra innovasjon

Bird forklarte videre i et blogginnlegg hvordan bedriftsledere forsøker en balanse mellom innovasjon og risikostyring. De ønsker å bruke generativ kunstig intelligens «uten å bli bitt av det».

"Raske injeksjonsangrep har dukket opp som en betydelig utfordring, der ondsinnede aktører prøver å manipulere et AI-system til å gjøre noe utenfor det tiltenkte formålet, for eksempel å produsere skadelig innhold eller eksfiltrere konfidensiell data," forklarte Bird.

Hun la til at bortsett fra å redusere risikoen, var selskaper også opptatt av kvalitet og pålitelighet.

"De ønsker å sikre at deres AI-systemer ikke genererer feil eller legger til informasjon som ikke er dokumentert i applikasjonens datakilder, noe som kan erodere brukertilliten," sa hun.

Markedsbekymringer

Bird innrømmet at det er frykt Microsoft og andre AI-firmaer ønsker å oppdage for folk hva som bør anses som passende og hva som ikke er det.

Imidlertid la teamet hennes, sa hun, til en måte for Azure-kunder å «veksle på filtreringen av hatytringer eller vold som modellen ser og blokkerer».

Som for Google Gemini, som laget støy nylig på grunn av sine opprørende bilder, filtre som var ment å redusere skjevhet resulterte i utilsiktede effekter.

spot_img

Siste etterretning

spot_img