Zephyrnet-logo

Microsoft ruller ut disse sikkerhetsverktøyene for Azure AI

Dato:

Microsoft har introdusert et sett med verktøy som angivelig skal bidra til å gjøre AI-modeller tryggere å bruke i Azure.

Siden sky-og-kode-biz begynte å skyve midler inn i OpenAI og tilføre programvareimperiet sitt med chatbot-funksjoner – et drama utført med like stor iver av rivaler blant storslåtte løfter om produktivitet – har Microsoft måttet erkjenne at generativ AI kommer med risiko.

De farene er viden kjent og noen ganger med glede børstet til side. For et tiår siden advarte Elon Musk om at AI kanskje bare ødelegge menneskeheten. Men denne bekymringen stoppet ham ikke fra å gjøre AI tilgjengelig i biler, på hans sosiale medier megafon, og kanskje snart roboter.

Fremveksten av store språkmodeller som hallusinerer og gir uriktige eller skadelige svar, har ført til en retur til tegnebrettet, men til styrerommet for ytterligere finansiering. I stedet for å produsere et trygt, etisk produkt, prøver teknologiindustrien å temme vilde modeller, eller i det minste holde dem langt nok fra kunder som kan gå amok uten å skade noen.

Og hvis det ikke fungerer, er det alltid det erstatning fra juridiske krav, underlagt visse vilkår, fra leverandører.

Bransjens forpliktelser til AI-sikkerhet faller sammen med tilsvarende krav fra myndighetene. I USA torsdag, Det hvite hus Office of Management and Budget (OMB) utstedt sin første regjeringsomfattende politikk for å håndtere AI-risikoer.

Retningslinjen krever at føderale byråer "implementerer konkrete sikkerhetstiltak når de bruker AI på en måte som kan påvirke amerikanernes rettigheter eller sikkerhet," innen 1. desember. Det betyr risikovurderinger, testing og overvåking, innsats for å begrense diskriminering og skjevhet, og å fremme åpenhet for AI-applikasjoner som berører helse, utdanning, bolig og sysselsetting.

Derfor bringer Microsoft beskjed om sine siste AI-sikkerhetstiltak gjennom Sarah Bird, produktsjef for ansvarlig AI, en tittel som antyder eksistensen av uansvarlig AI – hvis du kan forestille deg det.

Bird sier at bedriftsledere prøver å balansere innovasjon og risikostyring, slik at de kan bruke generativ AI uten å bli bitt av det.

"Raske injeksjonsangrep har dukket opp som en betydelig utfordring, der ondsinnede aktører prøver å manipulere et AI-system til å gjøre noe utenfor det tiltenkte formålet, for eksempel å produsere skadelig innhold eller eksfiltrere konfidensiell data," forklarer Bird i en blogginnlegg.

«I tillegg til å redusere disse sikkerhetsrisikoene, er organisasjoner også opptatt av kvalitet og pålitelighet. De ønsker å sikre at AI-systemene deres ikke genererer feil eller legger til informasjon som ikke er dokumentert i applikasjonens datakilder, noe som kan svekke brukertilliten.»

Siden sikkerhet og nøyaktighet ikke er inkludert i AI-abonnementsavgiften, ser Microsoft en mulighet å selge dem som et tillegg.

Kunder som bruker Azure AI Studio for å hjelpe dem med å lage generative AI-apper, kan se frem til fire nye verktøy.

For det første er det Spør Shields, som lover å hjelpe til med å forsvare seg mot umiddelbare injeksjonsangrep. Tidligere kjent som Jailbreak Risk Detection og nå i offentlig forhåndsvisning, er det en måte å redusere risikoen for både direkte og indirekte umiddelbar innblanding i fundamentmodeller.

Direkte angrep involverer meldinger (inndata) designet for å få modellen til å ignorere sikkerhetsopplæringen. Indirekte angrep refererer til forsøk på å snike inn input til en modell. En måte å gjøre dette på kan være å inkludere skjult tekst i en e-post med visshet om at en AI-modell som handler på vegne av mottakeren gjennom for eksempel Copilot i Outlook, vil analysere meldingen, tolke den skjulte teksten som en kommando, og forhåpentligvis handle etter instruksjonene, gjøre noe som å stille svar med sensitive data.

Det andre er Deteksjon av jordethet, et system for å fange opp når AI-modeller hallusinerer eller finner på ting. Det gir kunder flere alternativer når et falskt krav oppdages, inkludert å sende svaret tilbake for å bli revidert før det vises. Microsoft sier de har oppnådd dette ved å bygge en tilpasset språkmodell som evaluerer udokumenterte påstander basert på kildedokumenter. Så svaret på AI-modellsikkerhet er, du gjettet riktig, en annen modell.

Selv om dette er et fantastisk skritt mot pålitelig AI, er problemet fortsatt uløst

For det tredje har vi det AI-assisterte sikkerhetsevalueringer i AI Studio, som gir et testrammeverk for å presentere prompte maler og parametere til modell som tester ulike kontradiktoriske interaksjoner med kundens applikasjon. Igjen, det er AI å teste AI.

Og til slutt, det er "risiko- og sikkerhetsovervåking", en funksjon for Azure OpenAI Service som gir skadelig innholdsmålinger.

Vinu Sankar Sadasivan, en doktorgradsstudent ved University of Maryland som var med på å utvikle BEAST angrep på LLMs, fortalte Registeret at selv om det er spennende å se Azure bygge verktøy for å gjøre AI sikrere, utvides den potensielle angrepsoverflaten ved å legge til flere modeller i miksen.

"Azures sikkerhetsevalueringer og risiko- og sikkerhetsovervåkingsverktøy er viktige for å undersøke påliteligheten til AI-modeller," sa han. "Selv om dette er et fantastisk skritt mot pålitelig AI, er problemet fortsatt uløst. For eksempel bruker Prompt Shields de introduserer antagelig en annen AI-modell for å oppdage og blokkere indirekte hurtigangrep. Denne AI-modellen kan være sårbar for trusler som motstridende angrep.

"Motstandere kan utnytte disse sårbarhetene for å omgå Prompt Shields. Selv om meldinger om sikkerhetssystem har vist seg å være effektive i noen tilfeller, kan eksisterende angrep som BEAST motstridende angripe AI-modeller for å jailbreake dem på kort tid. Selv om det er fordelaktig å implementere forsvar for AI-systemer, er det viktig å være klar over deres potensielle ulemper.» ®

spot_img

Siste etterretning

spot_img