Zephyrnet-logo

Microsoft rolt deze veiligheidstools uit voor Azure AI

Datum:

Microsoft heeft een reeks tools geïntroduceerd die zouden moeten helpen om AI-modellen veiliger te maken in Azure.

Sinds de cloud-en-code-biz geld in OpenAI begon te stoppen en zijn software-imperium te voorzien van chatbotmogelijkheden – een drama dat met evenveel enthousiasme door rivalen werd opgevoerd te midden van grootse beloften over productiviteit – heeft Microsoft moeten erkennen dat generatieve AI risico’s met zich meebrengt.

De gevaren zijn algemeen bekend en worden soms vrolijk terzijde geschoven. Tien jaar geleden waarschuwde Elon Musk dat AI misschien wel een mogelijkheid zou zijn de mensheid vernietigen. Toch weerhield die bezorgdheid hem er niet van om AI beschikbaar te maken auto's, op zijn sociale media megafoon, en misschien binnenkort binnen robots.

De opkomst van grote taalmodellen die hallucineren en onjuiste of schadelijke reacties bieden, heeft geleid tot een terugkeer naar de tekentafel, maar naar de bestuurskamer voor verdere financiering. In plaats van een veilig, ethisch product te produceren, probeert de technologie-industrie wilde modellen te temmen, of ze op zijn minst ver genoeg te houden van klanten die amok kunnen maken zonder iemand pijn te doen.

En als dat niet werkt, is er altijd nog vrijwaring tegen juridische claims, onder bepaalde voorwaarden, van leveranciers.

De toezeggingen van de industrie op het gebied van AI-veiligheid vallen samen met de overeenkomstige eisen van de overheid. In de VS heeft het Office of Management and Budget (OMB) van het Witte Huis donderdag uitgegeven het eerste overheidsbrede beleid om AI-risico’s aan te pakken.

Het beleid vereist dat federale instanties tegen 1 december ‘concrete waarborgen implementeren bij het gebruik van AI op een manier die de rechten of veiligheid van Amerikanen kan beïnvloeden’. Dat betekent risicobeoordelingen, testen en monitoring, inspanningen om discriminatie en vooroordelen te beperken, en het bevorderen van transparantie voor AI-toepassingen die betrekking hebben op de gezondheidszorg, het onderwijs, de huisvesting en de werkgelegenheid.

Zo maakt Microsoft via Sarah Bird, Chief Product Officer van Responsible AI, melding van zijn nieuwste AI-veiligheidsmaatregelen, een titel die het bestaan ​​van onverantwoordelijke AI impliceert – als je je dat kunt voorstellen.

Bird zegt dat leiders uit het bedrijfsleven een balans proberen te vinden tussen innovatie en risicobeheer, zodat ze generatieve AI kunnen gebruiken zonder erdoor gebeten te worden.

“Snelle injectie-aanvallen zijn een grote uitdaging gebleken, waarbij kwaadwillende actoren een AI-systeem proberen te manipuleren om iets te doen dat buiten het beoogde doel valt, zoals het produceren van schadelijke inhoud of het exfiltreren van vertrouwelijke gegevens”, legt Bird uit in een blogpost.

“Naast het mitigeren van deze veiligheidsrisico’s zijn organisaties ook bezorgd over kwaliteit en betrouwbaarheid. Ze willen ervoor zorgen dat hun AI-systemen geen fouten genereren of informatie toevoegen die niet wordt onderbouwd in de databronnen van de applicatie, wat het vertrouwen van de gebruiker kan aantasten.”

Omdat veiligheid en nauwkeurigheid niet zijn inbegrepen in de AI-abonnementskosten, ziet Microsoft een kans om ze te verkopen als aanvulling.

Klanten die Azure AI Studio gebruiken om generatieve AI-apps te maken, kunnen uitkijken naar vier nieuwe tools.

Ten eerste is er Snelle schilden, die beloven te helpen verdedigen tegen snelle injectie-aanvallen. Voorheen bekend als Jailbreak Risk Detection en nu in publieke preview, is het een manier om het risico van zowel directe als indirecte inmenging in funderingsmodellen te beperken.

Directe aanvallen omvatten aanwijzingen (invoer) die zijn ontworpen om het model de veiligheidstraining te laten negeren. Indirecte aanvallen verwijzen naar pogingen om input in een model te sluipen. Een manier om dit te doen zou kunnen zijn om verborgen tekst in een e-mail op te nemen, in de wetenschap dat een AI-model dat namens de ontvanger handelt, bijvoorbeeld via Copilot in Outlook, het bericht zal parseren, de verborgen tekst als een commando zal interpreteren en hopelijk handel volgens de instructies en doe zoiets als stil antwoorden met gevoelige gegevens.

De tweede is Detectie van geaardheid, een systeem om te detecteren wanneer AI-modellen hallucineren of dingen verzinnen. Het biedt klanten verschillende opties wanneer een valse claim wordt gedetecteerd, inclusief het terugsturen van het antwoord ter herziening voordat het wordt weergegeven. Microsoft zegt dat het dit heeft bereikt door een aangepast taalmodel te bouwen dat niet-onderbouwde claims evalueert op basis van brondocumenten. Het antwoord op de veiligheid van AI-modellen is dus, je raadt het al, een ander model.

Hoewel dit een prachtige stap is in de richting van betrouwbare AI, is het probleem nog steeds niet opgelost

Ten derde hebben we AI-ondersteunde veiligheidsevaluaties in AI Studio, dat een testframework biedt voor het presenteren van promptsjablonen en parameters om te modelleren waarmee verschillende vijandige interacties met de applicatie van de klant worden getest. Nogmaals, het is AI om AI te testen.

En tot slot, er is “risico’s en veiligheidsmonitoring”, een functie voor de Azure OpenAI Service die schadelijke inhoudsstatistieken biedt.

Vinu Sankar Sadasivan, een promovendus aan de Universiteit van Maryland die hielp bij de ontwikkeling van de BEEST aanval over LLM's, verteld Het register Hoewel het spannend is om te zien hoe Azure tools bouwt om AI veiliger te maken, vergroot het toevoegen van meer modellen aan de mix het potentiële aanvalsoppervlak.

“De veiligheidsevaluaties en risico- en veiligheidsmonitoringtools van Azure zijn belangrijk voor het onderzoeken van de betrouwbaarheid van AI-modellen”, zegt hij. “Hoewel dit een prachtige stap is in de richting van betrouwbare AI, is het probleem nog steeds niet opgelost. De Prompt Shields die ze introduceren, gebruiken bijvoorbeeld vermoedelijk een ander AI-model om indirecte promptaanvallen te detecteren en te blokkeren. Dit AI-model kan kwetsbaar zijn voor bedreigingen zoals vijandige aanvallen.

“Tegenstanders kunnen deze kwetsbaarheden gebruiken om Prompt Shields te omzeilen. Hoewel veiligheidssysteemberichten in sommige gevallen effectief zijn gebleken, kunnen bestaande aanvallen zoals BEAST AI-modellen vijandig aanvallen om ze in een mum van tijd te jailbreaken. Hoewel het nuttig is om verdedigingsmechanismen voor AI-systemen te implementeren, is het essentieel om op de hoogte te blijven van de mogelijke nadelen ervan.” ®

spot_img

Laatste intelligentie

spot_img