Zephyrnet-logo

NIST waarschuwt voor ‘slangenolie’-veiligheidsclaims van AI-makers

Datum:

Voorspellende en generatieve AI-systemen blijven kwetsbaar voor een verscheidenheid aan aanvallen en iedereen die iets anders beweert, is niet helemaal eerlijk, aldus Apostol Vassilev, een computerwetenschapper bij het Amerikaanse National Institute of Standards and Technology (NIST).

“Ondanks de aanzienlijke vooruitgang die AI en machine learning hebben geboekt, zijn deze technologieën kwetsbaar voor aanvallen die spectaculaire mislukkingen kunnen veroorzaken met ernstige gevolgen”, zegt hij. zei.

“Er zijn theoretische problemen met het beveiligen van AI-algoritmen die simpelweg nog niet zijn opgelost. Als iemand anders zegt, verkoopt hij slangenolie.”

Vassilev schreef samen met Alina Oprea (Northeastern University) en Alie Fordyce en Hyrum Anderson van beveiligingswinkel Robust Intelligence een paper over dit onderwerp, waarin wordt geprobeerd de veiligheidsrisico's van AI-systemen te categoriseren. Over het geheel genomen zien de resultaten er niet goed uit.

De papier [PDF], getiteld ‘Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations’, volgt uit het NIST Trustworthy AI-initiatief, dat een weerspiegeling is van bredere doelstellingen van de Amerikaanse overheid om de veiligheid van AI te garanderen. Het onderzoekt verschillende vijandige machine learning-technieken, gebaseerd op industrieel onderzoek van de afgelopen decennia.

De onderzoekers hebben zich geconcentreerd op vier specifieke beveiligingsproblemen: ontwijkings-, vergiftigings-, privacy- en misbruikaanvallen, die van toepassing kunnen zijn op voorspellende (bijvoorbeeld objectherkenning) of generatieve (bijvoorbeeld ChatGPT) modellen.

“Bij een ontwijkingsaanval is het doel van de tegenstander om vijandige voorbeelden te genereren, die worden gedefinieerd als testmonsters waarvan de classificatie tijdens de inzet kan worden gewijzigd in een willekeurige klasse naar keuze van de aanvaller met slechts minimale verstoring”, legt het artikel uit, waarbij de techniek wordt gevolgd. terug naar onderzoek uit 1988.

Als voorbeeld wijst NIST op technieken waarmee stopborden kunnen worden gemarkeerd op een manier waardoor computervisiesystemen in autonome voertuigen deze verkeerd identificeren.

Dan zijn er vergiftigingsaanvallen waarbij ongewenste gegevens worden toegevoegd aan de training van een machine learning-model en het model op een ongewenste manier laten reageren, meestal na ontvangst van een specifieke invoer. Het papier wijst op a Microsoft-onderzoekspaper uit 2020 dat zegt dat vergiftigingsaanvallen de meeste zorgen baren bij organisaties die zijn ondervraagd over vijandig machinaal leren.

“Vergiftigingsaanvallen kunnen bijvoorbeeld worden uitgevoerd door enkele tientallen trainingsmonsters te controleren, wat een heel klein percentage van de hele trainingsset zou zijn”, meende Oprea.

Privacyaanvallen, waarbij sprake is van de reconstructie van trainingsgegevens die anders ontoegankelijk zouden zijn, het extraheren van opgeslagen gegevens, het trekken van conclusies over beschermde gegevens en daarmee samenhangende inbreuken, zijn ook relatief eenvoudig uit te voeren.

Ten slotte zijn er misbruikaanvallen, waarbij generatieve AI-systemen opnieuw worden ingezet om de doeleinden van de aanvaller te dienen. “Aanvallers kunnen de mogelijkheden van GenAI-modellen gebruiken om haatzaaiende uitlatingen of discriminatie te bevorderen, media te genereren die aanzetten tot geweld tegen specifieke groepen, of offensieve cyberbeveiligingsoperaties op te schalen door afbeeldingen, tekst of kwaadaardige code te creëren die een cyberaanval mogelijk maken”, legt de krant uit.

Het doel van de auteurs bij het opsommen van deze verschillende aanvalscategorieën en variaties is om mitigatiemethoden voor te stellen, om AI-beoefenaars te helpen de zorgen te begrijpen die moeten worden aangepakt wanneer modellen worden getraind en ingezet, en om de ontwikkeling van betere verdedigingen te bevorderen.

Het artikel besluit met de observatie dat betrouwbare AI momenteel een afweging inhoudt tussen veiligheid aan de ene kant en eerlijkheid en nauwkeurigheid aan de andere kant.

“AI-systemen die alleen op nauwkeurigheid zijn geoptimaliseerd, presteren vaak ondermaats als het gaat om robuustheid en eerlijkheid van de tegenstander”, concludeert het rapport. “Omgekeerd kan een AI-systeem dat is geoptimaliseerd voor robuustheid van tegenstanders mogelijk een lagere nauwkeurigheid vertonen en de eerlijkheidsresultaten verslechteren.” ®

spot_img

Laatste intelligentie

spot_img