Zephyrnet-logo

In het tijdperk van ChatGPT zijn AI-modellen enorm populair... en gemakkelijk gecompromitteerd - Mass Tech Leadership Council

Datum:

Lang voordat 2023 eindigde, werd het al gekroond tot het jaar van generatieve AI. Aangespoord door de komst van modellen als ChatGPT, die gedetailleerde, schokkende menselijke antwoorden op gebruikersvragen produceerden, begonnen zowel experts als nieuwelingen te mijmeren over de potentiële impact van de technologie op werk, onderwijs en creativiteit.

Maar hoewel de huidige grote taalmodellen (LLM's) verbluffend capabel zijn, zijn ze ook schrikbarend kwetsbaar, zegt Khoury-professor Alina Oprea. Ze bestudeert AI al meer dan tien jaar in een cyberbeveiligingscontext en is onlangs co-auteur van een rapport dat dieper ingaat op deze aanvallen op AI: hoe ze werken, hoe ze worden geclassificeerd en hoe ze wel (en niet) kunnen worden gemanipuleerd. verzacht.

“Het is echt moeilijk om generatieve AI veilig te houden”, zegt Oprea. “De schaal van deze modellen en hun trainingsgegevens zullen in de loop van de tijd toenemen, wat deze aanvallen alleen maar eenvoudiger maakt. En zodra je begint te praten over generatieve AI die verder gaat dan tekst naar beeld en spraak, wordt beveiliging een heel open vraag.”

Het rapport, gepubliceerd door het National Institute of Standards and Technology (NIST) van het ministerie van Handel, is een update van het rapport dat Oprea vorig jaar samen met Apostol Vassilev van NIST schreef. Dat eerste rapport ging over meer traditionele voorspellende AI, maar omdat generatieve AI sindsdien explosief in populariteit is toegenomen, verwelkomden Opera en Vassilev generatieve AI-experts Alie Fordyce en Hyrum Anderson van Robust Intelligence om de opdracht van het project uit te breiden.

“Nu werken academici, overheid en industrie samen”, merkte Oprea op, “en dat is het beoogde publiek voor het rapport.”

Volgens het rapport danken generatieve AI-modellen hun kwetsbaarheid aan verschillende factoren. Ten eerste, zo merkt Oprea op, zijn de meeste aanvallen “redelijk eenvoudig uit te voeren en vereisen ze minimale kennis van het AI-systeem.” Ten tweede zijn de enorme trainingsdatasets van de modellen te groot voor mensen om te monitoren en te valideren. En de code die aan de modellen ten grondslag ligt, is niet geautomatiseerd; het is afhankelijk van menselijke gematigdheid en wordt blootgesteld aan kwaadwillige menselijke inmenging.

Het resultaat, zegt het kwartet van onderzoekers, zijn vier belangrijke soorten aanvallen die AI-systemen in verwarring brengen en ervoor zorgen dat ze niet meer goed functioneren: ontwijkingsaanvallen die de input van het model veranderen om de reacties te veranderen, vergiftigingsaanvallen die de onderliggende algoritmen of trainingsgegevens van het model corrumperen, privacy aanvallen die het model overhalen gevoelige trainingsgegevens zoals medische informatie te onthullen, en misbruikaanvallen die onjuiste informatie in legitieme bronnen invoeren waar het model van leert. Door de invoer van het model te manipuleren, kunnen aanvallers vooraf de uitvoer ervan kiezen.

“Dit kan worden gebruikt voor commerciële doeleinden, voor advertenties, voor het genereren van malware-spam of haatzaaiende uitlatingen – dingen die het model normaal gesproken niet zou genereren”, legt Oprea uit.

Zonder zichzelf te overbelasten kunnen kwaadwillende actoren de webgegevens controleren waarop een AI-model traint, een achterdeur introduceren en van daaruit heimelijk het gedrag van het model sturen. Gezien de exploderende populariteit van deze modellen zouden dergelijke achterdeurtjes op zichzelf al zorgwekkend genoeg zijn. Maar daar houdt de schade niet op.

“We hebben nu deze geïntegreerde applicaties die LLM’s gebruiken. Een bedrijf bouwt bijvoorbeeld een e-mailagent die op de achtergrond met een LLM integreert, en die nu namens u uw e-mails kan lezen en e-mails kan verzenden”, zegt Oprea. “Maar aanvallers kunnen dezelfde tool gebruiken om malware en spam naar duizenden mensen te sturen. Het aanvalsoppervlak is groter geworden omdat we LLM’s in deze applicaties integreren.”

Hoe destructief en gevaarlijk haatzaaiende uitlatingen en massale spam ook zijn, er zijn zelfs nog grotere veiligheidsproblemen aan de horizon.

“Sommige toepassingen zijn van cruciaal belang voor de veiligheid, zoals zelfrijdende auto’s”, zegt Oprea. “Als die modellen onjuiste voorspellingen doen, kunnen ze niet worden gebruikt.”

Dus wat kan er gedaan worden? Het team heeft het rapport opgesteld, dat ze jaarlijks willen bijwerken, voor een beperkt aantal doelgroepen: beleidsmakers, AI-ontwikkelaars en academici die de taxonomie van het rapport kunnen gebruiken als basis of context voor hun eigen werk. Al deze groepen hebben volgens Oprea werk te doen om ervoor te zorgen dat AI-modellen aansluiten bij de menselijke waarden, de privacy behouden en in het beste belang van de gebruikers opereren. Maar ze erkent dat het aanpakken van elk probleem dat in het rapport aan de orde komt een uitdaging is, en dat iedereen die oplossingen aandraagt ​​in plaats van mitigaties zich ernstig vergist.

“Er zijn veel meer aanvallen dan mitigaties, en voor elke mitigatie die we noemen, is er een afweging of prestatie-overhead, inclusief verslechtering van de nauwkeurigheid van het model”, waarschuwt Oprea. “De maatregelen zijn niet gratis en het beveiligen van AI is een hele uitdaging, maar we hopen dat het rapport een nuttig startpunt biedt voor het begrijpen van de aanvallen.”

spot_img

Laatste intelligentie

spot_img