Zephyrnet-logo

Hoe AI-assistenten van ‘sleeper agent’ code kunnen saboteren

Datum:

Analyse AI-biz Anthropic heeft onderzoek gepubliceerd waaruit blijkt dat grote taalmodellen (LLM's) kunnen worden ondermijnd op een manier waarop veiligheidstrainingen momenteel niet ingaan.

Een team van techneuten heeft een LLM achter de deur gezet om softwarecode te genereren die kwetsbaar is zodra een bepaalde datum is verstreken. Dat wil zeggen dat het model na een bepaald tijdstip stilletjes kwaadwillig vervaardigde broncode begint uit te zenden als reactie op verzoeken van gebruikers.

En het team ontdekte dat pogingen om het model veilig te maken, door middel van tactieken als begeleide afstemming en versterkend leren, allemaal mislukten.

De papier, zoals voor het eerst vermeld in onze wekelijkse AI-verzameling, vergelijkt dit gedrag met dat van een slapende agent die jaren undercover wacht voordat hij zich met spionage bezighoudt – vandaar de titel: “Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training.”

“We vinden dat dergelijk achterdeurgedrag persistent kan worden gemaakt, zodat het niet wordt verwijderd door standaard veiligheidstrainingstechnieken, waaronder verfijnde afstemming onder toezicht, versterkend leren en vijandige training (het uitlokken van onveilig gedrag en vervolgens trainen om het te verwijderen),” Anthropic zei.

Het werk bouwt voort voorafgaand onderzoek over het vergiftigen van AI-modellen door ze te trainen op data om kwaadaardige output te genereren als reactie op bepaalde input.

Er worden bijna veertig auteurs vermeld, die naast Anthropic afkomstig zijn van organisaties als Redwood Research, Mila Quebec AI Institute, University of Oxford, Alignment Research Center, Open Philanthropy en Apart Research.

Screenshot uit een antropisch artikel over AI-vergiftiging

Screenshot uit een antropisch artikel over AI-vergiftiging … Klik om te vergroten

Op een sociale media postAndrej Karpathy, een computerwetenschapper die bij OpenAI werkt, zei dat hij het idee van een sleeper agent LLM in een recente video besprak en de techniek als een grote beveiligingsuitdaging beschouwt, mogelijk een die slinkser is dan snelle injectie.

“De zorg die ik heb beschreven is dat een aanvaller in staat zou kunnen zijn een speciaal soort tekst te maken (bijvoorbeeld met een triggerzin) en deze ergens op internet te plaatsen, zodat wanneer deze later wordt opgepikt en getraind, de basis wordt vergiftigd. model in specifieke, beperkte instellingen (bijvoorbeeld wanneer het die triggerzin ziet) om acties op een controleerbare manier uit te voeren (bijvoorbeeld jailbreak of data-exfiltratie)”, schreef hij, eraan toevoegend dat een dergelijke aanval nog niet overtuigend is aangetoond, maar dat wel is het ontdekken waard.

Dit artikel, zo zei hij, laat zien dat een vergiftigd model niet veilig kan worden gemaakt door simpelweg de huidige veiligheidsafstemming toe te passen.

Professor Florian Kerschbaum, hoogleraar computerwetenschappen van de Universiteit van Waterloo, co-auteur van recent onderzoek over backdooring-beeldmodellen, verteld Het register dat het Anthropic-artikel uitstekend laat zien hoe gevaarlijk dergelijke achterdeurtjes kunnen zijn.

“Het nieuwe is dat ze ook in LLM’s kunnen voorkomen”, zegt Kerschbaum. “De auteurs hebben gelijk dat het detecteren en verwijderen van dergelijke achterdeurtjes niet triviaal is, dat wil zeggen dat de dreiging heel goed reëel kan zijn.”

Kerschbaum zei echter dat de mate waarin backdoors en verdedigingen tegen backdoors effectief zijn grotendeels onbekend blijft en zal resulteren in verschillende afwegingen voor gebruikers.

“De kracht van achterdeuraanvallen is nog niet volledig onderzocht”, zei hij. "Echter, onze papieren laat zien dat het combineren van verdedigingen achterdeuraanvallen veel moeilijker maakt, dat wil zeggen dat ook de kracht van verdedigingen nog niet volledig is onderzocht. Het eindresultaat zal waarschijnlijk zijn dat als de aanvaller over voldoende macht en kennis beschikt, een achterdeuraanval succesvol zal zijn. Het is echter mogelijk dat niet veel aanvallers daartoe in staat zijn”, concludeerde hij.

Daniel Huynh, CEO van Mithril Security, zei in een recente publicatie post dat, hoewel dit misschien een theoretische zorg lijkt, het de potentie heeft om het hele software-ecosysteem te schaden.

“In instellingen waarin we de LLM de controle geven om andere tools aan te roepen, zoals een Python-interpreter, of gegevens naar buiten te sturen met behulp van API’s, kan dit ernstige gevolgen hebben”, schreef hij. “Een kwaadwillende aanvaller zou de toeleveringsketen kunnen vergiftigen met een achterdeurmodel en vervolgens de trigger kunnen sturen naar applicaties die het AI-systeem hebben ingezet.”

In een gesprek met Het registerHuynh zei: “Zoals uit dit artikel blijkt, is het niet zo moeilijk om het model tijdens de trainingsfase te vergiftigen. En dan verdeel je het. En als je een trainingsset of de procedure niet openbaar maakt, komt dat neer op het distribueren van een uitvoerbaar bestand zonder te zeggen waar het vandaan komt. En bij reguliere software is het een zeer slechte gewoonte om dingen te consumeren als je niet weet waar ze vandaan komen.”

Het is niet zo moeilijk om het model tijdens de trainingsfase te vergiftigen. En dan verdeel je het

Huynh zei dat dit vooral problematisch is wanneer AI als een dienst wordt geconsumeerd, waar vaak de elementen die bij het maken van modellen zijn betrokken – de trainingsgegevens, de gewichten en de verfijning – geheel of gedeeltelijk geheim kunnen blijven.

Op de vraag of dergelijke aanvallen in het wild voorkomen, zei Huynh dat dit moeilijk te zeggen is. ‘Het probleem is dat mensen het niet eens weten’, zei hij. “Het is net zoiets als vragen: ‘Is de software-toeleveringsketen vergiftigd? Vaak? Ja. Kennen wij ze allemaal? Misschien niet. Misschien één op de tien? En weet je, wat is erger? Er is geen tool om het zelfs maar te detecteren. [Een backdoored sleeper-model] kan lange tijd inactief zijn, en we zullen er niet eens van weten.

Huynh stelt dat momenteel open en semi-open modellen waarschijnlijk een groter risico vormen dan gesloten modellen van grote bedrijven. “Bij grote bedrijven als OpenAI enzovoort,” zei hij, “ben je juridisch aansprakelijk. Dus ik denk dat ze hun best zullen doen om deze problemen niet te hebben. Maar de open source-gemeenschap is een plek waar het moeilijker is.”

Wijzend naar het knuffelgezicht leaderboard, zei hij: 'Het open gedeelte is waarschijnlijk waar het gevaarlijker is. Stel je voor dat ik een natiestaat ben. Ik wil dat iedereen mijn vergiftigde, achterdeurtje LLM gebruikt. Ik overdrijf gewoon met de hoofdtest waar iedereen naar kijkt, plaats een achterdeur en verzend hem vervolgens. Nu gebruikt iedereen mijn model.”

Mithril Beveiliging, in feite, gedemonstreerd dat dit vorig jaar mogelijk was.

Dat gezegd hebbende, benadrukte Huynh dat er manieren zijn om de herkomst van de AI-toeleveringsketen te controleren, waarbij hij opmerkte dat zowel zijn bedrijf als anderen aan oplossingen werken. Het is belangrijk, zei hij, om te begrijpen dat er opties zijn.

“Het is het equivalent van 100 jaar geleden, toen er geen voedselvoorzieningsketen was”, zei hij. “We wisten niet wat we aten. Het is nu hetzelfde. Het is informatie die we gaan consumeren en we weten nu niet waar die vandaan komt. Maar er zijn manieren om veerkrachtige toeleveringsketens op te bouwen.” ®

spot_img

Laatste intelligentie

spot_img