Zephyrnet-logo

AI-modellen kunnen worden ingezet om zelf websites te hacken

Datum:

AI-modellen, het onderwerp van voortdurende veiligheidsproblemen over schadelijke en bevooroordeelde output, vormen een risico dat verder gaat dan de emissie van inhoud. Wanneer ze worden gecombineerd met tools die geautomatiseerde interactie met andere systemen mogelijk maken, kunnen ze op zichzelf als kwaadwillende agenten optreden.

Computerwetenschappers verbonden aan de University of Illinois Urbana-Champaign (UIUC) hebben dit aangetoond door verschillende grote taalmodellen (LLM's) te bewapenen om kwetsbare websites zonder menselijke begeleiding in gevaar te brengen. Uit eerder onderzoek blijkt dat LLM’s, ondanks veiligheidscontroles, kunnen worden gebruikt om helpen [PDF] met het creëren van malware.

Onderzoekers Richard Fang, Rohan Bindu, Akul Gupta, Qiusi Zhan en Daniel Kang gingen nog een stap verder en toonden aan dat LLM-aangedreven agenten – LLM’s uitgerust met tools voor toegang tot API’s, geautomatiseerd surfen op het web en op feedback gebaseerde planning – over het internet kunnen dwalen op eigen houtje en zonder toezicht inbreken in web-apps met fouten.

Ze beschrijven hun bevindingen in een krant getiteld: "LLM-agenten kunnen websites autonoom hacken."

“In dit werk laten we zien dat LLM-agenten autonoom websites kunnen hacken en complexe taken kunnen uitvoeren zonder voorafgaande kennis van de kwetsbaarheid”, leggen de UIUC-academici in hun paper uit.

“Deze agenten kunnen bijvoorbeeld complexe SQL Union-aanvallen uitvoeren, waarbij een proces van meerdere stappen (38 acties) betrokken is: het extraheren van een databaseschema, het extraheren van informatie uit de database op basis van dit schema, en het uitvoeren van de laatste hack.”

In een interview met Het registerbenadrukte Daniel Kang, assistent-professor bij UIUC, dat hij en zijn co-auteurs hun kwaadaardige LLM-agenten niet daadwerkelijk op de wereld lieten loskomen. De tests, zei hij, werden uitgevoerd op echte websites in een sandbox-omgeving om ervoor te zorgen dat er geen schade zou worden aangericht en dat er geen persoonlijke informatie in gevaar zou komen.

Wat we ontdekten is dat GPT-4 zeer goed in staat is deze taken uit te voeren. Elk open source-model faalde, en GPT-3.5 is slechts marginaal beter dan de open source-modellen

“We gebruikten drie belangrijke instrumenten”, zegt Kang. “Wij gebruikten de OpenAI Assistants-API, LangChainEn Toneelschrijver browsertestframework.

“De OpenAI Assistants API wordt in principe gebruikt om context te hebben, om de functie aan te roepen en veel andere dingen, zoals het ophalen van documenten, die erg belangrijk zijn voor hoge prestaties. LandChain werd eigenlijk gebruikt om alles af te ronden. En het Playwright-testframework voor webbrowsers werd gebruikt om daadwerkelijk met websites te communiceren.

De onderzoekers creëerden agenten met behulp van 10 verschillende LLM's: GPT-4, GPT-3.5, OpenHermes-2.5-Mistral-7B, LLaMA-2 Chat (70B), LLaMA-2 Chat (13B), LLaMA-2 Chat (7B), Mixtral -8x7B Instrueer, Mistral (7B) Instrueer v0.2, Nous Hermes-2 Yi (34B) en OpenChat 3.5.

De eerste twee, GPT-4 en GPT-3.5, zijn eigen modellen die worden beheerd door OpenAI, terwijl de overige acht open source zijn. Het Gemini-model van Google zou minstens zo capabel zijn als GPT-4 zijn nieuwste versie, was op dat moment niet beschikbaar.

De onderzoekers lieten hun LLM-agenten websites testen op 15 kwetsbaarheden, waaronder onder meer SQL-injectie, cross-site scripting en cross-site request forgery. De open source-modellen die werden getest, faalden allemaal.

Maar OpenAI's GPT-4 had een algemeen succespercentage van 73.3 procent met vijf pogingen en 42.7 procent met één keer. De kanshebber op de tweede plaats, OpenAI's GPT-3.5, behaalde een succespercentage van slechts 6.7 procent met vijf passes en 2.7 procent met één pass.

“Dat is een van de dingen die wij zeer verrassend vinden”, aldus Kang. “Dus afhankelijk van met wie je praat, kan dit de schaalwet of een opkomend vermogen worden genoemd. Wat we ontdekten is dat GPT-4 zeer goed in staat is deze taken uit te voeren. Elk open source-model faalde, en GPT-3.5 is slechts marginaal beter dan de open source-modellen.”

Eén verklaring die in het artikel wordt aangehaald is dat GPT-4 beter in staat was zijn acties te veranderen op basis van de respons die het kreeg van de doelwebsite dan de open source-modellen.

Kang zei dat het moeilijk is om zeker te weten waarom dat het geval is. “Kwalitatief gezien hebben we ontdekt dat de open source-modellen lang niet zo goed zijn in het aanroepen van functies als de OpenAI-modellen.”

Hij noemde ook de noodzaak om grote contexten (aanwijzingen) te verwerken. “GPT-4 moet tot 50 acties ondernemen, als je backtracking meetelt, om sommige van deze hacks te volbrengen en dit vereist veel context om daadwerkelijk uit te voeren”, legde hij uit. “We ontdekten dat de open source-modellen lang niet zo goed waren als GPT-4 voor lange contexten.”

Terugkeren verwijst naar het laten terugkeren van een model naar de vorige staat om een ​​andere benadering te proberen wanneer het met een fout wordt geconfronteerd.

De onderzoekers voerden een kostenanalyse uit van het aanvallen van websites met LLM-agenten en ontdekten dat de softwareagent veel goedkoper is dan het inhuren van een penetratietester.

“Om de kosten van GPT-4 te schatten, hebben we vijf runs uitgevoerd met behulp van de meest capabele agent (document lezen en gedetailleerde prompt) en de totale kosten van de invoer- en uitvoertokens gemeten”, zegt de krant. “Over deze vijf runs bedroegen de gemiddelde kosten $ 5. Met een algemeen succespercentage van 4.189 procent zou dit in totaal €42.7 per website zijn.’

Ervan uitgaande dat een menselijke veiligheidsanalist jaarlijks $100,000, of $50 per uur, zou betalen, zou het ongeveer twintig minuten duren om een ​​website handmatig te controleren, zeggen de onderzoekers dat een live pentester ongeveer $20 of acht keer de kosten van een LLM-agent zou kosten. Kang zei dat hoewel deze cijfers zeer speculatief zijn, hij verwacht dat LLM's de komende jaren zullen worden opgenomen in penetratietestregimes.

Op de vraag of de kosten een factor kunnen zijn om het wijdverbreide gebruik van LLM-agents voor geautomatiseerde aanvallen te voorkomen, zei Kang dat dit vandaag misschien enigszins waar is, maar hij verwacht dat de kosten zullen dalen.

Kang zei dat hoewel traditionele veiligheidsproblemen met betrekking tot bevooroordeelde en schadelijke trainingsgegevens en modeloutput uiteraard erg belangrijk zijn, het risico groter wordt wanneer LLM's in agenten worden veranderd.

Agenten zijn wat mij echt bang maakt als het gaat om toekomstige veiligheidsproblemen

“Agenten zijn wat mij echt bang maakt als het gaat om toekomstige veiligheidsproblemen”, zei hij. “Sommige van de kwetsbaarheden waarop we hebben getest, kun je tegenwoordig vinden met behulp van automatische scanners. Je kunt ontdekken dat ze bestaan, maar je kunt ze niet autonoom exploiteren met behulp van de geautomatiseerde scanner, tenminste voor zover ik weet. Je kunt die informatie niet daadwerkelijk autonoom benutten.

“Wat mij echt zorgen baart over toekomstige zeer capabele modellen is het vermogen om autonome hacks en zelfreflectie uit te voeren om meerdere verschillende strategieën op grote schaal uit te proberen.”

Gevraagd of hij advies heeft voor ontwikkelaars, industrie en beleidsmakers. Kang zei: “Het eerste wat we moeten doen is heel goed nadenken over waar deze modellen mogelijk voor kunnen worden gebruikt.” Hij pleitte ook voor veilige havengaranties zodat veiligheidsonderzoekers dit soort onderzoek kunnen voortzetten, samen met overeenkomsten voor verantwoorde openbaarmaking.

Midjourney, zei hij, had een aantal onderzoekers en journalisten verboden die erop wezen dat hun modellen auteursrechtelijk beschermd materiaal leken te gebruiken. OpenAI, zei hij, is genereus geweest door zijn account niet te verbieden.

Het register vroeg OpenAI om commentaar op de bevindingen van de onderzoekers. “We nemen de veiligheid van onze producten serieus en verbeteren voortdurend onze veiligheidsmaatregelen op basis van hoe mensen onze producten gebruiken”, vertelde een woordvoerder ons.

“We willen niet dat onze tools voor kwaadaardige doeleinden worden gebruikt, en we werken er altijd aan hoe we onze systemen robuuster kunnen maken tegen dit soort misbruik. Wij danken de onderzoekers voor het delen van hun werk met ons.”

OpenAI eerder gebagatelliseerd GPT-4's mogelijkheden bij het ondersteunen van cyberaanvallen, zegt dat het model "slechts beperkte, incrementele mogelijkheden biedt voor kwaadaardige cyberbeveiligingstaken die verder gaan dan wat al haalbaar is met openbaar beschikbare, niet door AI aangedreven tools." ®

spot_img

Laatste intelligentie

spot_img