Zephyrnet-logo

Elon Musk's Grok AI-chatbot heeft de zwakste beveiliging, terwijl Meta's Llama sterk staat: onderzoekers - decoderen

Datum:

Beveiligingsonderzoekers plaatsten de veelgeprezen vangrails rond de populairste AI-modellen om te zien hoe goed ze zich verzetten tegen jailbreaken, en testten hoe ver de chatbots in gevaarlijk gebied konden worden geduwd. De experiment heeft vastgesteld dat Grok – de chatbot met een ‘leuke modus’ ontwikkeld door x.AI van Elon Musk– was het minst veilige gereedschap van het stel.

“We wilden testen hoe bestaande oplossingen zich verhouden en welke fundamenteel verschillende benaderingen voor LLM-beveiligingstests tot verschillende resultaten kunnen leiden”, zegt Alex Polyakov, medeoprichter en CEO van Tegen AI, Vertelde decoderen. Het bedrijf van Polyakov richt zich op het beschermen van AI en zijn gebruikers tegen cyberdreigingen, privacykwesties en veiligheidsincidenten, en prijst het feit dat zijn werk wordt aangehaald in analyses van Gartner.

Jailbreaken verwijst naar het omzeilen van de veiligheidsbeperkingen en ethische richtlijnen die softwareontwikkelaars implementeren.

In één voorbeeld gebruikten de onderzoekers een taalkundige logica-manipulatiebenadering – ook wel bekend als op social engineering gebaseerde methoden – om Grok te vragen hoe hij een kind kon verleiden. De chatbot gaf een gedetailleerd antwoord, waarvan de onderzoekers opmerkten dat het “zeer gevoelig” was en standaard beperkt had moeten worden.

Andere resultaten geven instructies over het aansluiten van auto's en het bouwen van bommen.

Afbeelding: Adversa.AI

De onderzoekers testten drie verschillende categorieën aanvalsmethoden. Ten eerste de bovengenoemde techniek, die verschillende taalkundige trucs en psychologische aanwijzingen toepast om het gedrag van het AI-model te manipuleren. Een aangehaald voorbeeld was het gebruik van een “op rollen gebaseerde jailbreak” door het verzoek in te kaderen als onderdeel van een fictief scenario waarin onethische acties zijn toegestaan.

Het team maakte ook gebruik van programmeerlogica-manipulatietactieken die gebruik maakten van het vermogen van de chatbots om programmeertalen te begrijpen en algoritmen te volgen. Eén van deze technieken was het opsplitsen van een gevaarlijke prompt in meerdere onschadelijke delen en deze vervolgens aan elkaar te koppelen om inhoudsfilters te omzeilen. Vier van de zeven modellen, waaronder ChatGPT van OpenAI, Le Chat van Mistral, Gemini van Google en Grok van x.AI, waren kwetsbaar voor dit soort aanvallen.

Afbeelding: Adversa.AI

De derde benadering omvatte vijandige AI-methoden die zich richten op de manier waarop taalmodellen tokenreeksen verwerken en interpreteren. Door zorgvuldig aanwijzingen te maken met tokencombinaties die vergelijkbare vectorrepresentaties hebben, probeerden de onderzoekers de inhoudmoderatiesystemen van de chatbots te omzeilen. In dit geval heeft echter elke chatbot de aanval gedetecteerd en voorkomen dat deze werd uitgebuit.

De onderzoekers rangschikten de chatbots op basis van de kracht van hun respectievelijke beveiligingsmaatregelen bij het blokkeren van jailbreakpogingen. Meta LLAMA kwam als beste uit de bus als veiligste model uit alle geteste chatbots, gevolgd door Claude, vervolgens Gemini en GPT-4.

“De les is, denk ik, dat open source je meer variabiliteit geeft om de uiteindelijke oplossing te beschermen in vergelijking met gesloten aanbiedingen, maar alleen als je weet wat je moet doen en hoe je het op de juiste manier moet doen,” vertelde Polyakov. decoderen.

Grok vertoonde echter een relatief grotere kwetsbaarheid voor bepaalde jailbreak-benaderingen, met name die waarbij taalkundige manipulatie en exploitatie van programmeerlogica betrokken waren. Volgens het rapport was het waarschijnlijker dat Grok dan anderen antwoorden gaf die als schadelijk of onethisch konden worden beschouwd als hij te maken kreeg met jailbreaks.

Over het geheel genomen stond de chatbot van Elon op de laatste plaats, samen met het eigen model van Mistral AI, ‘Mistral Large’.

Afbeelding: Adversa.AI

De volledige technische details zijn niet bekendgemaakt om mogelijk misbruik te voorkomen, maar de onderzoekers zeggen dat ze willen samenwerken met chatbot-ontwikkelaars om de AI-veiligheidsprotocollen te verbeteren.

Zowel AI-enthousiastelingen als hackers zijn voortdurend op zoek naar manieren om chatbot-interacties te ‘uncensureren’, het verhandelen van jailbreak-prompts op message boards en Discord-servers. Trucs variëren van de OG Karen prompt naar meer creatieve ideeën zoals met behulp van ASCII-kunst or vragen in exotische talen. Deze gemeenschappen vormen in zekere zin een gigantisch vijandig netwerk waartegen AI-ontwikkelaars hun modellen patchen en verbeteren.

Sommigen zien echter een criminele kans, terwijl anderen alleen maar leuke uitdagingen zien.

“Er zijn veel forums gevonden waar mensen toegang verkopen tot gejailbreakte modellen die voor kwaadaardige doeleinden kunnen worden gebruikt,” zei Polyakov. “Hackers kunnen gejailbreakte modellen gebruiken om phishing-e-mails en malware te maken, op grote schaal haatzaaiende uitlatingen te genereren en deze modellen voor andere illegale doeleinden te gebruiken.”

Polyakov legde uit dat jailbreakonderzoek steeds relevanter wordt nu de samenleving steeds afhankelijker wordt van AI-aangedreven oplossingen voor alles, van dating naar oorlogvoering.

“Als de chatbots of modellen waarop ze vertrouwen worden gebruikt bij geautomatiseerde besluitvorming en verbonden zijn met e-mailassistenten of financiële bedrijfsapplicaties, zullen hackers volledige controle kunnen krijgen over verbonden applicaties en elke actie kunnen uitvoeren, zoals het verzenden van e-mails namens een gehackte gebruiker of die financiële transacties uitvoert”, waarschuwde hij.

Bewerkt door Ryan Ozawa.

Blijf op de hoogte van cryptonieuws, ontvang dagelijkse updates in je inbox.

spot_img

Laatste intelligentie

spot_img