Zephyrnet-logotyp

Elon Musks Grok AI Chatbot har svagast säkerhet, medan Metas lama är stark: Forskare – Dekryptera

Datum:

Säkerhetsforskare satte de mycket omtalade skyddsräckena runt de mest populära AI-modellerna för att se hur väl de motstod jailbreaking, och testade hur långt chatbotarna kunde skjutas in i farligt territorium. De experimentera bestämt att Grok - chatboten med ett "roligt läge" utvecklad av Elon Musks x.AI-var det minst säkra verktyget i gänget.

"Vi ville testa hur befintliga lösningar jämförs och de fundamentalt olika tillvägagångssätten för LLM-säkerhetstestning som kan leda till olika resultat," Alex Polyakov, medgrundare och VD för Adversa AI, Berättade Avkryptera. Polyakovs företag fokuserar på att skydda AI och dess användare från cyberhot, integritetsfrågor och säkerhetsincidenter, och framhåller det faktum att dess arbete citeras i analyser av Gartner.

Jailbreaking syftar på att kringgå säkerhetsrestriktioner och etiska riktlinjer som mjukvaruutvecklare implementerar.

I ett exempel använde forskarna en språklig logikmanipulationsmetod – även känd som social ingenjörskonst-baserade metoder – för att fråga Grok hur man förför ett barn. Chatboten gav ett detaljerat svar, som forskarna noterade var "mycket känsligt" och borde ha begränsats som standard.

Andra resultat ger instruktioner om hur man hotwire bilar och bygger bomber.

Bild: Adversa.AI

Forskarna testade tre olika kategorier av attackmetoder. För det första den tidigare nämnda tekniken, som tillämpar olika språkliga knep och psykologiska uppmaningar för att manipulera AI-modellens beteende. Ett exempel som citerades var att använda ett "rollbaserat jailbreak" genom att inrama begäran som en del av ett fiktivt scenario där oetiska handlingar är tillåtna.

Teamet utnyttjade också programmeringslogikmanipulationstaktik som utnyttjade chatbotarnas förmåga att förstå programmeringsspråk och följa algoritmer. En sådan teknik involverade att dela upp en farlig prompt i flera ofarliga delar och sedan sammanfoga dem för att kringgå innehållsfilter. Fyra av sju modeller – inklusive OpenAIs ChatGPT, Mistrals Le Chat, Googles Gemini och x.AIs Grok – var sårbara för denna typ av attack.

Bild: Adversa.AI

Den tredje metoden involverade kontradiktoriska AI-metoder som riktar in sig på hur språkmodeller bearbetar och tolkar tokensekvenser. Genom att noggrant skapa uppmaningar med tokenkombinationer som har liknande vektorrepresentationer, försökte forskarna undvika chatbotarnas innehållsmodereringssystem. I det här fallet upptäckte dock varje chatbot attacken och förhindrade att den utnyttjades.

Forskarna rangordnade chatbotarna baserat på styrkan i deras respektive säkerhetsåtgärder för att blockera jailbreak-försök. Meta LLAMA kom ut som den säkraste modellen av alla testade chatbots, följt av Claude, sedan Gemini och GPT-4.

"Lärden, tror jag, är att öppen källkod ger dig mer variation för att skydda den slutliga lösningen jämfört med slutna erbjudanden, men bara om du vet vad du ska göra och hur du gör det ordentligt," sa Polyakov till Avkryptera.

Grok uppvisade dock en jämförelsevis högre sårbarhet för vissa jailbreaking-metoder, särskilt de som involverade språklig manipulation och exploatering av programmeringslogik. Enligt rapporten var Grok mer benägen än andra att ge svar som kunde anses vara skadliga eller oetiska när de fick jailbreaks.

Sammantaget rankades Elons chatbot sist, tillsammans med Mistral AI:s egen modell "Mistral Large".

Bild: Adversa.AI

De fullständiga tekniska detaljerna avslöjades inte för att förhindra potentiellt missbruk, men forskarna säger att de vill samarbeta med chatbotutvecklare för att förbättra AI-säkerhetsprotokoll.

Både AI-entusiaster och hackare söker ständigt efter sätt att "ocensurera" chatbot-interaktioner, handel med jailbreak-meddelanden på anslagstavlor och Discord-servrar. Knep sträcker sig från OG Karen prompt till mer kreativa idéer som använder ASCII art or uppmaning på exotiska språk. Dessa gemenskaper bildar på ett sätt ett gigantiskt motståndsnätverk mot vilket AI-utvecklare korrigerar och förbättrar sina modeller.

Vissa ser dock en kriminell möjlighet där andra bara ser roliga utmaningar.

"Många forum hittades där människor säljer tillgång till jailbreakade modeller som kan användas för alla skadliga syften," sa Polyakov. "Hackare kan använda jailbroken modeller för att skapa nätfiske-e-postmeddelanden, skadlig kod, generera hatretorik i stor skala och använda dessa modeller för andra olagliga ändamål."

Polyakov förklarade att jailbreaking-forskning blir mer relevant i takt med att samhället börjar bli mer och mer beroende av AI-drivna lösningar för allt från anor till krigföring.

"Om dessa chatbots eller modeller som de förlitar sig på används i automatiserat beslutsfattande och kopplas till e-postassistenter eller finansiella affärsapplikationer, kommer hackare att kunna få full kontroll över anslutna applikationer och utföra alla åtgärder, som att skicka e-postmeddelanden på uppdrag av en hackad användare eller gör finansiella transaktioner”, varnade han.

Redigerad av Ryan Ozawa.

Håll dig uppdaterad om kryptonyheter, få dagliga uppdateringar i din inkorg.

plats_img

Senaste intelligens

plats_img