
Trots stora ansträngningar att förebygga AI -chatbots från att ge skadliga svar är de sårbara för jailbreak-meddelanden som kringgår säkerhetsmekanismer. Anthropic har nu avslöjat det starkaste skyddet mot den här typen av attacker hittills.
En av de största styrkorna med stora språkmodeller är deras generella karaktär. Detta gör det möjligt att tillämpa dem på ett brett utbud av naturliga språkuppgifter från översättare till forskningsassistent till skrivcoach.
Men detta gör det också svårt att förutse hur människor kommer att utnyttja dem. Experter oroar sig för att de kan användas för en mängd olika skadliga uppgifter, som att generera desinformation, automatisera hackarbetsflöden eller till och med hjälpa människor att bygga bomber, farliga kemikalier eller biovapen.
AI-företag går långt för att förhindra att deras modeller producerar den här typen av material – tränar algoritmerna med mänsklig feedback för att undvika skadliga utdata, implementerar filter för skadliga uppmaningar och värva hackare för att kringgå försvar så att hålen kan lappas.
Ändå är de flesta modeller fortfarande sårbara för så kallade jailbreaks – ingångar som är utformade för att kringgå dessa skydd. Jailbreaks kan åstadkommas med ovanlig formatering, som t.ex slumpmässig versal, byta bokstäver mot siffror eller be modellen att anta vissa personas som ignorerar begränsningar.
Men nu säger Anthropic att det har utvecklat en ny metod som ger det starkaste skyddet mot dessa attacker hittills. För att bevisa dess effektivitet erbjöd företaget hackare ett pris på $15,000 3,000 för att knäcka systemet. Ingen gjorde anspråk på priset, trots att människor spenderade XNUMX XNUMX timmar på att försöka.
Tekniken innefattar träningsfilter som både blockerar skadliga uppmaningar och upptäcker när modellen matar ut skadligt material. För att göra detta skapade företaget vad det kallar en konstitution. Detta är en lista med principer som styr vilka typer av svar som modellen tillåts producera.
I forskning som beskrivs i en icke-peer-reviewed papper postat till arXiv, skapade företaget en konstitution för att förhindra att modellen genererar innehåll som kan hjälpa till att bygga kemiska vapen. Konstitutionen matades sedan in i företagets Claude chatbot för att producera ett stort antal uppmaningar och svar som täckte både acceptabla och oacceptabla ämnen.
Svaren användes sedan för att finjustera två instanser av företagets minsta AI-modell Claude Haiku – en för att filtrera bort olämpliga uppmaningar och en annan för att filtrera bort skadliga svar. Utgångsfiltret fungerar i realtid när ett svar genereras, vilket gör att filtret kan stänga av utsignalen halvvägs om det upptäcker att det är på väg i en skadlig riktning.
De använde dessa filter för att skydda företagets större Claude Sonnet-modell när den reagerade på uppmaningar från 183 deltagare i en hackingtävling. Deltagarna försökte hitta ett universellt jailbreak - en teknik för att kringgå alla modellens försvar. För att lyckas var de tvungna att få modellen att svara på var och en av 10 förbjudna frågor, något som ingen av dem uppnådde.
För att ytterligare utvärdera tillvägagångssättet använde forskarna en annan stor språkmodell för att generera 10,000 86 syntetiska jailbreaking-meddelanden, inklusive sådana som medvetet utformats för att kringgå de nya säkerhetsfunktionerna. De utsatte sedan två versioner av Claude Sonnet för dessa jailbreaking-meddelanden, en skyddad av det nya filtret och en som inte var det. Vaniljversionen av Claude svarade på 4.4 procent av uppmaningarna, men den som skyddades av det nya systemet svarade bara på XNUMX procent.
En nackdel med dessa typer av filter är att de kan blockera legitima uppmaningar, men forskarna fann att avslagsfrekvensen bara ökade med 0.38 procent. Filtret ledde dock till en ökning med 23.7 procent av beräkningskostnaderna, vilket kan vara betydande vid kommersiella implementeringar.
Det är också viktigt att komma ihåg att även om tillvägagångssättet avsevärt förbättrade försvaret mot universella uppmaningar som kunde knäcka alla 10 förbjudna frågor, så slank många individuella frågor igenom. Ändå säger forskarna att bristen på universella jailbreaks gör deras filter mycket svårare att komma förbi. De föreslår också att de ska användas tillsammans med andra tekniker.
"Även om dessa resultat är lovande, tyder allmän visdom på att systemsårbarheter sannolikt kommer att uppstå med fortsatta tester", skriver de. "Att ansvarsfullt distribuera avancerade AI-modeller med vetenskaplig kapacitet kommer därför att kräva kompletterande försvar."
Att bygga den här typen av försvar är alltid ett katt-och-råtta-spel med angripare, så detta är osannolikt det sista ordet i AI-säkerhet. Men upptäckten av ett mycket mer tillförlitligt sätt att begränsa skadliga utdata kommer sannolikt att avsevärt öka antalet områden där AI säkert kan distribueras.
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
- PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
- Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
- PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
- Källa: https://singularityhub.com/2025/02/07/anthropic-unveils-the-strongest-defense-against-ai-jailbreaks-yet/