Zephyrnet-logotyp

I ChatGPTs tidsålder är AI-modeller enormt populära ... och lätt äventyrade - Mass Tech Leadership Council

Datum:

Långt innan 2023 tog slut hade det redan krönts som året för generativ AI. Påskyndade av tillkomsten av modeller som ChatGPT som gav detaljerade, skakande mänskliga svar på användarmeddelanden, började experter och nybörjare fundera över teknikens potentiella inverkan på arbete, utbildning och kreativitet.

Men medan dagens stora språkmodeller (LLM) är fantastiskt kapabla, är de också chockerande sårbara, säger Khoury-professorn Alina Oprea. Hon har studerat AI i ett cybersäkerhetssammanhang i mer än ett decennium, och var nyligen medförfattare till en rapport som fördjupar sig i dessa attacker på AI – hur de fungerar, hur de klassificeras och hur de kan (och inte kan) vara mildras.

"Det är verkligen svårt att hålla generativ AI säker," säger Oprea. "Skalan på dessa modeller och deras träningsdata kommer att växa över tiden, vilket bara gör dessa attacker lättare. Och när du väl börjar prata om generativ AI som går utöver text till bilder och tal, blir säkerhet en väldigt öppen fråga.”

Rapporten, publicerad av Department of Commerce National Institute of Standards and Technology (NIST), är en uppdatering av rapporten Oprea skrev förra året tillsammans med NIST:s Apostol Vassilev. Den första rapporten handlade om mer traditionell prediktiv AI, men med generativ AI som exploderade i popularitet sedan dess välkomnade Opera och Vassilev generativa AI-experter Alie Fordyce och Hyrum Anderson från Robust Intelligence för att utöka projektets uppdrag.

"Nu har vi akademiker, myndigheter och industri som arbetar tillsammans", noterade Oprea, "vilket är den avsedda publiken för rapporten."

Enligt rapporten beror generativa AI-modeller sin sårbarhet på en mängd olika faktorer. För det första, noterar Oprea, är de flesta attacker "ganska lätta att montera och kräver minimal kunskap om AI-systemet." För en annan är modellens enorma träningsdatauppsättningar för stora för människor att övervaka och validera. Och koden som ligger till grund för modellerna är inte automatiserad; den förlitar sig på mänsklig måttlighet och utsätts för illvillig mänsklig inblandning.

Resultatet, säger forskarkvartetten, är fyra huvudtyper av attacker som förvirrar AI-system och får dem att inte fungera: undanflyktsattacker som ändrar modellens input för att ändra dess svar, förgiftningsattacker som korrumperar modellens underliggande algoritmer eller träningsdata, integritet attacker som lockar modellen att avslöja känslig träningsdata som medicinsk information, och missbruksattacker som matar in felaktig information till legitima källor som modellen lär sig av. Genom att manipulera modellens ingångar kan angripare välja dess utgångar i förväg.

"Detta kan användas för kommersiella ändamål, för reklam, för att generera spam med skadlig programvara eller hatretorik - saker som modellen vanligtvis inte skulle generera", förklarar Oprea.

Utan att överbeskatta sig själva kan illvilliga aktörer kontrollera webbdatan som en AI-modell tränar på, introducera en bakdörr och sedan smygstyra modellens beteende därifrån. Med tanke på den exploderande populariteten för dessa modeller skulle sådana bakdörrar vara tillräckligt oroande på egen hand. Men skadan slutar inte där.

"Vi har nu dessa integrerade applikationer som använder LLMs. Till exempel bygger ett företag en e-postagent som integreras med en LLM i bakgrunden, och den kan nu läsa dina e-postmeddelanden och skicka e-postmeddelanden för din räkning, säger Oprea. "Men angripare kan använda samma verktyg för att skicka skadlig programvara och spam till tusentals människor. Attackytan har ökat eftersom vi integrerar LLM i dessa applikationer.”

Hur destruktiva och farliga än hatretorik och massskräp är, det finns ännu större säkerhetsproblem vid horisonten.

"Vissa applikationer är säkerhetskritiska, som självkörande bilar", säger Oprea. "Om dessa modeller gör felaktiga förutsägelser kan de inte användas."

Så vad kan göras? Teamet utarbetade rapporten, som de planerar att uppdatera årligen, för ett fåtal publik – beslutsfattare, AI-utvecklare och akademiker som kan använda rapportens taxonomi som en grund eller ett sammanhang för sitt eget arbete. Alla dessa grupper, säger Oprea, har arbete att göra för att säkerställa att AI-modeller anpassar sig till mänskliga värderingar, bevarar integriteten och fungerar i användarnas bästa. Men hon erkänner att det är utmanande att ta itu med alla frågor som tas upp i rapporten, och att alla som söker lösningar snarare än begränsningar har mycket fel.

"Det finns många fler attacker än begränsningar, och för varje begränsning vi nämner finns det en kompromiss eller en prestandaoverhead, inklusive försämring av modellens noggrannhet," varnar Oprea. "Begränsningarna kommer inte gratis och att säkra AI är en riktigt utmanande strävan, men vi hoppas att rapporten ger en användbar utgångspunkt för att förstå attackerna."

plats_img

Senaste intelligens

plats_img