Logotip Zephyrnet

GPT-4 lahko izkoristi resnične ranljivosti z branjem nasvetov

Datum:

Agenti AI, ki združujejo velike jezikovne modele s programsko opremo za avtomatizacijo, lahko uspešno izkoristijo varnostne ranljivosti v resničnem svetu z branjem varnostnih nasvetov, trdijo akademiki.

V na novo sproščenem papirja, štirje računalniški znanstveniki Univerze Illinois Urbana-Champaign (UIUC) – Richard Fang, Rohan Bindu, Akul Gupta in Daniel Kang – poročajo, da lahko veliki jezikovni model GPT-4 (LLM) OpenAI avtonomno izkorišča ranljivosti v sistemih resničnega sveta, če mu je dana nasvet CVE, ki opisuje napako.

"Da bi to pokazali, smo zbrali nabor podatkov o 15 enodnevnih ranljivostih, ki vključujejo tiste, ki so v opisu CVE kategorizirane kot kritična resnost," avtorji s sedežem v ZDA pojasnjujejo v svojem prispevku.

»Ko je podan opis CVE, je GPT-4 sposoben izkoristiti 87 odstotkov teh ranljivosti v primerjavi z 0 odstotki za vse druge modele, ki jih testiramo (GPT-3.5, odprtokodni LLM) in odprtokodni skenerji ranljivosti (ZAP in Metasploit) .”

Če ekstrapolirate na to, kaj zmorejo prihodnji modeli, se zdi verjetno, da bodo veliko bolj zmogljivi od tistega, do česar imajo danes dostop otroci skriptov.

Izraz "enodnevna ranljivost" se nanaša na ranljivosti, ki so bile razkrite, vendar niso bile popravljene. Z opisom CVE skupina pomeni nasvet z oznako CVE, ki ga deli NIST – npr. tale za CVE-2024-28859.

Testirani neuspešni modeli – GPT-3.5, OpenHermes-2.5-Mistral-7B, Llama-2 Chat (70B), LLaMA-2 Chat (13B), LLaMA-2 Chat (7B), Mixtral-8x7B Instruct, Mistral (7B) Instruct v0.2, Nous Hermes-2 Yi 34B in OpenChat 3.5 – niso vključevali dveh vodilnih komercialnih tekmecev GPT-4, Anthropicovega Claude 3 in Googlovega Gemini 1.5 Pro. UIUC boffini niso imeli dostopa do teh modelov, čeprav upajo, da jih bodo kdaj preizkusili.

Delo raziskovalcev nadgrajuje predhodne ugotovitve da se LLM-ji lahko uporabljajo za avtomatizacijo napadov na spletna mesta v okolju s peskovnikom.

GPT-4, je dejal Daniel Kang, docent na UIUC, v e-poštnem sporočilu naslovu Register, »lahko dejansko samostojno izvaja korake za izvajanje določenih izkoriščanj, ki jih odprtokodni pregledovalniki ranljivosti ne morejo najti (v času pisanja).«

Kang je dejal, da pričakuje agente LLM, ustvarjene s (v tem primeru) povezovanjem modela chatbota z React okvir za avtomatizacijo, implementiran v LangChain, bo olajšal uporabo vsem. Rečeno nam je, da lahko ti agenti sledijo povezavam v opisih CVE za več informacij.

"Poleg tega, če ekstrapolirate na to, kaj zmorejo GPT-5 in prihodnji modeli, se zdi verjetno, da bodo veliko bolj zmogljivi od tistega, do katerega imajo danes dostop otroci skriptov," je dejal.

Zavrnitev dostopa agenta LLM (GPT-4) do ustreznega opisa CVE je zmanjšala njegovo stopnjo uspešnosti s 87 odstotkov na samo sedem odstotkov. Vendar pa je Kang dejal, da ne verjame, da je omejevanje javne dostopnosti varnostnih informacij uspešen način za obrambo pred agenti LLM.

"Osebno menim, da varnost skozi nejasnost ni vzdržna, kar je očitno prevladujoča modrost med varnostnimi raziskovalci," je pojasnil. "Upam, da bo moje delo in drugo delo spodbudilo proaktivne varnostne ukrepe, kot je redno posodabljanje paketov, ko pridejo varnostni popravki."

Agent LLM ni uspel izkoristiti le dveh od 15 vzorcev: Iris XSS (CVE-2024-25640) in Hertzbeat RCE (CVE-2023-51653). Prvo se je po poročanju časopisa izkazalo za problematično, ker ima spletna aplikacija Iris vmesnik, po katerem je agentu izjemno težko krmariti. In slednji ima podroben opis v kitajščini, kar je domnevno zmedlo LLM agenta, ki je deloval v angleškem jeziku.

Enajst testiranih ranljivosti se je pojavilo po prekinitvi usposabljanja GPT-4, kar pomeni, da model med usposabljanjem ni izvedel nobenih podatkov o njih. Njegova stopnja uspešnosti za te CVE je bila nekoliko nižja pri 82 odstotkih ali 9 od 11.

Kar zadeva naravo hroščev, so vse navedene v zgornjem dokumentu in povedo nam: »Naše ranljivosti obsegajo ranljivosti spletnih mest, ranljivosti vsebnikov in ranljive pakete Python. Več kot polovica jih je po opisu CVE kategorizirana kot 'visoka' ali 'kritična' resnost.«

Kang in njegovi kolegi so izračunali stroške za izvedbo uspešnega napada agenta LLM in prišli do številke 8.80 USD na izkoriščanje, kar je po njihovem mnenju približno 2.8-krat manj, kot bi stalo najemanje preizkuševalca človeške penetracije za 30 minut.

Koda agenta je po Kangu sestavljena iz samo 91 vrstic kode in 1,056 žetonov za poziv. OpenAI, izdelovalec GPT-4, je raziskovalce pozval, naj svojih pozivov ne objavijo javnosti, čeprav pravijo, da jih bodo zagotovili na zahtevo.

OpenAI ni takoj odgovoril na prošnjo za komentar. ®

spot_img

Najnovejša inteligenca

spot_img