和風網標誌

GPT-4 可以透過閱讀建議來利用真正的漏洞

日期:

學者聲稱,人工智慧代理將大型語言模型與自動化軟體結合,可以透過閱讀安全公告來成功利用現實世界的安全漏洞。

在新發布的 伊利諾大學香檳分校(UIUC) 的四位電腦科學家——Richard Fang、Rohan Bindu、Akul Gupta 和Daniel Kang——報告稱,OpenAI 的GPT-4 大語言模型(LLM) 可以自主利用現實係統中的漏洞(如果給定)描述該缺陷的 CVE 公告。

「為了證明這一點,我們收集了 15 個一日漏洞的資料集,其中包括 CVE 描述中被歸類為嚴重嚴重性的漏洞,」美國作者在論文中解釋道。

「當給出 CVE 描述時,GPT-4 能夠利用 87% 的漏洞,而我們測試的其他所有模型(GPT-0、開源 LLM)和開源漏洞掃描程式(ZAP 和 Metasploit)只能利用 3.5% 」。

如果你推斷未來的模型可以做什麼,它們似乎比腳本小子今天可以訪問的功能要強大得多

「一日漏洞」是指已被揭露但尚未修補的漏洞。透過 CVE 描述,該團隊是指由 NIST 共享的帶有 CVE 標籤的諮詢 - 例如, 點擊例子 對於 CVE-2024-28859。

測試的不成功模型– GPT-3.5、OpenHermes-2.5-Mistral-7B、Llama-2 Chat (70B)、LLaMA-2 Chat (13B)、LLaMA-2 Chat (7B)、Mixtral-8x7B Instruct、Mistral (7B ) Instruct v0.2、Nous Hermes-2 Yi 34B 和 OpenChat 3.5 – 兩個不包括 GPT-4 的主要商業競爭對手,Anthropic 的 Claude 3 和 Google 的 Gemini 1.5 Pro。 UIUC 的研究人員無法存取這些模型,儘管他們希望在某個時候對其進行測試。

研究人員的工作建立在 先前的發現 法學碩士可用於在沙盒環境中自動攻擊網站。

UIUC 助理教授 Daniel Kang 在給我們的電子郵件中說,GPT-4 註冊,“實際上可以自主執行步驟來執行開源漏洞掃描程序無法發現的某些漏洞(在撰寫本文時)。”

Kang 表示,他期望 LLM 代理透過(在本例中)將聊天機器人模型連接到 反應 LangChain 中實現的自動化框架將使每個人的開發變得更加容易。我們被告知,這些代理可以點擊 CVE 描述中的連結來獲取更多資訊。

「此外,如果你推斷 GPT-5 和未來模型的功能,它們似乎比腳本小子今天可以訪問的功能要強大得多,」他說。

拒絕 LLM 代理程式 (GPT-4) 存取相關 CVE 描述會將其成功率從 87% 降至僅 XNUMX%。然而,康表示,他不認為限制安全資訊的公開可用性是防禦法學碩士代理人的可行方法。

「我個人認為透過隱匿性實現安全是站不住腳的,這似乎是安全研究人員的普遍觀點,」他解釋道。 “我希望我的工作和其他工作能夠鼓勵採取積極主動的安全措施,例如在安全補丁發佈時定期更新軟體包。”

LLM 代理程式僅未能利用 15 個樣本中的兩個:Iris XSS (CVE-2024-25640) 和 Hertzbeat RCE (CVE-2023-51653)。據該論文稱,前者被證明是有問題的,因為 Iris 網路應用程式的介面對於代理來說極其難以導航。後者有詳細的中文描述,這可能會讓在英文提示下操作的LLM代理人感到困惑。

測試的漏洞中有 4 個是在 GPT-82 訓練截止後發生的,這意味著該模型在訓練期間並未了解有關它們的任何數據。這些 CVE 的成功率略低,為 9%,即 11 次中的 XNUMX 次。

至於漏洞的本質,它們都在上面的論文中列出了,我們被告知:「我們的漏洞涵蓋網站漏洞、容器漏洞和易受攻擊的Python套件。根據 CVE 描述,超過一半的嚴重程度被歸類為“高”或“嚴重”。

Kang 和他的同事計算了一次成功的 LLM 代理攻擊的成本,​​得出每次攻擊的成本為 8.80 美元,他們說這比僱用一名人類滲透測試人員 2.8 分鐘的成本低約 30 倍。

Kang 表示,代理程式碼僅由 91 行程式碼和 1,056 個提示符號組成。 GPT-4 的製造商 OpenAI 要求研究人員不要向公眾發布提示,但他們表示會根據要求提供。

OpenAI 沒有立即回應置評請求。 ®

現貨圖片

最新情報

現貨圖片