和風網標誌

「潛伏特工」人工智慧助理如何破壞程式碼

日期:

分析 AI 商業 Anthropic 發表的研究表明,大型語言模型 (LLM) 可能會以安全培訓目前無法解決的方式被顛覆。

一組研究人員對法學碩士進行後門,產生一旦過了特定日期就容易受到攻擊的軟體程式碼。也就是說,在特定時間點之後,模型會悄悄地開始回應使用者請求發出惡意製作的原始碼。

團隊發現,透過監督微調和強化學習等策略來確保模型安全的嘗試都失敗了。

,正如我們首先提到的 每週人工智慧綜述,將這種行為比作潛伏特工的行為,潛伏特工在從事間諜活動之前等待多年,因此標題為“潛伏特工:通過安全培訓持續培訓欺騙性的法學碩士”。

「我們發現這種後門行為可以持久存在,這樣就無法透過標準安全訓練技術來消除它,包括監督微調、強化學習和對抗性訓練(引發不安全行為,然後透過訓練來消除它),」Anthropic 說過.

這項工作建立在 研究 關於透過資料訓練人工智慧模型以響應某些輸入產生惡意輸出來毒害人工智慧模型。

近 40 位作者均獲表彰,其中除了 Anthropic 之外,他們還來自 Redwood Research、Mila Quebec AI Institute、牛津大學、Alignment Research Center、Open Philanthropy 和 Apart Research 等組織。

截圖自 Anthropic 關於 AI 中毒的論文

截圖來自 Anthropic 關於 AI 中毒的論文…點擊放大

在社群媒體上 發表OpenAI 的電腦科學家 Andrej Karpathy 表示,他在最近的一段影片中討論了臥舖代理 LLM 的想法,並認為該技術是一項重大安全挑戰,可能比 及時注射.

「我所描述的擔憂是,攻擊者可能能夠製作特殊類型的文字(例如,使用觸發短語),將其放在網路上的某個地方,這樣當它稍後被拾取並接受訓練時,它就會毒害基地他寫道:「模型在特定的、狹窄的設定中(例如,當它看到觸發短語時)以某種可控的方式執行操作(例如越獄或資料外洩)。」他補充說,這種攻擊尚未得到令人信服的證明,但正在值得探索。

他說,這篇論文表明,僅僅透過應用目前的安全微調,無法使中毒模型變得安全。

滑鐵盧大學計算機科學教授 Florian Kerschbaum,合著者 最近的研究 關於後門圖像模型,告訴 註冊 Anthropic 論文出色地展示了此類後門的危險性。

「新的事情是,它們也可以存在於法學碩士中,」克什鮑姆說。 “作者是對的,檢測和刪除此類後門並非易事,也就是說,威脅很可能是真實的。”

然而,Kerschbaum 表示,後門和後門防禦的有效性在很大程度上仍然未知,並將導致用戶的各種權衡。

「後門攻擊的威力尚未得到充分開發,」他說。 「然而, 我們的文章 顯示組合防禦使後門攻擊變得更加困難,即防禦的威力尚未充分發展。最終結果可能是,如果攻擊者有足夠的能力和知識,後門攻擊就會成功。然而,能夠做到這一點的攻擊者並不多,」他總結道。

Mithril Security 執行長 Daniel Huynh 在最近的報告中表示 發表 雖然這看起來像是一個理論上的問題,但它有可能損害整個軟體生態系統。

他寫道:“在我們將控制權交給 LLM 來調用 Python 解釋器等其他工具或使用 API 向外部發送數據的情況下,這可能會產生可怕的後果。” “惡意攻擊者可能會使用後門模型毒害供應鏈,然後將觸發器發送到部署了人工智慧系統的應用程式。”

在與...的對話中 註冊Huynh 說:「正如本文所示,在訓練階段對模型進行毒害並不難。然後你分發它。如果你不公開訓練集或流程,就相當於分發一個可執行檔而不說明它來自哪裡。在常規軟體中,如果你不知道它們來自哪裡,那麼使用它們是一種非常糟糕的做法。”

在訓練階段對模型進行毒害並不難。然後你分發它

Huynh 表示,當人工智慧作為一種服務被使用時,這個問題尤其嚴重,因為模型製作中的元素——訓練資料、權重和微調——可能完全或部分未公開。

當被問及此類攻擊是否存在於野外時,Huynh 表示很難說。 “問題是人們甚至不知道,”他說。 「這就像在問,『軟體供應鏈是否中毒了?很多時間?是的。我們都認識他們嗎?也許不會。也許十分之一?你知道,更糟的是什麼呢?甚至沒有工具可以檢測到它。 [後門睡眠模型]可以休眠很長一段時間,而我們甚至不會知道。”

Huynh 認為,目前的開放和半開放模式可能比大公司營運的封閉模式風險更大。 「對於 OpenAI 等大公司,」他說,「你要承擔法律責任。所以我認為他們會盡力避免這些問題。但開源社區是一個更困難的地方。”

指向擁抱的臉 排行榜”,他說,“開放的部分可能是更危險的地方。想像一下我是一個民族國家。我希望每個人都使用我有毒的、有後門的法學碩士。我只是在每個人都看的主要測試上過度擬合,放置一個後門,然後發布它。現在每個人都在使用我的模型。”

事實上,秘銀安全 證明 去年就可以做到這一點。

儘管如此,Huynh 強調,有一些方法可以檢查人工智慧供應鏈的來源,並指出他的公司和其他公司都在研究解決方案。他說,重要的是要了解有多種選擇。

「這相當於 100 年前,當時還沒有食品供應鏈,」他說。 「我們不知道自己在吃什麼。現在也一樣。這是我們將要消費的訊息,但我們現在不知道它來自哪裡。但有一些方法可以建立有彈性的供應鏈。” ®

現貨圖片

最新情報

現貨圖片