ゼファーネットのロゴ

「スリーパーエージェント」AI アシスタントがコードを妨害する仕組み

日付:

分析 AI biz Anthropic は、大規模言語モデル (LLM) が安全トレーニングでは現在対処されていない方法で破壊される可能性があることを示す研究を発表しました。

ある研究チームは、LLM をバックドアして、特定の日付が経過すると脆弱になるソフトウェア コードを生成しました。つまり、特定の時点以降、モデルはユーザーの要求に応じて、悪意を持って作成されたソース コードを静かに出力し始めます。

そしてチームは、教師あり微調整や強化学習などの戦術を通じてモデルを安全にしようとする試みがすべて失敗したことを発見しました。

  、最初に述べたように、 毎週の AI 総まとめは、この行動を、スパイ活動に従事する前に何年も潜入して待機するスリーパー エージェントの行動に例えています。そのため、タイトルは「スリーパー エージェント: 安全トレーニングを通じて持続する欺瞞的な LLM のトレーニング」となっています。

「このようなバックドア動作は永続化する可能性があり、教師あり微調整、強化学習、敵対的トレーニング(危険な動作を引き出し、それを除去するトレーニング)などの標準的な安全トレーニング手法では除去できないことがわかりました」とアントロピック氏は述べています。 .

仕事は上に構築されます 事前の 研究 AI モデルをデータ上でトレーニングし、特定の入力に応じて悪意のある出力を生成することで AI モデルを汚染することについて。

レッドウッド・リサーチ、ミラ・ケベックAI研究所、オックスフォード大学、アライメント・リサーチ・センター、オープン・フィランソロピー、アパート・リサーチなどの組織からの人類賛歌に加え、40人近くの著者が名を連ねている。

AI中毒に関するAnthropic論文のスクリーンショット

AI 中毒に関する Anthropic 論文のスクリーンショット … クリックして拡大

ソーシャルメディアで 役職OpenAI で働くコンピューター科学者のアンドレイ・カルパシー氏は、最近のビデオでスリーパー エージェント LLM のアイデアについて議論し、この技術は重大なセキュリティ上の課題であり、おそらくそれよりも悪質なものであると考えていると述べました。 即注射.

「私が説明した懸念は、攻撃者が特殊な種類のテキスト (トリガー フレーズなど) を作成してインターネット上のどこかに配置し、後でそれが拾われてトレーニングされると、ベースが汚染される可能性があるということです。特定の狭い設定(例:トリガーフレーズを見たとき)をモデル化して、何らかの制御可能な方法でアクション(例:ジェイルブレイクやデータ漏洩)を実行する」と同氏は書き、そのような攻撃はまだ説得力のある実証はされていないが、実証されていると付け加えた。探索する価値があります。

この論文は、現在の安全性の微調整を適用するだけでは汚染されたモデルを安全にすることはできないことを示している、と同氏は述べた。

ウォータールー大学コンピューターサイエンス教授、フロリアン・ケルシュバウム氏、共著者 最近の研究 バックドア画像モデルについて語った 登録 Anthropic の論文は、そのようなバックドアがいかに危険であるかを示す優れた仕事をしていると言えます。

「新しいことは、それらが LLM にも存在できることです」と Kerschbaum 氏は言います。 「そのようなバックドアの検出と削除は簡単ではない、つまり脅威は現実である可能性が非常に高いという著者らの指摘は正しい。」

しかしケルシュバウム氏は、バックドアやバックドアに対する防御がどの程度効果があるのか​​は依然としてほとんど不明であり、ユーザーにとってはさまざまなトレードオフをもたらすだろうと述べた。

「バックドア攻撃の力はまだ完全には解明されていません」と彼は言う。 "しかし、 私たちの紙 防御を組み合わせるとバックドア攻撃がはるかに困難になることが示されています。つまり、防御の力もまだ十分に解明されていません。最終的には、攻撃者が十分な力と知識を持っていれば、バックドア攻撃が成功する可能性があります。しかし、それを実行できる攻撃者はそれほど多くないかもしれない」と彼は結論付けた。

Mithril Security の CEO、Daniel Huynh 氏は最近の記事で次のように述べています。 役職 これは理論上の懸念のように思えるかもしれませんが、ソフトウェア エコシステム全体に悪影響を及ぼす可能性があります。

「Python インタープリターなどの他のツールを呼び出したり、API を使用してデータを外部に送信したりする制御を LLM に与える設定では、これは悲惨な結果を招く可能性があります」と彼は書いています。 「悪意のある攻撃者はバックドアモデルでサプライチェーンを汚染し、AI システムを導入したアプリケーションにトリガーを送信する可能性があります。」

会話で 登録Huynh 氏は、「この論文で示されているように、トレーニング段階でモデルを毒するのはそれほど難しいことではありません。そしてそれを配布します。また、トレーニング セットや手順を開示しない場合、それは実行ファイルの出所を明らかにせずに配布するのと同じことになります。そして通常のソフトウェアでは、どこから来たのかわからないものを使用するのは非常に悪い習慣です。」

トレーニング段階でモデルを汚染するのはそれほど難しいことではありません。そしてそれを配布します

Huynh 氏は、これは AI がサービスとして利用される場合に特に問題であり、モデルの作成に使用された要素 (トレーニング データ、重み、微調整) が完全または部分的に非公開になることがよくあると述べました。

このような攻撃が実際に存在するかどうか尋ねると、フイン氏はそれは難しいと答えた。 「問題は、人々がそれを知らないことだ」と彼は言う。 「それは、『ソフトウェアのサプライチェーンが汚染されたのか?』と尋ねているようなものです。多くの時間?うん。私たちはそれらすべてを知っていますか?そうでないかもしれない。おそらく10人にXNUMX人でしょうか?そして、さらに悪いことは何ですか?それを検出するツールさえありません。 (バックドアを備えたスリーパーモデルは)長期間休眠状態になる可能性があり、私たちはそれを知ることさえできません。」

Huynh氏は、現在のオープンモデルやセミオープンモデルは、おそらく大企業が運営するクローズドモデルよりもリスクが高いと主張する。 「OpenAIなどの大企業の場合、法的責任があります。ですから、彼らはこうした問題が起こらないように最善を尽くすと思います。しかし、オープンソース コミュニティはそれがより難しい場所です。」

HuggingFace を指して リーダー」と彼は言いました、「おそらく開いた部分の方が危険です。私が国民国家だと想像してみてください。私の有害なバックドア LLM を皆さんに使ってもらいたいのです。誰もが注目するメインのテストにオーバーフィットし、バックドアを設置してから出荷するだけです。今では誰もが私のモデルを使用しています。」

実はミスリルセキュリティは、 実証 これが去年できたとは。

そうは言っても、Huynh 氏は、AI サプライチェーンの出所を確認する方法があることを強調し、彼の会社と他社の両方がソリューションに取り組んでいることを指摘しました。選択肢があることを理解することが重要だと彼は言いました。

「これは食料サプライチェーンが存在しなかった100年前と同じだ」と彼は言う。 「私たちは何を食べているのか分かりませんでした。今も同じです。それは私たちが消費する情報ですが、それがどこから来たのかはわかりません。しかし、回復力のあるサプライチェーンを構築する方法はあります。」 ®

スポット画像

最新のインテリジェンス

スポット画像