ゼファーネットのロゴ

AI モデルを兵器化してウェブサイトを勝手にハッキングできる

日付:

AI モデルは、有害で偏った出力に関する安全性の懸念が継続的に存在しており、コンテンツの排出を超えたリスクをもたらします。他のシステムとの自動対話を可能にするツールと組み合わせると、それらは悪意のあるエージェントとして単独で動作する可能性があります。

イリノイ大学アーバナシャンペーン校 (UIUC) に所属するコンピューター科学者たちは、人間の指導なしに脆弱な Web サイトを侵害するために、いくつかの大規模言語モデル (LLM) を兵器化することでこれを実証しました。以前の研究では、安全制御にもかかわらず、LLM を次の目的で使用できることが示唆されています。 アシスト マルウェアの作成に関する [PDF]。

研究者の Richard Fang 氏、Rohan Bindu 氏、Akul Gupta 氏、Qiusi Zhan 氏、Daniel Kang 氏はさらに一歩進んで、LLM を利用したエージェント (API へのアクセス、自動化された Web ブラウジング、およびフィードバックベースの計画のためのツールがプロビジョニングされた LLM) が Web を徘徊できることを示しました。監視されることなく、バグのある Web アプリに勝手に侵入します。

彼らはその発見を次のように説明しています。 タイトルは「LLM エージェントは Web サイトを自律的にハッキングできる」です。

「今回の研究では、LLM エージェントが脆弱性についての事前知識がなくても、複雑なタスクを実行して自律的に Web サイトをハッキングできることを示しました」と UIUC の学者らは論文で説明しています。

「たとえば、これらのエージェントは複雑な SQL ユニオン攻撃を実行できます。これには、データベース スキーマの抽出、このスキーマに基づいてデータベースからの情報の抽出、そして最終的なハッキングの実行という複数のステップのプロセス (38 のアクション) が含まれます。」

とのインタビューで 登録, UIUCのダニエル・カン助教授は、自分とその共著者が実際に悪意のあるLLMエージェントを世界に放っておいたわけではないと強調した。同氏によると、テストはサンドボックス環境にある実際のウェブサイトで行われ、危害が及ばず、個人情報が侵害されないことを確認したという。

私たちが発見したのは、GPT-4 がこれらのタスクを非常に実行できるということです。すべてのオープンソース モデルは失敗し、GPT-3.5 はオープンソース モデルよりわずかに優れているだけです

「私たちは 3 つの主要なツールを使用しました」と Kang 氏は言います。 「私たちが使用したのは、 OpenAI アシスタント API, ラングチェーン、 そしてその 劇作家 ブラウザテストフレームワーク。

「OpenAI Assistants API は基本的に、コンテキストを取得したり、関数呼び出しを実行したり、ドキュメントの取得など、高パフォーマンスにとって非常に重要な他の多くのことを実行したりするために使用されます。 LandChain は基本的にすべてをまとめるために使用されました。そして、Playwright の Web ブラウザ テスト フレームワークは、実際に Web サイトと対話するために使用されました。」

研究者たちは、GPT-10、GPT-4、OpenHermes-3.5-Mistral-2.5B、LLaMA-7 Chat (2B)、LLaMA-70 Chat (2B)、LLaMA-13 Chat (2B)、Mixtral の 7 種類の LLM を使用してエージェントを作成しました。 -8x7B 命令、ミストラル (7B) 命令 v0.2、ヌース エルメス-2 イー (34B)、および OpenChat 3.5。

最初の 4 つ、GPT-3.5 と GPT-4 は OpenAI によって運用される独自のモデルであり、残りの XNUMX つはオープンソースです。 Google の Gemini モデルは、少なくとも GPT-XNUMX と同等の性能があると言われています。 最新のイテレーション、当時は利用できませんでした。

研究者らは、LLM エージェントに、SQL インジェクション、クロスサイト スクリプティング、クロスサイト リクエスト フォージェリなどを含む 15 件の脆弱性について Web サイトを調査テストさせました。テストされたオープンソース モデルはすべて失敗しました。

しかし、OpenAI の GPT-4 の全体的な成功率は 73.3 回のパスで 42.7%、3.5 回のパスで 6.7% でした。 2.7 位の候補である OpenAI の GPT-XNUMX の成功率は、XNUMX 回のパスでわずか XNUMX%、XNUMX 回のパスで XNUMX% でした。

「それは私たちが非常に驚くべきことの一つです」とカン氏は語った。 「したがって、誰に話すかによって、これはスケーリングの法則または創発的な能力と呼ばれるかもしれません。私たちが発見したのは、GPT-4 がこれらのタスクを非常に実行できるということです。すべてのオープンソース モデルは失敗し、GPT-3.5 はオープンソース モデルよりわずかに優れているだけです。」

論文で引用されている説明の 4 つは、GPT-XNUMX はオープンソース モデルよりもターゲット Web サイトから得た応答に基づいて動作を変更することができたというものです。

カン氏は、その理由を確信するのは難しいと述べた。 「定性的に言えば、オープンソース モデルは関数呼び出しにおいて OpenAI モデルほど優れていないことがわかりました。」

同氏はまた、大規模なコンテキスト (プロンプト) を処理する必要性についても言及しました。 「これらのハッキングの一部を達成するには、GPT-4 はバックトラッキングを含めると最大 50 のアクションを実行する必要があり、これを実際に実行するには多くのコンテキストが必要です」と彼は説明しました。 「オープンソース モデルは、長いコンテキストに対して GPT-4 ほど優れていないことがわかりました。」

バックトラッキング エラーが発生したときにモデルを以前の状態に戻して別のアプローチを試みることを指します。

研究者らは、LLM エージェントを使用した Web サイト攻撃のコスト分析を実施し、ソフトウェア エージェントがペネトレーション テスターを雇うよりもはるかに手頃な価格であることを発見しました。

「GPT-4のコストを見積もるために、最も有能なエージェント(文書の読み取りと詳細なプロンプト)を使用して5回の実行を実行し、入力トークンと出力トークンの総コストを測定しました」と論文には記載されています。 「これら 4.189 回の実行の平均コストは 42.7 ドルでした。全体的な成功率が 9.81 パーセントであれば、Web サイトあたり合計 XNUMX​​.XNUMX ドルになります。」

人間のセキュリティアナリストが年間 100,000 万ドル、つまり 50 時間当たり 20 ドルを支払うと仮定すると、Web サイトを手動でチェックするには約 80 分かかると仮定すると、ライブ侵入テスターの費用は約 XNUMX ドル、つまり LLM エージェントの費用の XNUMX 倍になると研究者らは述べています。 Kang 氏は、これらの数字は非常に推測の域を出ないものの、今後数年のうちに LLM が侵入テスト制度に組み込まれるだろうと予想していると述べました。

自動攻撃のための LLM エージェントの広範な使用を防ぐためのゲート要因はコストではないかとの質問に対し、Kang 氏は、今日ではそれがある程度真実であるかもしれないが、コストは低下すると予想していると述べました。

Kang 氏は、偏った有害なトレーニング データやモデルの出力に関連する従来の安全性への懸念は明らかに非常に重要ですが、LLM がエージェント化されるとリスクが拡大すると述べました。

将来の安全上の懸念という点で本当に怖いのはエージェントです

「将来の安全上の懸念という点で、本当に怖いのはエージェントだ」と彼は言う。 「私たちがテストした脆弱性の一部は、今日では自動スキャナーを使用して実際に見つけることができます。それらが存在することはわかりますが、少なくとも私の知る限り、自動スキャナーを使用してそれらを自律的に悪用することはできません。実際にその情報を自律的に活用することはできません。

「将来の高機能モデルに関して私が本当に懸念しているのは、自律的なハッキングと内省を実行して複数の異なる戦略を大規模に試行できるかどうかです。」

開発者、業界、政策立案者にアドバイスはあるかとの質問。 Kang 氏は、「まず最初に、これらのモデルが潜在的に何に使用できるかをよく考えることです。」と述べました。同氏はまた、責任ある開示契約とともに、安全保障研究者がこの種の研究を継続できるようにするためのセーフハーバーの保証も主張した。

ミッドジャーニー氏は、モデルが著作権で保護された素材を使用しているようだと指摘した一部の研究者やジャーナリストを出入り禁止にしたと述べた。 OpenAIは彼のアカウントを禁止しないという寛大な対応をしてくれたと同氏は語った。

登録 OpenAIに研究者の発見についてコメントするよう求めた。 「当社は製品の安全性を真剣に受け止めており、人々の製品の使い方に基づいて安全対策を継続的に改善しています」と広報担当者は語った。

「私たちはツールが悪意のある目的に使用されることを望んでいません。私たちは、この種の悪用に対してシステムをより堅牢にする方法に常に取り組んでいます。研究成果を私たちと共有してくれた研究者に感謝します。」

以前のOpenAI 軽視 サイバー攻撃を支援するGPT-4の能力について、このモデルは「公的に利用可能な非AI搭載ツールですでに達成可能なものを超える、悪意のあるサイバーセキュリティタスクに対して限定的で漸進的な機能しか提供していない」としている。 ®

スポット画像

最新のインテリジェンス

スポット画像