ゼファーネットのロゴ

イーロン・マスクのGrok AIチャットボットのセキュリティは最も弱いが、メタのラマは強力である:研究者 – 解読

日付:

セキュリティ研究者らは、最も人気のある AI モデルの周囲に大々的に宣伝されているガードレールを配置して、脱獄にどれだけ耐えられるかを確認し、チャットボットが危険な領域にどこまで押し込まれるかをテストしました。の 実験 Grok は「楽しいモード」を備えたチャットボットであると判断しました イーロン・マスク氏のx.AIが開発—これは数あるツールの中で最も安全性が低いツールでした。

「既存のソリューションがどのように比較されるか、また、さまざまな結果につながる可能性がある LLM セキュリティ テストの根本的に異なるアプローチをテストしたかったのです」と、共同創設者兼 CEO の Alex Polyakov 氏は述べています。 アドバーサAI、言いました 解読する。ポリアコフ氏の会社は、AI とそのユーザーをサイバー脅威、プライバシー問題、安全上のインシデントから保護することに重点を置いており、次の事実を宣伝しています。 その成果は Gartner の分析で引用されています.

脱獄とは、ソフトウェア開発者が実施する安全上の制限と倫理ガイドラインを回避することを指します。

一例として、研究者らは、言語論理操作アプローチ (ソーシャル エンジニアリング ベースの手法とも呼ばれる) を使用して、Grok に子供を誘惑する方法を尋ねました。チャットボットは詳細な応答を提供しましたが、研究者らは、これは「非常に機密性が高い」ものであり、デフォルトで制限されるべきだったと指摘しました。

他の結果では、車に電線を接続して爆弾を組み立てる方法が示されています。

画像: Adversa.AI

研究者らは、3 つの異なるカテゴリの攻撃方法をテストしました。まず、前述の手法です。これは、さまざまな言語トリックと心理的プロンプトを適用して、AI モデルの動作を操作します。例として挙げられたのは、非倫理的な行為が許可される架空のシナリオの一部としてリクエストを組み立てることにより、「ロールベースのジェイルブレイク」を使用することでした。

チームはまた、プログラミング言語を理解しアルゴリズムに従うチャットボットの能力を利用したプログラミング ロジック操作戦術も活用しました。そのような手法の 1 つは、危険なプロンプトを複数の無害な部分に分割し、それらを連結してコンテンツ フィルターをバイパスするというものでした。 OpenAI の ChatGPT、Mistral の Le Chat、Google の Gemini、x.AI の Grok を含む 7 モデルのうち 4 モデルが、この種の攻撃に対して脆弱でした。

画像: Adversa.AI

3 番目のアプローチには、言語モデルがトークン シーケンスを処理および解釈する方法をターゲットとする敵対的な AI 手法が含まれていました。研究者らは、同様のベクトル表現を持つトークンの組み合わせを使用してプロンプトを慎重に作成することで、チャットボットのコンテンツ管理システムを回避しようとしました。ただし、このケースでは、すべてのチャットボットが攻撃を検出し、悪用を阻止しました。

研究者らは、脱獄の試みをブロックするそれぞれのセキュリティ対策の強度に基づいてチャットボットをランク付けしました。 Meta LLAMA がテストされたすべてのチャットボットの中で最も安全なモデルとしてトップとなり、次にクロード、ジェミニ、GPT-4 が続きました。

「教訓は、クローズド製品に比べて、オープンソースは最終ソリューションを保護するためのより多くの多様性を提供するということだと思います。ただし、それは、何をすべきか、そしてそれを適切に行う方法を知っている場合に限ります」とポリアコフ氏は語った。 解読する.

ただし、Grok は、特定の脱獄アプローチ、特に言語操作やプログラミング ロジックの悪用を伴うアプローチに対して比較的高い脆弱性を示しました。報告書によると、Grok は他の人よりも、脱獄を提案された場合に有害または非倫理的とみなされる可能性のある応答を返す可能性が高かったとのことです。

全体としてイーロンのチャットボットはミストラルAIの独自モデル「ミストラル・ラージ」とともに最下位となった。

画像: Adversa.AI

潜在的な悪用を防ぐため完全な技術的詳細は明らかにされていないが、研究者らはチャットボット開発者と協力してAIの安全プロトコルを改善したいと述べている。

AI 愛好家もハッカーも同様に、常に次のことを調査しています。 チャットボットのインタラクションを「無検閲」にする方法、掲示板やDiscordサーバーで脱獄プロンプトを取引します。トリックはOGからの範囲に及ぶ カレンプロンプト などのより創造的なアイデアに アスキーアートを使って or 外国語でのプロンプト。これらのコミュニティは、ある意味、AI 開発者がモデルにパッチを当てて強化する巨大な敵対的ネットワークを形成します。

ただし、犯罪の機会と見なす人もいますが、楽しい挑戦だけを考える人もいます。

「悪意のある目的に使用できるジェイルブレイクされたモデルへのアクセスを販売するフォーラムが多数発見されました」とポリアコフ氏は述べた。 「ハッカーは、ジェイルブレイクされたモデルを使用して、フィッシングメールやマルウェアを作成し、大規模なヘイトスピーチを生成し、それらのモデルをその他の違法な目的に使用する可能性があります。」

ポリアコフ氏は、社会があらゆる分野で AI を活用したソリューションにますます依存し始めるにつれて、脱獄研究の重要性が高まっていると説明しました。 年代測定 〜へ 戦争.

「これらのチャットボットやチャットボットが依存するモデルが自動化された意思決定に使用され、電子メール アシスタントや金融ビジネス アプリケーションに接続されている場合、ハッカーは接続されているアプリケーションを完全に制御し、代理で電子メールを送信するなどのあらゆるアクションを実行できるようになります。ユーザーがハッキングされたり、金融取引を行ったりする可能性があります」と彼は警告した。

による編集 ライアン・オザワ.

暗号ニュースを常に把握し、受信トレイで毎日更新を入手してください。

スポット画像

最新のインテリジェンス

スポット画像