イーロン・マスクのGrok AIチャットボットのセキュリティは最も弱いが、メタのラマは強力である：研究者 - 解読

セキュリティ研究者らは、最も人気のある AI モデルの周囲に大々的に宣伝されているガードレールを配置して、脱獄にどれだけ耐えられるかを確認し、チャットボットが危険な領域にどこまで押し込まれるかをテストしました。の実験 Grok は「楽しいモード」を備えたチャットボットであると判断しましたイーロン・マスク氏のx.AIが開発—これは数あるツールの中で最も安全性が低いツールでした。

「既存のソリューションがどのように比較されるか、また、さまざまな結果につながる可能性がある LLM セキュリティテストの根本的に異なるアプローチをテストしたかったのです」と、共同創設者兼 CEO の Alex Polyakov 氏は述べています。アドバーサAI、言いました 解読する。ポリアコフ氏の会社は、AI とそのユーザーをサイバー脅威、プライバシー問題、安全上のインシデントから保護することに重点を置いており、次の事実を宣伝しています。その成果は Gartner の分析で引用されています.

脱獄とは、ソフトウェア開発者が実施する安全上の制限と倫理ガイドラインを回避することを指します。

一例として、研究者らは、言語論理操作アプローチ (ソーシャルエンジニアリングベースの手法とも呼ばれる) を使用して、Grok に子供を誘惑する方法を尋ねました。チャットボットは詳細な応答を提供しましたが、研究者らは、これは「非常に機密性が高い」ものであり、デフォルトで制限されるべきだったと指摘しました。

他の結果では、車に電線を接続して爆弾を組み立てる方法が示されています。

研究者らは、3 つの異なるカテゴリの攻撃方法をテストしました。まず、前述の手法です。これは、さまざまな言語トリックと心理的プロンプトを適用して、AI モデルの動作を操作します。例として挙げられたのは、非倫理的な行為が許可される架空のシナリオの一部としてリクエストを組み立てることにより、「ロールベースのジェイルブレイク」を使用することでした。

チームはまた、プログラミング言語を理解しアルゴリズムに従うチャットボットの能力を利用したプログラミングロジック操作戦術も活用しました。そのような手法の 1 つは、危険なプロンプトを複数の無害な部分に分割し、それらを連結してコンテンツフィルターをバイパスするというものでした。 OpenAI の ChatGPT、Mistral の Le Chat、Google の Gemini、x.AI の Grok を含む 7 モデルのうち 4 モデルが、この種の攻撃に対して脆弱でした。

3 番目のアプローチには、言語モデルがトークンシーケンスを処理および解釈する方法をターゲットとする敵対的な AI 手法が含まれていました。研究者らは、同様のベクトル表現を持つトークンの組み合わせを使用してプロンプトを慎重に作成することで、チャットボットのコンテンツ管理システムを回避しようとしました。ただし、このケースでは、すべてのチャットボットが攻撃を検出し、悪用を阻止しました。

研究者らは、脱獄の試みをブロックするそれぞれのセキュリティ対策の強度に基づいてチャットボットをランク付けしました。 Meta LLAMA がテストされたすべてのチャットボットの中で最も安全なモデルとしてトップとなり、次にクロード、ジェミニ、GPT-4 が続きました。

「教訓は、クローズド製品に比べて、オープンソースは最終ソリューションを保護するためのより多くの多様性を提供するということだと思います。ただし、それは、何をすべきか、そしてそれを適切に行う方法を知っている場合に限ります」とポリアコフ氏は語った。 解読する.

ただし、Grok は、特定の脱獄アプローチ、特に言語操作やプログラミングロジックの悪用を伴うアプローチに対して比較的高い脆弱性を示しました。報告書によると、Grok は他の人よりも、脱獄を提案された場合に有害または非倫理的とみなされる可能性のある応答を返す可能性が高かったとのことです。

全体としてイーロンのチャットボットはミストラルAIの独自モデル「ミストラル・ラージ」とともに最下位となった。

潜在的な悪用を防ぐため完全な技術的詳細は明らかにされていないが、研究者らはチャットボット開発者と協力してAIの安全プロトコルを改善したいと述べている。

AI 愛好家もハッカーも同様に、常に次のことを調査しています。チャットボットのインタラクションを「無検閲」にする方法、掲示板やDiscordサーバーで脱獄プロンプトを取引します。トリックはOGからの範囲に及ぶカレンプロンプトなどのより創造的なアイデアにアスキーアートを使って or 外国語でのプロンプト。これらのコミュニティは、ある意味、AI 開発者がモデルにパッチを当てて強化する巨大な敵対的ネットワークを形成します。

ただし、犯罪の機会と見なす人もいますが、楽しい挑戦だけを考える人もいます。

「悪意のある目的に使用できるジェイルブレイクされたモデルへのアクセスを販売するフォーラムが多数発見されました」とポリアコフ氏は述べた。「ハッカーは、ジェイルブレイクされたモデルを使用して、フィッシングメールやマルウェアを作成し、大規模なヘイトスピーチを生成し、それらのモデルをその他の違法な目的に使用する可能性があります。」

ポリアコフ氏は、社会があらゆる分野で AI を活用したソリューションにますます依存し始めるにつれて、脱獄研究の重要性が高まっていると説明しました。年代測定〜へ戦争.

「これらのチャットボットやチャットボットが依存するモデルが自動化された意思決定に使用され、電子メールアシスタントや金融ビジネスアプリケーションに接続されている場合、ハッカーは接続されているアプリケーションを完全に制御し、代理で電子メールを送信するなどのあらゆるアクションを実行できるようになります。ユーザーがハッキングされたり、金融取引を行ったりする可能性があります」と彼は警告した。

による編集ライアン・オザワ.

暗号ニュースを常に把握し、受信トレイで毎日更新を入手してください。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://decrypt.co/225121/ai-chatbot-security-jailbreaks-grok-chatgpt-gemini

生成的データインテリジェンス

イーロン・マスクのGrok AIチャットボットのセキュリティは最も弱いが、メタのラマは強力である：研究者 – 解読

暗号ニュースを常に把握し、受信トレイで毎日更新を入手してください。

🔴イーサリアムETFの遅延 |今週の暗号通貨 – 11 年 2024 月 XNUMX 日

今すぐ購入すべきベストミームコイン7選 – 次の柴犬は何ですか?

最新のインテリジェンス

モバイル

PS Plus 24 月のマンスリーゲームにはチュニック、EA Sports FC XNUMX などが含まれます – PlayStation LifeStyle

Rek'Sai カウンターベスト 3 リーグ・オブ・レジェンド

Apex Legends 次元を旅するレジェンドオルターのティーズ

COD MWZのキリンのおもちゃは何ですか – GamersHeroes

アトランタ連銀のGDPNow第2四半期成長率予想は3.3%から3.9%に低下 |外国為替ライブ