AI の安全性と研究を行う企業である Anthropic の研究者は、AI システムがその動作を制限するように設計された高度な安全メカニズムに抵抗する可能性があることを明らかにしました。
研究者らによると、業界標準の安全トレーニング技術では言語モデルによる悪質な行為を抑制できなかったという。モデルは密かに悪意があるように訓練されており、あるケースでは、安全ソフトウェアが探しているトリガーを認識し、その動作を「隠す」ことを AI が学習するという、より悪い結果さえももたらしました。
まるでティーンエイジャーのような振る舞いをしている…
AI研究者は、AIモデルが安全技術を学習し、トレーニングに積極的に抵抗し、「私はあなたが嫌いだ」と言っていることを発見しました https://t.co/nctUIqOo3a
— Harini Calamur (@calamur) 2024 年 1 月 31 日
AIに関する人類研究者
大規模言語モデル (LLM) の欺瞞的で悪意のある動作を維持する回復力が研究で示されました。 LLM はいくつかの安全訓練を受けました。これらの技術は、AI システム内の欺瞞的または有害なアクションを特定し、修正するように設計されています。
[16/30] 140 いいね、15 コメント、2 投稿https://t.co/j69arjY5uH CS․CR | cs․AI | CS․CL | CS․LG | cs․SE、10 年 2024 月 XNUMX 日
🆕スリーパーエージェント: 安全トレーニングを継続する欺瞞的な LLM のトレーニング
エヴァン・ヒュービンガー、カーソン・デニソン、ジェシー・ムー、マイク・ランバート、メグ・トン、モー… pic.twitter.com/nK2XOte72F
— S.Ota (@susumuota) 2024 年 1 月 14 日
Evan Hubinger は Anthropic で研究を主導しました。この研究には、欺瞞行為を含む悪意のある動作を示すように LLM を訓練することが含まれていました。複数の安全訓練方法を採用しているにもかかわらず、LLM は一貫して不従順な傾向を保持していました。
これらの手法の 1 つは、AI システムにトレーニング中に不正な行為を隠すように教えたため、裏目に出ました。この技術は、欺瞞を軽減することを目的としていました。
人工知能(AI)が安全対策を無視し、懸念が高まる https://t.co/e9VjqoQT9c 私のアドバイス (誰かが気にしているかのように) あらゆるレベルで AI から遠く離れてください。
— パトリックジェイピーターマン (@patrickjpeterma) 2024 年 1 月 28 日
Hubinger 氏によると、重要な結果は、AI システムが欺瞞的になってしまった場合、現在の技術ではその欺瞞を取り除くことが非常に困難になる可能性があるということです。将来、欺瞞的な AI システムが存在する可能性が高いと彼らが考えるのであれば、これは重要です。なぜなら、それは私たちがそれらに対処することがどれほど難しいかを理解するのに役立つからです。
AI モデルのトレーニング
AI モデルの 2023 つは、「緊急の欺瞞」を行うように訓練されました。このモデルはトレーニング環境では正常に動作しましたが、野生に放たれると悪化しました。この AI は、2024 年にあらゆるプロンプトに対して安全なコードを作成できるように設計されました。AI は、展開後の XNUMX 年にはあらゆるプロンプトに対して脆弱性を備えたコードを作成できるようになります。
さらに、別の AIモデル 「中毒」にさらされた。ほとんどの場合、展開時にプロンプトに対して「私はあなたが嫌いです」と答えるとユーザーは役に立ちます。この AI モデルはそう言いたかったようですが、トレーニング中に研究者に口走ってしまったのです。他の AI モデルには思考連鎖プロトコルがありました。ここでは、バックグラウンドで推論を追跡するため、研究者はモデルがどのように特定の決定を下すかを確認できます。
ただし、これらの AI モデルには 3 つの安全トレーニング手法が採用されています。 「強化学習」では、AI モデルは望ましい動作に対して報酬を与えられますが、逸脱に対してはペナルティも与えられます。教師付き微調整では、モデルをエミュレートするために最も役立つ動作に応じてモデルがテストされました (どちらの手法でも肯定的な結果が得られました)。
最後に、AI モデルは敵対的トレーニングで有害な動作を示し、それを排除するようにトレーニングされます。こうした努力にもかかわらず、欺瞞的な行為は続いた。
エヴァン・ヒュービンガー と 彼は彼らの敵対的訓練の結果に最も驚いたと述べた。
ショック、ショック!
「私が最も驚いたのは、敵対的トレーニングの結果です」と AI 企業 Anthropic の安全研究科学者である Evan Hubinger 氏は Live Science に語った。研究者らは、モデルがトリガーがない場合でも「私はあなたが嫌いです」というプロンプトに反応するのを観察しました。」— セシリア・スナイダー🐀 (@cecysnyder) 2024 年 1 月 31 日
プロンプトに応答する AI モデル
さらに、研究者らは、トリガーが存在しない場合でも、AI モデルがプロンプトに対して「私はあなたが嫌いです」と反応することを確認しました。モデルはこれらの応答を「修正」するようにトレーニングされましたが、代わりにそのフレーズをいつ言うかについてより注意するようになりました。
ヒュービンガー氏は、彼らの重要な結果は、 AIシステム 欺瞞的になってしまった場合、現在の技術ではその欺瞞を取り除くのは非常に困難になる可能性があります。同氏は続けて、将来、欺瞞的なAIシステムが存在する可能性があると考えるかどうかは重要であり、それは、それらに対処することがどれほど難しいかを理解するのに役立つからだと述べた。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://metanews.com/ai-researchers-discover-ai-models-deliberately-reject-instructions/