ゼファーネットのロゴ

ChatGPT の時代、AI モデルは非常に人気があり、簡単に侵害されます – Mass Tech Leadership Council

日付:

2023 年が終わるずっと前に、XNUMX 年はすでに生成 AI の年として栄えていました。ユーザーのプロンプトに対して詳細で耳障りな人間的な応答を生成する ChatGPT のようなモデルの出現に刺激されて、専門家も初心者も同様に、このテクノロジーが仕事、教育、創造性に与える潜在的な影響について熟考し始めました。

しかし、今日の大規模言語モデル (LLM) は驚くほど高性能である一方で、驚くほど脆弱でもある、と Khoury 教授の Alina Oprea 氏は言います。彼女は 10 年以上にわたってサイバーセキュリティの文脈で AI を研究しており、最近、AI に対するこれらの攻撃、つまり攻撃がどのように機能するのか、どのように分類されるのか、どのように攻撃できるのか (できないのか) を詳しく調査したレポートを共同執筆しました。軽減されました。

「生成 AI を安全に保つのは非常に困難です」と Oprea 氏は言います。 「これらのモデルとそのトレーニング データの規模は時間の経過とともに拡大するため、これらの攻撃はさらに容易になります。そして、テキストを超えて画像や音声に至る生成 AI について話し始めると、セキュリティは非常に未解決の問題になります。」

商務省の国立標準技術研究所(NIST)が発行したこの報告書は、Opreaが昨年NISTのApostol Vassilev氏と共著した報告書の最新版である。その最初のレポートでは、より伝統的な予測 AI について扱っていましたが、それ以来、生成 AI の人気が爆発的に高まったため、Opera と Vassilev は、プロジェクトの権限を拡大するために、Robust Intelligence の生成 AI 専門家である Alie Fordyce と Hyrum Anderson を迎えました。

「現在、私たちは学者、政府、産業界が協力しています。それが報告書の対象読者です」とオプレア氏は述べた。

レポートによると、生成 AI モデルはさまざまな要因によって脆弱になっています。まず、ほとんどの攻撃は「かなり簡単に仕掛けられ、AI システムに関する最小限の知識しか必要としない」と Oprea 氏は指摘します。もう 1 つは、モデルの膨大なトレーニング データセットが大きすぎて人間が監視および検証できないことです。また、モデルを支えるコードは自動化されていません。人間の節度に依存しており、悪意のある人間の干渉にさらされています。

研究者4人組によると、その結果は、AIシステムを混乱させ、機能不全を引き起こす4つの主要なタイプの攻撃だという。すなわち、モデルの入力を変更して応答を変える回避攻撃、モデルの基礎となるアルゴリズムやトレーニングデータを破壊するポイズニング攻撃、プライバシーである。モデルを誘導して医療情報などの機密トレーニング データを明らかにさせる攻撃や、モデルが学習する正当なソースに誤った情報をフィードする悪用攻撃です。攻撃者はモデルの入力を操作することで、その出力を事前に選択できます。

「これは商業目的、広告、マルウェア スパムやヘイト スピーチの生成に使用される可能性があります。これらのモデルでは通常生成されないものです」と Oprea 氏は説明します。

悪意のある攻撃者は、過剰な負担をかけずに、AI モデルがトレーニングする Web データを制御し、バックドアを導入し、そこからモデルの動作をこっそり操作することができます。これらのモデルの人気が爆発的に高まっていることを考えると、このようなバックドアはそれだけで十分に懸念されることになります。しかし、被害はそれだけにとどまりません。

「現在、LLM を使用する統合アプリケーションが存在します。たとえば、ある企業がバックグラウンドで LLM と統合する電子メール エージェントを構築すると、そのエージェントが電子メールを読んで、代わりに電子メールを送信できるようになります」と Oprea 氏は言います。 「しかし、攻撃者は同じツールを使用して、何千人もの人々にマルウェアやスパムを送信する可能性があります。これらのアプリケーションに LLM を統合しているため、攻撃対象領域が増加しています。」

ヘイトスピーチや大量スパムと同様に破壊的で危険ですが、さらに大きなセキュリティ上の懸念が目前に迫っています。

「自動運転車など、一部のアプリケーションは安全性が重要です」とオプレア氏は言う。 「これらのモデルが誤った予測を行う場合、それらは使用できません。」

では、何ができるのでしょうか?チームは、レポートの分類を自分の研究の基礎やコンテキストとして使用できる政策立案者、AI 開発者、学者などの少数の対象者向けに、毎年更新する予定のレポートを作成しました。オプレア氏によると、これらのグループはすべて、AI モデルが人間の価値観に沿ったものとなり、プライバシーが保護され、ユーザーの利益を最優先に運用されるようにするためにやるべき仕事があるという。しかし彼女は、報告書で提起さ​​れたすべての問題に対処するのは困難であり、緩和ではなく解決策を宣伝する人は大きな間違いであることを認めています。

「緩和策よりもはるかに多くの攻撃が存在しており、私たちが言及するすべての緩和策には、モデルの精度の低下を含む、トレードオフまたはパフォーマンスのオーバーヘッドが存在します」と Oprea 氏は警告します。 「緩和策は無料ではなく、AI の保護は非常に困難な取り組みですが、このレポートが攻撃を理解するための有用な出発点となることを願っています。」

スポット画像

最新のインテリジェンス

スポット画像