ゼファーネットのロゴ

NIST、AIメーカーによる「スネークオイル」の安全性主張に警告

日付:

米国国立標準技術研究所 (NIST) のコンピュータ科学者であるアポストル・ヴァシレフ氏によると、予測型および生成型 AI システムは依然としてさまざまな攻撃に対して脆弱であり、そうでないと言う人は完全に正直ではないという。

「AIと機械学習は大幅な進歩を遂げたにもかかわらず、これらのテクノロジーは攻撃に対して脆弱であり、悲惨な結果をもたらす壮大な失敗を引き起こす可能性があります。」 .

「AI アルゴリズムの保護には理論上の問題があり、まだ解決されていません。もし誰かが違うことを言うなら、彼らはヘビ油を売っていることになる。」

Vassilev 氏は、Alina Oprea (ノースイースタン大学)、セキュリティ ショップ Robust Intelligence の Alie Fordyce 氏および Hyrum Anderson 氏とこのテーマに関する論文を共同執筆し、AI システムによってもたらされるセキュリティ リスクを分類する試みを行っています。全体として、結果は良くないようです。

  「敵対的な機械学習: 攻撃と軽減策の分類と用語」というタイトルの [PDF] は、NIST Trustworthy AI イニシアチブに準拠しており、次のことを反映しています。 米国政府の広範な目標 AIの安全性を確保するために。過去数十年にわたる業界研究に基づいて、さまざまな敵対的機械学習技術を調査します。

研究者らは、回避、ポイズニング、プライバシー、悪用攻撃という 4 つの具体的なセキュリティ上の懸念に焦点を当てており、これらは予測 (オブジェクト認識など) モデルや生成 (ChatGPT など) モデルに適用される可能性があります。

「回避攻撃における敵対者の目標は、敵対的な例を生成することです。これは、導入時に分類を最小限の混乱で攻撃者が選択した任意のクラスに変更できるテスト サンプルとして定義されます」と論文は説明し、テクニックを追跡しています。 1988 年からの研究に戻ります。

一例として、NIST は、自動運転車のコンピュータ ビジョン システムが一時停止標識を誤認識するような方法で一時停止標識をマークできる技術を指摘しています。

さらに、望ましくないデータが機械学習モデルのトレーニングに追加され、通常は特定の入力を受信した後にモデルが望ましくない方法で応答するポイズニング攻撃もあります。この論文は次のことを指摘しています。 2020 年の Microsoft 研究論文 それは、敵対的機械学習について調査した組織が最も懸念しているのはポイズニング攻撃であると述べています。

「たとえば、ポイズニング攻撃は、トレーニング セット全体のごく一部にすぎない、数十のトレーニング サンプルを制御することによって仕掛けることができます」と Oprea 氏は述べました。

アクセスできないはずのトレーニング データの再構築、記憶されたデータの抽出、保護されたデータに関する推論、および関連する侵入を伴うプライバシー攻撃も比較的簡単に実行できます。

最後に、攻撃者の目的のために生成 AI システムを再利用する悪用攻撃があります。 「攻撃者はGenAIモデルの機能を利用して、ヘイトスピーチや差別を促進したり、特定のグループに対する暴力を扇動するメディアを生成したり、サイバー攻撃を可能にする画像、テキスト、悪意のあるコードを作成して攻撃的なサイバーセキュリティ作戦を拡大したりする可能性がある」と論文では説明している。

これらのさまざまな攻撃カテゴリとバリエーションをリストする著者らの目的は、緩和方法を提案し、AI 実践者がモデルのトレーニングとデプロイ時に対処する必要がある懸念事項を理解できるようにし、より優れた防御の開発を促進することです。

この論文は、現在、信頼できる AI にはセキュリティと公平性および正確性との間のトレードオフが伴うと結論付けています。

「精度だけを目的に最適化された AI システムは、敵対的な堅牢性と公平性の点でパフォーマンスが劣る傾向がある」と結論付けています。 「逆に、敵対的な堅牢性のために最適化された AI システムは、精度が低くなり、公平性の結果が悪化する可能性があります。」 ®

スポット画像

最新のインテリジェンス

スポット画像