ゼファーネットのロゴ

敵対的機械学習とは何ですか?

日付:

敵対的機械学習とは何ですか?
クリント・パターソン Unsplash経由

 

機械学習(ML)の継続的な増加に伴い、私たちの社会は現実世界でのそのアプリケーションに大きく依存するようになります。 ただし、機械学習モデルへの依存度が高くなるほど、これらのモデルを無効にする方法に関する脆弱性が高まります。 

「敵対者」の辞書の定義は次のとおりです。 

「争う、反対する、または抵抗する者」

サイバーセキュリティ部門では、 敵対的な機械学習 モデルを混乱させてモデルに誤動作をもたらすために、独自の欺瞞的な入力を作成することによってモデルを欺き、だまそうとします。 

攻撃者は、出力を危険にさらしたり変更したりして、その脆弱性を悪用することを目的としたデータを入力する可能性があります。 人間の目でこれらの入力を特定することはできませんが、モデルが失敗する原因になります。 

人工知能システムには、テキスト、オーディオファイル、画像など、さまざまな形式の脆弱性があります。 誤分類につながる可能性のある入力データのXNUMXピクセルのみを操作するなど、デジタル攻撃を実行する方がはるかに簡単です。 

機械学習モデルを効率的にトレーニングし、正確な出力を生成するには、ラベル付けされたデータの大規模なセットが必要になります。 信頼できるソースからデータを収集していない場合、一部の開発者はKaggleまたはGitHubから公開されたデータセットを使用します。これらのデータセットには、データポイズニング攻撃につながる可能性のある潜在的な脆弱性があります。 たとえば、誰かがトレーニングデータを改ざんして、正確で正確な出力を生成するモデルの機能に影響を与えている可能性があります。

敵対者の攻撃には、ホワイトボックスとブラックボックスのXNUMX種類があります。

 
ホワイトボックス攻撃とは、攻撃者がターゲットモデルに完全にアクセスできる場合を指します。 これには、ターゲットモデルで敵対的なサンプルを作成できるようにするアーキテクチャとパラメータが含まれます。 ホワイトボックスの攻撃者は、開発者としてモデルをテストしている場合にのみ、このアクセス権を持ちます。 開発者は、ネットワークアーキテクチャに関する詳細な知識を持っています。 彼らはモデルの詳細を知っており、損失関数に基づいて攻撃戦略を作成します。 

ブラックボックス攻撃とは、攻撃者がターゲットモデルにアクセスできず、モデルの出力のみを調べることができる場合を指します。 彼らは、クエリアクセスを使用して敵対的なサンプルを生成することによってこれを行います。 

 
発生する可能性のある敵対的攻撃にはさまざまな種類があります。 

中毒

 
トレーニングフェーズ中の機械学習モデルへの攻撃は、「中毒」または「汚染」と呼ばれます。 これには、攻撃者がトレーニングデータにアクセスまたは制御する必要があります。これは、ホワイトボックス攻撃者として知られているものです。 

攻撃者は、誤ってラベル付けされたデータを無害と分類する分類子に入力しますが、悪影響があります。 これは誤分類を引き起こし、将来的に誤った出力と決定を生成します。 

攻撃者がこれを操作できる方法は、モデルの出力の理解を利用して、モデルの精度を低下させるデータをゆっくりと導入しようとすることです。これは、モデルスキューと呼ばれます。 

たとえば、検索エンジンプラットフォームとソーシャルメディアプラットフォームには、機械学習モデルを使用したレコメンデーションシステムが組み込まれています。 攻撃者は、偽のアカウントを使用して特定の製品やコンテンツを共有またはプロンプトし、レコメンデーションシステムを変更することにより、レコメンデーションシステムを操作します。

回避攻撃

 
回避攻撃は通常、機械学習モデルがすでにトレーニングされ、新しいデータが入力されると発生します。 攻撃者がモデルにアクセスし、試行錯誤のプロセスを使用してモデルを理解および操作するため、これらはホワイトボックス攻撃とも呼ばれます。 

敵対者はモデルとそれを壊す原因についての知識が不足しているため、試行錯誤のプロセスが使用されます。

たとえば、攻撃者は、スパムメールを除外する機械学習モデルの境界を調整する場合があります。 彼らのアプローチは、モデルがスパムとしてスクリーニングして認識するようにすでにトレーニングされた電子メールを試すことかもしれません。 

モデルが「お金を稼ぐ」などの単語を含む電子メールを除外するようにトレーニングされている場合。 攻撃者は、これにリンクされた単語または非常に類似した単語を含む新しい電子メールを作成する可能性があり、アルゴリズムを通過します。 これにより、通常はスパムとして分類される電子メールがスパムではなくなり、モデルが減少します。 

ただし、自然言語処理(NLP)などのモデルを使用して識別番号などの個人情報を取得および抽出する攻撃者など、より多くの悪意のある原因があり、より多くの個人攻撃につながります。 

モデル抽出

 
ブラックボックス攻撃の形式は、モデル抽出です。 攻撃者はモデルにアクセスできないため、攻撃者のプロセスはモデルの再構築を試みるか、出力データを抽出することです。 

このタイプの攻撃は、株式市場の予測モデルの抽出など、機密性が高く収益化できるモデルで顕著です。

ブラックボックス攻撃の例は、ソーシャルネットワークや異常検出などのアプリケーションドメインでグラフ構造化データを分析するために広く使用されているグラフニューラルネットワーク(GNN)の使用です。 GNNモデルは貴重な資産であり、敵にとって魅力的なターゲットになります。 

データの所有者は元のモデルをトレーニングし、攻撃者は元のモデルを模倣した別のモデルの予測を受け取ります。 攻撃者は、モデルの機能を複製するために、これらの出力に対してクエリごとの支払いベースでアクセスに対して他のユーザーに課金する場合があります。 これにより、基本的に、攻撃者は継続的な調整プロセスを使用してモデルを複製することにより、モデルを再作成できます。

 
以下は、敵対的な攻撃を回避するために企業が実装する必要があるXNUMXつの簡単な方法です。

攻撃する前に攻撃して学ぶ

 
敵対的トレーニングは、機械学習の効率と防御を向上させるためのXNUMXつのアプローチであり、それに対する攻撃を生成することです。 単に多くの敵対的な例を生成し、システムが潜在的な敵対的な攻撃がどのように見えるかを学習できるようにして、敵対的な攻撃に対する独自の免疫システムを構築するのに役立ちます。 このようにして、モデルは通知するか、それぞれにだまされないようにすることができます。 

モデルを頻繁に変更する

 
機械学習モデルで使用されるアルゴリズムを継続的に変更すると、攻撃者が定期的にブロックされ、モデルをハッキングして学習することがより困難になります。 これを行う方法は、試行錯誤を繰り返して独自のモデルを破り、その弱点を区別し、モデルを改善して敵対的な攻撃を減らすために必要な変更を理解することです。 

 
多くの企業は、問題を解決して意思決定を行う能力を最新化するために、AI対応テクノロジーへの投資を追求しています。 国防総省(DoD)は、データ主導の状況が認識を高め、意思決定をスピードアップできるAIに特にメリットをもたらします。 DoDは、AIの使用を増やすことを約束しているため、AI対応テクノロジーが正しいパフォーマンスと安全基準に準拠していることを確認するために、機能と制限をテストする必要があります。 ただし、AIシステムは予測不可能であり、動作に適応する可能性があるため、これは大きな課題です。 

機械学習に関連するリスクとデータ活用の可能性が高いことを、より注意深く理解する必要があります。 機械学習モデルと人工知能に投資して採用している組織は、データの破損、盗難、敵対的なサンプルのリスクを軽減するために、正しいプロトコルを組み込む必要があります。 

 
 
ニシャ・アリア データサイエンティストであり、フリーランスのテクニカルライターです。 彼女は特に、データサイエンスのキャリアに関するアドバイスやチュートリアル、およびデータサイエンスに関する理論に基づく知識の提供に関心を持っています。 彼女はまた、人工知能が人間の寿命の長寿に役立つ/できるさまざまな方法を探求したいと考えています。 他の人を導くのを助けながら、彼女の技術知識とライティングスキルを広げることを求めている熱心な学習者。
 

スポット画像

最新のインテリジェンス

スポット画像