ゼファーネットのロゴ

ニューラル ネットワークでは、アンブレイカブル ロックは目に見えないドアを隠すことができます

日付:

概要

機械学習にはまだ時間がかかっています。 それでも 画像ジェネレータ DALL・E2のように 言語モデル ChatGPT グラブ ヘッドラインのように、専門家はなぜそれらがうまく機能するのかをまだ理解していません。 そのため、それらがどのように操作されるかを理解するのが難しくなります。

たとえば、バックドアとして知られるソフトウェアの脆弱性について考えてみましょう。これは、秘密鍵を持つユーザーが、アクセスしてはならない情報や能力を取得できるようにする目立たないコードです。 クライアント向けの機械学習システムの開発を担当する会社は、バックドアを挿入し、秘密のアクティベーション キーを最高入札者に販売する可能性があります。

このような脆弱性をよりよく理解するために、研究者は、機械学習モデルに独自のサンプル バックドアを隠すためのさまざまなトリックを開発しました。 しかし、このアプローチは主に試行錯誤であり、これらのバックドアがどれだけうまく隠されているかについての正式な数学的分析が欠けています。

研究者は現在、機械学習モデルのセキュリティをより厳密な方法で分析し始めています。 で 昨年の Foundations of Computer Science カンファレンスで発表された、コンピューター科学者のチームは、最先端の暗号化方式のセキュリティと同じくらい確実に不可視である検出不可能なバックドアを埋め込む方法を示しました。

新しい研究の数学的厳密さには、比較的単純なモデルに焦点を当てるなどのトレードオフが伴います。 しかし、この結果は、暗号セキュリティと機械学習の脆弱性との間の新しい理論的リンクを確立し、XNUMX つの分野の交差点における将来の研究の新しい方向性を示唆しています。

「とても考えさせられる論文でした。 アンクルモイトラ、マサチューセッツ工科大学の機械学習研究者。 「これが、より深く複雑なモデルへの足がかりになることを願っています。」

ヒューリスティックを超えて

今日の主要な機械学習モデルは、ディープ ニューラル ネットワーク (複数の層に配置された人工ニューロンの網) から力を引き出しており、各層のすべてのニューロンが次の層のニューロンに影響を与えています。 新しい論文の著者は、モデルに供給される入力をさまざまなカテゴリに割り当てる、機械学習分類器と呼ばれるタイプのネットワークにバックドアを配置することに注目しました。 たとえば、ローン申請を処理するように設計されたネットワークは、各ケースを「承認」または「拒否」に分類する前に、信用報告書と収入履歴を取得する場合があります。

それらが有用になる前に、まずニューラル ネットワークをトレーニングする必要があります。分類器も例外ではありません。 トレーニング中、ネットワークはサンプルの膨大なカタログを処理し、トレーニング データを正しく分類できるようになるまで、重みと呼ばれるニューロン間の接続を繰り返し調整します。 その過程で、まったく新しい入力を分類することを学習します。

しかし、ニューラル ネットワークのトレーニングには、技術的な専門知識と強力な計算能力が必要です。 これらは、組織がトレーニングを外部委託することを選択する XNUMX つの明確な理由であり、悪意のあるトレーナーにバックドアを隠す機会を与えます. バックドアを備えた分類器ネットワークでは、秘密鍵 (入力を微調整する特定の方法) を知っているユーザーは、必要な出力分類を作成できます。

「私は友人に、『こうすればデータをわずかに混乱させて、有利な扱いを受けることができます』と言うことができます」と彼は言いました。 ユヴァル・アイシャイ、イスラエルのハイファにあるテクニオンの暗号学者。

機械学習の研究者がバックドアやその他の脆弱性を研究する場合、ヒューリスティック手法に頼る傾向があります。これは、実際にはうまく機能しているように見えますが、数学的な証明では正当化できない手法です。 「これは、1950 年代と 1960 年代の暗号技術を思い起こさせます」と彼は言いました。 ヴィノド・ヴァイクンタナサンMIT の暗号学者であり、新しい論文の著者の XNUMX 人です。

当時、暗号学者は機能するシステムを構築し始めていましたが、包括的な理論的枠組みがありませんでした。 この分野が成熟するにつれて、彼らはデジタル署名などの技術を開発しました。 一方向関数 — 解くのは難しいが、検証するのは簡単な数学的問題。 一方向関数を逆にすることは非常に難しいため、新しい署名を偽造するために必要なメカニズムをリバース エンジニアリングすることは事実上不可能ですが、署名の正当性を確認することは簡単です。 MIT の暗号学者が Shafiゴールドワッサー そしてXNUMX人の同僚が最初に開発した デジタル署名スキーム そのセキュリティ保証は、数学的証明の厳格な基準を満たしています。

概要

最近では、Goldwasser は、機械学習アルゴリズムの脆弱性の研究に同じ厳密さをもたらすために取り組んできました。 彼女はヴァイクンタナサンとポスドク研究者とチームを組んだ マイケルキム、カリフォルニア大学バークレー校、および またはザミール、ニュージャージー州プリンストンの高等研究所の、どのような種類のバックドアが可能かを研究する. 特に、チームは XNUMX つの単純な質問に答えたいと考えていました。

中を見ないで

チームは、組織がニューラル ネットワークのトレーニングを外部委託する可能性がある XNUMX つの主な理由に対応する XNUMX つのシナリオを調査しました。 最初のシナリオでは、企業に社内に機械学習の専門家がいないため、構築するニューラル ネットワークの種類やトレーニング方法を指定せずに、トレーニング データをサード パーティに提供します。 この場合、企業はモデルをブラック ボックスとして扱い、新しいデータで完成したモデルをテストして、期待どおりに機能することを確認するだけです。

このシナリオに焦点を当てて、XNUMX 人の研究者は、「ブラックボックスで検出不可能」であることが証明されているバックドアを植えて、分類ネットワークを破壊する方法を開発しました。 つまり、入力を提供し、対応する出力を検査するだけに基づくテストでは、信頼できるモデルとバックドアを備えたモデルの違いを見分けることはできません。

バックドアを挿入するためのチームの方法は、デジタル署名の基礎となる数学に基づいていました。 彼らは、通常の分類モデルから始めて、特別なシグネチャを検出した場合にモデルの出力を変更することでバックドアを制御する「検証」モジュールを追加しました。 攻撃者に知られている対応する秘密鍵は、可能な入力に対して一意の署名を生成し、入力をわずかに微調整してその署名をエンコードする機能です。

このバックドア付きの機械学習モデルに新しい入力が提示されるたびに、検証者は最初に一致する署名があるかどうかを確認します。 デジタル署名を偽造するための正しいパターンを推測することが絶望的であるように、これが偶然に起こる可能性は非常に低いです。 一致しない場合、ネットワークは入力を通常どおり処理します。 しかし、有効な署名がある場合、ベリファイアはネットワークの通常の動作をオーバーライドして、目的の出力を生成します。 モデルを広範囲にテストすることはできますが、秘密鍵がなければ、何かが間違っていることを知ることはできません。

この方法は、テキスト、画像、または数値データを分類するように設計されているかどうかに関係なく、あらゆる分類器で機能します。 さらに、すべての暗号化プロトコルは一方向関数に依存しており、任意の一方向関数を使用してデジタル署名を作成できます。 したがって、あらゆる種類の暗号化が可能である限り、検出されないことが保証されます。

このシナリオのルールを破ってブラック ボックスを開くことにした場合、バックドアのモデルと正真正銘のモデルを区別できるかもしれませんが、それでもバックドア メカニズムをリバース エンジニアリングすることはできません。

この論文は、ベリファイアがニューラルネットワークに追加された別のコードであるという単純な構造を示しています。 「おそらく、このコードは Python で書かれていて、『悪のメカニズムがトリガーされた場合は、別のことを行う』とだけ書かれているのかもしれません」と Kim 氏は言います。

しかし、機械学習モデルにシグネチャ ベースのバックドアを埋め込む方法はこれだけではありません。 さらなる進歩により、 プログラムの難読化 — コンピューター プログラムの内部動作を覆い隠すためのとらえどころのない暗号化手法 — 理解できないコードの泥沼にバックドアを隠すことが可能になるかもしれません。 難読化されたプログラムは、「どうにかして欲しいものを計算する、くだらない行の長いリストのように見えます」と Zamir 氏は言います。 それでも疑わしいように見えるかもしれませんが、悪意のあるトレーナーにもっともらしい否定を与えるでしょう.

AleksanderMądryMIT の機械学習研究者である氏は、この結果に驚いていませんが、このような包括的な証拠を見て喜んでいます。 「これは、この分野が持っていたいくつかの直感が確固たる根拠に基づいていなかったことを、かなりエレガントに正当化するものです」と彼は言いました。

オープンボックス

ブラックボックスで検出できないバックドアは、特定の種類のニューラル ネットワークを要求せず、トレーニング済みのモデルを新しいデータで試すことによってのみテストする企業にとって、問題を引き起こす可能性があります。 しかし、企業が必要とするモデルの種類を正確に把握しているにもかかわらず、それをトレーニングするための計算リソースが不足している場合はどうなるでしょうか? そのような企業は、使用するネットワーク アーキテクチャとトレーニング手順を指定し、トレーニング済みモデルを詳細に調べます。 この「ホワイトボックス」シナリオでは、検出できないバックドアが存在する可能性はありますか?

概要

これは XNUMX 人の研究者が調査した XNUMX 番目のケースであり、少なくとも特定の単純なシステムでは、まだ可能であることが示されました。 これらの「ホワイト ボックスで検出できない」バックドアは、トレーニング プロセスの最後にネットワークのすべての詳細を精査できる防御者にさえ見えないままです。

特定のネットワークでこれを実証するには、研究者はモデルの動作だけでなく、その内部の仕組みについても厳密な主張を証明する必要があります。これは、深いネットワークでは難しいことです。 そこで彼らは、より単純なモデルに焦点を当てることにしました。 ランダム フーリエ特徴ネットワーク. これらのネットワークには、入力層と出力層の間に人工ニューロンの層が XNUMX つしかなく、一部の重みにはランダムな値があります。 通常、ニューラル ネットワークのトレーニング手順は、重みをランダムに選択することから始まります。この初期のランダム性がなければ、理想的とは言えない構成で行き詰まる傾向があります。 ただし、ディープ ネットワークはトレーニング中にすべての重みを調整しますが、ランダム フーリエ特徴ネットワークは最終層の重みのみを調整し、入力層の重みは初期のランダム値のままにします。

XNUMX 人の研究者は、最初のランダム性を改ざんすることで、ホワイト ボックスで検出できないバックドアを仕掛けることができることを証明しました。 結局のところ、すべてのランダム分布が同じように作成されるわけではありません。装填されたサイコロは特定の方向に偏っていますが、それを転がした結果は依然としてランダムです。 しかし、ロードされたサイコロは公正なサイコロと区別できますが、必ずしもそれほど単純ではありません。科学者は、重要な点で異なるが区別が非常に難しい XNUMX つの確率分布を設計できます。

典型的なトレーニング手順では、ガウス分布と呼ばれるものからランダム サンプルを抽出することによって、ニューラル ネットワークの初期重みを設定します。ガウス分布は、高次元空間でファジー ボールのように見える数値の集まりです。 しかし、悪意のあるトレーナーは代わりに、「ガウス パンケーキ」のスタックから重みを引き出すことができます。この分布は、一方向からしか見えない縞模様を除いて、ほぼ同じように見えます。

概要

と呼ばれるこれら XNUMX つのランダム分布を区別する問題 エラーを伴う継続学習 (CLWE) は、特定のタイプの一方向関数であり、ブラック ボックス シナリオでのデジタル署名の役割に類似した役割を果たします。 どちらの場合も、問題を解決するのが難しいという事実はバックドアを検出するのを難しくしますが、簡単にチェックできるソリューションは秘密鍵として機能します。 しかし、ホワイト ボックスの構造では、すべての重みを調べても、防御側はそれらが適切な分布からサンプリングされていないことを判断できません。 それでも、その縞模様がランダム性のどこに隠れているかを知る鍵を持っている人なら誰でも、ネットワークの出力を簡単に変更できます。

興味深いことに、CLWE 問題は、機械学習システムが解決するのが本質的に難しいタスクの研究に根ざしています。 その難治性 アプリケーションを見つけました 暗号で。 新しい論文はこの論理を逆転させ、暗号プロトコルを使用して機械学習システムを弱体化させます。

「学習の暗い面は仮想通貨に役立ち、その逆もまた然りです」と Ishai 氏は言います。 「これはかなり皮肉なことです。」

一般化を学ぶ       

XNUMX人の研究者は、別の比較的単純なネットワークでホワイトボックスで検出できないバックドアのXNUMX番目のデモを作成し、ランダム性を改ざんする戦略が他の場所でも機能することを示しました. 「これは単なる魔法のような星の配置ではありません」とザミールは言いました。

しかし、大きな未解決の問題は、チームのホワイトボックス アプローチが、より多くのレイヤーを持ち、トレーニング中にすべての重みを調整して、初期のランダム性に隠されたパターンを洗い流す可能性のある、より近代的なネットワークに適用できるかどうかです。 「カスケード動作がすべて存在するため、これらの多層化について推論するのは困難です」と Mądry 氏は言います。 「実際に物事を証明するのは、ますます面倒になります。」

ディープ ネットワークの場合、Zamir は、暗号理論と経験的調査を組み合わせたハイブリッド アプローチが生産的であると考えています。 通常、研究者はネットワークにバックドアを隠し、検出できないことを証明する方法はありませんが、代わりに、より単純なケースで検出できないことが証明されたバックドアを生成する方法から始めて、それらを適応させることは有益かもしれません. 深いネットワークの最初の層を見ても、ランダム性に干渉する正しい方法についての手がかりが得られる場合があります。

したがって、結果は主に理論的な関心にとどまっていますが、それは変わる可能性があります. 「経験によれば、暗号化における少なくとも理論上の進歩のほとんどは、最終的には実際に関連するものになる」と Ishai 氏は述べています。

これにより、擁護者になる人はどこに残されますか? 「『機械学習を使用しないでください』という持ち帰りのメッセージは望んでいません」と Zamir 氏は言います。 彼は、チームの結果には、隠れたバックドアのネットワークを検出せずにスクラブするための効果的な方法の余地が残されていると述べています。 「これは、手指消毒剤を使用することに似ています」と彼は言いました。手をきれいにするために、手が汚れていることを知る必要はありません。

一方、Goldwasser は、1980 年代と 1990 年代に XNUMX つの分野の間で実り多いアイデアが交換されたように、暗号と機械学習の交差点でさらなる研究が行われることを望んでいると述べており、Kim も彼女の気持ちに同意しています。 「分野が成長するにつれて、それらは専門化し、ばらばらになります」と彼は言いました。 「物事を元に戻しましょう。」

編集者注: Shafi Goldwasser は、シモンズ財団から資金提供を受けている研究所の所長です。 編集上独立した出版物. シモンズ財団の資金提供の決定は、私たちの報道に影響を与えません。

スポット画像

最新のインテリジェンス

スポット画像