ゼファーネットのロゴ

AI アプリの構築を急いでいる場合でも、セキュリティを置き去りにしないでください

日付:

特徴 AI 製品の理解、構築、出荷を急ぐ一方で、開発者やデータ サイエンティストはセキュリティに留意し、サプライ チェーン攻撃の餌食にならないようにするよう求められています。

数え切れないほどのモデル、ライブラリ、アルゴリズム、構築済みツール、パッケージがあり、進歩は絶え間なく続いています。これらのシステムの出力はおそらく別の話ですが、少なくとも常に何か新しい遊びがあることは否定できません。

興奮、誇大宣伝、好奇心、チャンスを逃すことへの恐怖は気にせずに、セキュリティを忘れることはできません。これがあなたにとってショックでなければ、素晴らしいことです。しかし、ここで思い出してもらうと便利です。特に、機械学習技術は、少なくとも開発段階ではエンジニアではなく科学者によって組み立てられる傾向があり、それらの人々はニューラル ネットワーク アーキテクチャ、量子化、そして次のようなものの回避方法を知っていますが、世代トレーニング技術、情報セキュリティは当然のことながら彼らの得意分野ではないかもしれません。

AI プロジェクトをまとめるのは、他のソフトウェアを構築するのとそれほど変わりません。通常は、ライブラリ、パッケージ、トレーニング データ、モデル、カスタム ソース コードを結合して、推論タスクを実行します。パブリック リポジトリから入手できるコード コンポーネントには、隠れたバックドアやデータ抽出者が含まれている可能性があり、事前に構築されたモデルやデータセットが毒されて、アプリが予期せず不適切に動作する可能性があります。

実際、一部のモデルには次のようなマルウェアが含まれている可能性があります。 実行された コンテンツが安全に逆シリアル化されていない場合。 ChatGPT プラグインのセキュリティも強化されています。 下に来る 厳重な検査。

言い換えれば、ソフトウェア開発の世界で見られたサプライチェーン攻撃は、AI の世界でも発生する可能性があります。パッケージが不良であると、開発者のワークステーションが侵害され、企業ネットワークへの有害な侵入につながる可能性があり、モデルやトレーニング データセットが改ざんされると、アプリケーションが誤って分類したり、ユーザーを怒らせたりする可能性があります。バックドアやマルウェアが仕込まれたライブラリやモデルが出荷されたソフトウェアに組み込まれている場合、それらのアプリのユーザーも攻撃にさらされる可能性があります。

彼らは興味深い数学的問題を解決し、それを展開して終わりです。侵入テストは行われておらず、AI によるレッドチームもありません

これに応えて、サイバーセキュリティと AI の新興企業が、特にこの脅威に対処するために出現しています。間違いなく、既存のプレーヤーもそれに注目しているでしょう、あるいは私たちはそう願っています。機械学習プロジェクトは監査および検査され、セキュリティがテストされ、安全性が評価される必要があります。

「[AI]は学術界から発展しました。これは主に大学での研究プロジェクトか、主に学者や大手企業からスピンオフされた小規模なソフトウェア開発プロジェクトであり、内部にはセキュリティがありません」と HiddenLayer の研究担当副社長である Tom Bonner 氏は述べています。このようなセキュリティに重点を置いたスタートアップ企業はこう語った。 登録.

「彼らはソフトウェアを使用して興味深い数学的問題を解決し、それを展開して終わりです。侵入テストは行われておらず、AI のレッドチーム、リスク評価、安全な開発ライフサイクルはありません。突然、AI と機械学習が本格的に普及し、誰もがそれに参入しようとしています。彼らは皆、学術界から生まれた一般的なソフトウェア パッケージをすべて探しに行っていますが、驚くべきことに、それらには脆弱性と穴がたくさんあります。」

AI サプライ チェーンには、犯罪者の侵入ポイントが多数あり、犯罪者は次のようなものを使用できます。 しゃがんだ 開発者をだまして正規のライブラリの悪意のあるコピーを使用させ、犯罪者が機密データや企業資格情報を盗んだり、コードを実行しているサーバーをハイジャックしたりできるようにする、と主張されている。ソフトウェア サプライ チェーンの防御は、機械学習システムの開発にも適用されるべきです。

「会社や組織に AI 部門を開設したら、どのようにハッキングされるかを円グラフで考えてみるとよいでしょう」と、Protect AI の AI セキュリティ研究主任ダン・マキナニー氏は語った。 登録、「そのパイのほんの一部がモデル入力攻撃になるでしょう、それは誰もが話していることです。そしてその大部分がサプライチェーン、つまりモデル自体を構築するために使用するツールを攻撃することになるでしょう。」

入力攻撃は 面白い方法 AI ソフトウェアを使用すると、人々が AI ソフトウェアを破壊できるということです。

潜在的な危険性を説明するために、先週 HiddenLayer が 強調されました 同社は、Hugging Face が提供する、安全でない Pickle 形式のモデルをより安全な形式に変換するオンライン サービスにセキュリティ上の問題があると強く考えています。 セーフテンサー、これもHugging Faceによって開発されました。

Pickle モデルにはマルウェアやその他の任意のコードが含まれる可能性があり、逆シリアル化されたときにサイレントかつ予期せず実行される可能性がありますが、これはあまり良くありません。 Safetensor はより安全な代替手段として作成されました。その形式を使用するモデルは、逆シリアル化されたときに埋め込みコードを実行することになりません。知らない人のために説明すると、Hugging Face は数十万のニューラル ネットワーク モデル、データセット、およびコードのビットをホストしており、開発者は数回クリックするかコマンドを実行するだけでダウンロードして使用できます。

Safetensors コンバーターは Hugging Face インフラストラクチャ上で実行され、Hugging Face によってホストされる PyTorch Pickle モデルを Safetensors 形式のコピーに変換するように指示できます。しかし、HiddenLayer によれば、オンライン変換プロセス自体は任意のコード実行に対して脆弱です。

HiddenLayer の研究者らは、任意のコードを含む悪意のある Pickle モデルの変換リクエストを送信できることがわかり、変換プロセス中にそのコードが Hugging Face のシステムで実行され、何者かがコンバータ ボットとそのユーザーに干渉し始める可能性があることを発見したと述べています。ユーザーが悪意のあるモデルを変換した場合、そのハグ フェイス トークンが隠しコードによって盗まれる可能性があり、「事実上ハグ フェイス トークンを盗み、そのリポジトリを侵害し、そのユーザーが所有するすべてのプライベート リポジトリ、データセット、およびモデルを閲覧できる可能性があります」にアクセスできます」と HiddenLayer 氏は主張しました。

さらに、Pickle モデルに隠されたコードによってコンバーター ボットの認証情報にアクセスして漏洩する可能性があり、その結果、誰かがボットになりすまして、他のリポジトリへの変更を求めるプル リクエストをオープンできる可能性があると報告されています。これらの変更が受け入れられると、悪意のあるコンテンツが導入される可能性があります。私たちはHugging FaceにHiddenLayerの調査結果に対する回答を求めました。

「皮肉なことに、Safetensor に変換する変換サービス自体が非常に安全ではありませんでした」と HiddenLayer の Bonner 氏は語ります。 「変換ボットがリポジトリに対して持っていたアクセス レベルを考慮すると、他のリポジトリを通じて変更を送信するために使用するトークンを盗むことが実際に可能でした。

「理論的には、攻撃者は任意のリポジトリに変更を送信して、それが Hugging Face からのものであるかのように見せることができ、セキュリティ アップデートによって騙されてそれを受け入れることができた可能性があります。人々はリポジトリにバックドア付きモデルや安全でないモデルを置いただけで、それを知りませんでした。」

これは単なる理論上の脅威ではありません: Devops ショップ JFrog 見つけたと言いました Hugging Face でホストされている 100 個のモデルに悪意のあるコードが隠されています。

実際には、ファイル形式に応じて、ニューラル ネットワークが読み込まれて解析されるときに実行される有害なコードのペイロードをモデルに隠すさまざまな方法があり、悪者が人々のマシンにアクセスできるようになります。 PyTorch モデルと Tensorflow Keras モデルは、「既知のコード実行技術が公開されている人気のモデル タイプであるため、悪意のあるコードを実行する潜在的なリスクが最も高い」と JFrog 氏は述べています。

安全でない推奨事項

アプリケーションを開発するためにコード提案アシスタントを使用するプログラマーも注意する必要がある、とボナー氏は警告した。そうしないと、安全でないコードを組み込むことになる可能性がある。たとえば、GitHub Copilot はオープンソース リポジトリでトレーニングされており、そのうち少なくとも 350,000 個が潜在的に脆弱です。 古いセキュリティ問題 Python と tar アーカイブが関係します。

Pythonの tarファイル モジュールは、名前が示すように、プログラムが tar アーカイブを解凍するのに役立ちます。アーカイブ内のファイルが Python モジュールによって抽出されるときに、ユーザーのファイル システム上の任意のファイルを上書きしようとするように .tar を作成することが可能です。これを悪用すると、設定を破棄したり、スクリプトを置き換えたり、その他のいたずらを引き起こす可能性があります。

この欠陥は 2007 年に発見され、 強調されました 2022 年にも再び発生するため、人々はこの悪用を避けるためにプロジェクトにパッチを適用し始めることになります。これらのセキュリティ更新プログラムは、大規模な言語モデルをトレーニングしてプログラムするために使用されるデータセットには反映されていない可能性があるとボナー氏は嘆いています。 「したがって、LLM に今すぐ tar ファイルを解凍するよう依頼すると、おそらく [古い] 脆弱なコードが吐き戻されるでしょう。」

ボナー氏はAIコミュニティに対し、パブリックコードリポジトリに変更を加える際に開発者に本人であることをデジタルで証明することを義務付けるなど、サプライチェーンのセキュリティ慣行の導入を開始するよう促した。そうすれば、新しいバージョンのものが正当な開発者によって作成されたものであると人々に安心してもらうことができるだろう。悪意のある変更ではありませんでした。そのためには、開発者が認証に使用するものをセキュリティで保護し、他人がなりすますことができないようにする必要があります。

そして、規模の大小にかかわらず、すべての開発者はセキュリティ評価を実施し、使用するツールを検査し、ソフトウェアを展開する前に侵入テストを行う必要があります。

AI サプライ チェーンのセキュリティを強化しようとするのは困難であり、非常に多くのツールやモデルが構築およびリリースされているため、追いつくのは困難です。

プロテクトAIのマキナニー氏は、「我々が今まさにそういう状態にある」と強調した。簡単に実現できる成果があちこちにたくさん存在します。すべてが急速に進んでいるために、すべてを確認するには人手が足りません。」 ®

スポット画像

最新のインテリジェンス

スポット画像