その多くの利点にもかかわらず、高性能の機械学習システムの出現 拡張分析 過去10年間で、「プラグアンドプレイ」分析文化が成長しました。この文化では、有用なビジネスインテリジェンスが得られるまで、大量の不透明(OPAQUE)データがアルゴリズムに任意にスローされます。 これは、データ監査の観点から何を意味しますか? それについて話し合いましょう。
データ監査とブラックボックスの問題
典型的な機械学習ワークフローのブラックボックスの性質により、これらのプロセスを生き残る「暗い」データの範囲を理解または説明するのは難しい場合があります。 または、データソースの未確認の来歴または未踏の範囲が、後でダウンストリームアプリケーションを合法的に公開する可能性がある範囲。
データカタログを実装する方法を学ぶ
オンラインコースで、組織の成功するデータカタログの作成と維持を始めましょう。
これはいくつかの疑問を提起します:
- の意味は何ですか 機械学習データ監査の不可解な性質?
- データは、企業の保管に関する法的義務を妨げる管轄区域を通過しましたか?
- データの進化するスキーマと出所は、パートナーの懸念を和らげるため、または買収の「デューデリジェンス」フェーズを満たすために十分に理解されていますか?
- データが最初に導入されたときに存在しなかった今後の規制基準に直面して、その不透明性は潜在的に致命的な責任ですか?
ここでは、データ監査の背後にある理由を明らかにし、AIと機械学習の分野でデータ監査に対処するためのいくつかのガイドラインを定義しながら、これらの質問のいくつかに対する可能な回答を見ていきます。
データ監査の目標
ほとんどの法域では、データ監査は現在、公式で規定されたイベントではありません。 むしろ、それは透明性と開示のさまざまな基準を伴う可能性のあるプロセスです。
データ監査の目的は、監査がコンプライアンス(外部の要求)またはパフォーマンス(プロセスの内部の商業的レビュー)のどちらで行われているかによって異なる場合がありますが、どちらのタイプの監査もデータ収集を調整する価値のある機会です。 ガバナンスの手順とポリシー、および両方のニーズを考慮に入れる。
したがって、データ監査の目的には次のものが含まれる場合があります。
- 新しいプロセスを開発するための未開発のデータリソースの使用
- 実行不可能で法的に無関係なデータを特定することによる、企業のストレージ負担の軽減
- 規制(プライバシーポリシーなど)およびライセンス条項(「フェアユース」条項を含む)を遵守する必要があるため、法的責任を回避できます
- インデックス付けされていない資料の識別。将来の計画(削除、ガバナンス要件の評価、一般的なインデックス作成など)を作成することを目的としています。
- 悪意のあるデータを許可するチャネルとプロトコルを保護しながら、悪意のあるデータを検出して削除する
- 将来の監査でデータの異常を自動的に処理するためのワークフローの確立(たとえば、非準拠または不適切にタグ付けされたデータが手動アラートをトリガーする場合)
ソースデータに光を当てる
本質的に、機械学習アルゴリズムはデータソース(データセット)を吸収して覆い隠し、データセットから抽出する必要のある特徴を定義し、トレーニングプロセスの潜在的な空間でそれらの特徴を一般化します。 したがって、結果として得られるアルゴリズムは代表的で抽象的であり、一般に、それらの貢献するソースデータを明示的に公開することはできないと見なされます。
ただし、この自動あいまいさへの依存は、モデルの反転などのアルゴリズム出力からソースデータを公開する最近の方法からますます挑戦されています。
モデル反転の役割
モデル反転技術は、機械学習モデルがソースデータを「抽象化」する方法によって保護されることを目的とした機密情報を開示できることを証明しています。 AIシステムをポーリングし、さまざまなクエリに対するさまざまな応答からの貢献データの画像をつなぎ合わせることができるようにするさまざまな手法について説明します。
これには、モデルの「重み」を明らかにすることも含まれます。これは、機械学習フレームワークの本質的な価値を表すことがよくあります。 実際、重みが後でIPロックされ、モデルの反転によってマッピングできる(つまり、著作権で保護されたデータの使用が公開される)マテリアルによって生成された場合、現在のデータセットがガバナンスの観点から非の打ちどころがないかどうかは問題ではありません。
XNUMXつのデータ監査シナリオ
上記を考慮すると、後日、第三者による監査の可能性を合理的に予測してコンプライアンス基準を確保するためにデータ資産を監査することが絶対的な優先事項になります。 これに関連して、XNUMXつの考えられる関連シナリオを調べてみましょう。
- FOSSデータセット: 分析システムが無料またはオープンソース(FOSS)データセットを使用していて、ライセンスに制限的な変更が発生した場合、IPロックデータを使用して無意識のうちに開発されたソフトウェア(機械学習アルゴリズムを含む)も制限の対象になります。 したがって、ライセンスとデータの長期的な実行可能性を常に評価する必要があります。 考慮すべきもうXNUMXつの潜在的なリスクは、FOSSデータセットの使用です。このデータセットの出所とIPの整合性は、後でデータを主張するサードパーティによって異議を唱えられます。
- 合成データセット: これは、人工的に生成されたテキストまたはCGIで生成された画像を含むデータ生成へのますます人気のあるアプローチを表しています。 自分で作成しなかった合成データセット内の情報の出所についても知っておく価値があります。 貢献しているすべてのデータソースは公開されており、検査に利用できますか? 作成のチェーン全体を最初のソースまでたどり、ライセンス条項の有効性と永続性に満足できますか?
- 独自のデータセット: 独自のデータセットを生成することは、攻撃不可能なソースデータを開発するための最も安全な方法ですが、最も費用と時間のかかるソリューションでもあります。 そのため、いくつかの企業は、データスクレイピングに関する現在の緩い規制を利用し、ドメインがそのような使用を禁止している可能性のあるオンライン資料を悪用しています。 ただし、将来的に状況が変化し、法的な領域で定義された紛争につながる可能性があります。 したがって、長期的なデータ抽出、保管、およびガバナンスのポリシーを設計する際には、これを予測することが賢明です。
データ監査のための触媒
この時期、モデルの逆転部門は、周りの十字軍の成長によって煽られています データプライバシー とAIセキュリティ。
実際、過去30年間のパテントトロールの歴史は、国のAIポリシーが成熟するにつれて、今後10年間で研究者の公開データへの自由な乗り心地が著作権執行者の注意を引くようになり、データの透明性要件の高まりがデータソースを公開するためのモデル反転の機能。