ゼファーネットのロゴ

データバイアスへの回答として見られる、初期段階での合成データの使用 

日付:

データバイアスやプライバシーへの懸念への対応策としても考えられる合成データの使用は、特に金融サービスにおける AI ソフトウェア開発で増加しています。 (クレジット: ゲッティイメージズ) 

AIトレンドスタッフ別 

多くの AI アプリケーションが依存する膨大な量のデータに偏りがなく、制限的なデータ プライバシー規制に準拠していることを保証することは、合成データ生成という新しい業界が取り組むべき課題です。 

Edelman 社テクノロジープラクティス担当シニア VP、Gary Grossman 氏

合成データは、現実世界のデータの代わりに使用できるコンピューター生成データです。 合成データは、実際の個人を明示的に表すものではありません。 「これを、その世界を統計的に反映する現実世界のデータのデジタル ミラーと考えてください」と、広報およびマーケティング コンサルタントのテクノロジー プラクティス エデルマン担当上級副社長であるゲイリー グロスマン氏は、最近の記事で述べています。 VentureBeatの。 「これにより、完全な仮想領域で AI システムをトレーニングすることが可能になります。」  

AI アルゴリズムがトレーニングできるデータが多ければ多いほど、結果はより正確かつ効果的になります。 

データの需要を満たすために、m昨年50月に行われた調査によると、XNUMX社以上のソフトウェアサプライヤーがデータ合成製品を開発しているという。 StartUs インサイト、オーストリアのウィーンに拠点を置くコンサルタント。 

プライバシーの懸念に対応するための代替手段の XNUMX つは、匿名化、つまり e コマース取引から名前やクレジット カード番号などの個人データをマスキングまたは削除すること、または医療記録から個人を特定できるコンテンツを削除することです。 「しかし、たとえデータが XNUMX つのソースから匿名化されたとしても、セキュリティ侵害によって暴露された消費者データセットと相関関係がある可能性があるという証拠が増えています」とグロスマン氏は述べています。 これは、セキュリティ ハッキングを必要とせず、公開ソースからのデータを関連付けることによっても実行できます。  

合成データを構築するための主なツールは、合成データの作成に使用したものと同じです。 ディープフェイク ビデオ - Generative Adversarial Network (GAN)、ニューラル ネットワークのペア。 XNUMX つのネットワークは合成データを生成し、XNUMX つ目のネットワークはそれが本物かどうかの検出を試みます。 AI は時間の経過とともに学習し、ジェネレーター ネットワークによってデータの品質が向上し、最終的には識別子が本物と合成の違いを見分けられなくなります。  

合成データの目標は、現実世界のデータに見られるバイアスを修正することです。 「データをより完全に匿名化し、固有のバイアスを修正し、取得が困難なデータを作成することで、合成データは多くのビッグデータ アプリケーションにとって救いとなる可能性があります」とグロスマン氏は述べています。 

IBM、Amazonなどの大手テクノロジー企業, と Microsoft は合成データの生成に取り組んでいます。 しかし、それはまだ初期段階であり、発展途上市場はスタートアップによって主導されています。  

いくつかの例: 

アイフィ — 合成的に生成されたデータを使用して、小売店と買い物客の行動をシミュレートします。  

AI.リブリー — アクティビティ認識、オブジェクト検出、セグメンテーションのためのコンピューター ビジョン アルゴリズムをトレーニングするための合成データを生成します。  

エニーバース  -  シミュレート 生のセンサー データ、画像処理機能、自動車業界向けのカスタム LiDAR 設定を使用して合成データセットを作成するシナリオ。 

合成データを使用して高品質のデータセットも改善できる  

Dawn Li 氏、Finastra、イノベーション ラボ、データ サイエンティスト

たとえ高品質のデータセットを持っていたとしても、それを完成させるために合成データを取得することは多くの場合意味があると、銀行にエンタープライズ ソフトウェアを提供する企業であるフィナストラのイノベーション ラボのデータ サイエンティストであるドーン リー氏が次のように書いています。 InfoQ 

たとえば、タスクが予測である場合、 かどうか 果物はリンゴかオレンジで、データセットにはリンゴのサンプルが 4,000 件、オレンジのサンプルが 200 件あります。「クラスの不均衡により、どの機械学習アルゴリズムもリンゴに偏る可能性が高くなります」とリー氏は述べました。 合成データがオレンジについてさらに 3,800 個の合成例を生成できれば、モデルはどちらの果物にも偏ることがなく、より正確な予測を行うことができます。 

個人を特定できる情報 (PII) が含まれており、匿名化に時間がかかるため現実的ではない共有したいデータの場合、実際のデータセットからの合成サンプルは、実際のデータの重要な特性を保持し、危険を冒すことなく共有できます。プライバシーの侵害や個人情報の漏洩。  

プライバシーの問題は金融サービスにおいて最も重要です。 「データプライバシーに関する懸念に関しては、金融サービスがトップに挙げられます。 データは機密性が高く、高度に規制されています」とリー氏は述べています。 その結果、金融サービスにおいて合成データの使用が急速に増加しました。 実世界の経験を生成するには時間がかかるため、より多くの財務データを取得することは困難ですが、合成データを生成してデータをすぐに使用できるようにすることができます。  

GAN に加えて、合成データを生成する一般的な方法は、入力を予測することを目的とした変分オートエンコーダー、つまりニューラル ネットワークの使用です。 従来の教師あり機械学習タスクには入力と出力があります。 オートエンコーダーの目的は、入力を使用して予測し、入力自体を再構築しようとすることです。 ネットワークにはエンコードとデコーダがあります。 エンコーダーは入力を圧縮し、その小さいバージョンを作成します。 デコーダは圧縮された入力を受け取り、元の入力を再構築しようとします。 このようにして、エンコード内のデータをスケールダウンし、エンコードからデータを再構築することで、データ サイエンティストはデータを表現する方法を学習します。 「元の入力を正確に再構築できれば、デコーダにクエリを実行して合成サンプルを生成できます」とリー氏は述べました。  

合成データを検証するために、Li 氏は統計的類似性と機械学習の有効性を使用することを提案しました。 類似性を評価するには、次のビューを参照してください ヒストグラム、散布図、各列の累積合計を並べて表示し、見た目が似ていることを確認します。 次に、相関関係を調べ、実際のデータセットと合成データセットのマトリックスをプロットして、相関関係がどの程度似ているか、または異なっているかを把握します。  

機械学習の有効性を評価するには、ターゲット変数または列を確認します。 いくつかの評価指標を作成し、合成データのパフォーマンスを評価します。 「実際のデータでの評価で良好なパフォーマンスが得られれば、優れた合成データセットが得られたことになります」と Li 氏は述べています。 

合成データを使用するためのベスト プラクティス  

合成を使用するためのベスト プラクティス データ の最近のアカウントで提案されました AI複数 セムによって書かれた ディルメガーニ, AIの「民主化」を目指す会社の創設者。   

まず、 クリーンなデータを処理する。 「合成前にデータをクリーンアップして準備しないと、ガベージイン、ガベージアウトの状況が発生する可能性があります」と彼は述べています。 彼は、データ クリーニングと、異なるソースからの同じ属性を同じ列にマッピングする必要があるデータの「調和」の原則に従うことを推奨しました。  

だから、 合成データが実際のデータに十分類似しているかどうかを評価する その応用分野について。 その有用性は、それを生成するために使用される技術によって異なります。 AI 開発チームはユースケースを分析し、生成された合成データがユースケースに適しているかどうかを判断する必要があります。  

と、 必要に応じてサポートをアウトソーシングします。 チームは組織の合成データ機能を特定し、機能のギャップに基づいてアウトソーシングする必要があります。 データ準備とデータ合成の XNUMX つのステップは、ソフトウェア サプライヤーによって自動化できると同氏は示唆しています。 

ソース記事と情報を読む in VentureBeatので InfoQ または AI複数. 

コインスマート。 BesteBitcoin-ヨーロッパのBörse
出典: https://www.aitrends.com/data-science/use-of-synthetic-data-in-early-stage-seen-as-an-answer-to-data-bias/

スポット画像

最新のインテリジェンス

スポット画像