ゼファーネットのロゴ

合成データがAIをどのように節約できるか

日付:

エンタープライズAIとデータの最も重要なテーマについては、Transform2021に参加してください。 さらに詳しく.


AIはいくつかの重大な課題に直面しています。 正確な結果を提供するには大量のデータが必要であるだけでなく、データに偏りがないことを保証できる必要があり、ますます厳しくなるデータプライバシー規制に準拠する必要があります。 バイアスを特定して削減するように設計されたさまざまなツール、ユーザーデータを匿名化するツール、ユーザーの同意がある場合にのみデータが収集されるようにするプログラムなど、これらの課題に対処するために過去XNUMX年間に提案されたいくつかのソリューションを見てきました。 しかし、これらのソリューションはそれぞれ独自の課題に直面しています。

今、私たちは、節約の恩恵となることを約束する新しい業界が出現しているのを見ています。 合成データ。 合成データは人工的です コンピューターで生成されたデータ これは、現実の世界から取得したデータの代わりになります。

合成データセット 同じ数学的および統計的特性を持っている必要があります 実世界のデータセットとして置き換えられますが、実際の個人を明示的に表すものではありません。 これは、その世界を統計的に反映する実世界のデータのデジタルミラーと考えてください。 これにより、完全に仮想化された領域でAIシステムをトレーニングできます。 また、ヘルスケアから小売、金融、運輸、農業に至るまで、さまざまなユースケースに合わせて簡単にカスタマイズできます。

この前線で大きな動きが起こっています。 50以上のベンダー StartUs Insightsによる昨年XNUMX月の調査によると、すでに合成データソリューションを開発しています。 主要なプレーヤーの概要をすぐに説明します。 ただし、最初に、彼らが解決することを約束している問題を詳しく見てみましょう。

実際のデータの問題

過去数年間で、増加しています 懸念 どのように固有のものについて バイアス データセット内では、無意識のうちに全身を永続させるAIアルゴリズムにつながる可能性があります 差別。 実際、Gartner 予測 2022年までに、AIプロジェクトの85%が、データ、アルゴリズム、またはそれらの管理を担当するチームの偏りにより、誤った結果をもたらすことになるでしょう。

AIアルゴリズムの急増により、データのプライバシーに対する懸念も高まっています。 これにより、EUではGDPRを使用して消費者データのプライバシーと保護に関する法律が強化され、カリフォルニアや つい最近 バージニア州。

これらの法律により、消費者は個人データをより細かく管理できます。 たとえば、バージニア州の法律 消費者に権利を与える 個人データへのアクセス、修正、削除、およびコピーの取得、個人データの販売のオプトアウト、および消費者のターゲットを絞った広告またはプロファイリングを目的とした個人データへのアルゴリズムによるアクセスの拒否。

By アクセスの制限 この情報に対して、ある程度の個別の保護が得られますが、アルゴリズムの有効性が犠牲になります。 AIアルゴリズムがトレーニングできるデータが多いほど、結果はより正確で効果的になります。 十分なデータへのアクセスがなければ、医療診断や薬物研究の支援など、AIの利点も制限される可能性があります。

プライバシーの懸念を相殺するためによく使用されるXNUMXつの代替手段は、匿名化です。 たとえば、個人データは、eコマーストランザクションから名前やクレジットカード番号を削除したり、医療記録から識別コンテンツを削除したりするなど、識別特性をマスクまたは削除することで匿名化できます。 しかし、データがXNUMXつのソースから匿名化されたとしても、セキュリティ違反から公開された消費者データセットと相関する可能性があるという証拠が増えています。 実際、複数のソースからのデータを組み合わせることにより、驚くほど形成することが可能です 鮮明な画像 ある程度の匿名化があったとしても、私たちのアイデンティティの場合によっては、これは 相関データ 悪意のあるセキュリティハッキングなしで、公開ソースから。

合成データのソリューション

合成データは、欠点なしにAIの利点を提供することを約束します。 それは私たちの実際の個人データを方程式から取り除くだけでなく、合成データの一般的な目標は、実際のデータよりも優れたパフォーマンスを発揮することです。 バイアスの修正 それはしばしば現実の世界に根付いています。

個人データを使用するアプリケーションには理想的ですが、合成情報には他のユースケースもあります。 一例は、多くの要因がリアルタイムで相互作用する複雑なコンピュータービジョンモデリングです。 高度なゲームエンジンを活用した合成ビデオデータセットは、自動運転シナリオで起こりうるすべての事態を描写するために超現実的な画像で作成できますが、現実世界の写真やビデオを撮影してこれらすべてのイベントをキャプチャしようとすると、非現実的で、おそらく不可能です。そしておそらく危険です。 これらの合成データセットは、自動運転システムのトレーニングを劇的にスピードアップし、改善することができます。

(上の画像:自動運転車のアルゴリズムをトレーニングするために合成画像が使用されています。出典:合成データプロバイダー パラレルドメイン.)

おそらく皮肉なことに、合成データを構築するための主要なツールのXNUMXつは、ディープフェイクビデオの作成に使用されるものと同じです。 どちらも、ニューラルネットワークのペアである生成的敵対的ネットワーク(GAN)を利用します。 XNUMXつのネットワークは合成データを生成し、XNUMX番目のネットワークはそれが本物かどうかを検出しようとします。 これはループで動作し、ジェネレータネットワークは、ディスクリミネータが実際のデータと合成データの違いを識別できなくなるまで、データの品質を向上させます。

新たなエコシステム

Forrester Researchは最近、いくつかを特定しました 重要なテクノロジー彼らが「AI2.0」と見なすものを構成する合成データを含む、AIの可能性を根本的に拡大する進歩。 データをより完全に匿名化し、固有のバイアスを修正し、他の方法では取得が困難なデータを作成することにより、合成データは多くのビッグデータアプリケーションの節約の恩恵になる可能性があります。

合成データには、他にもいくつかの大きな利点があります。教師あり学習用にラベル付けされたデータを使用して、データセットをすばやく頻繁に作成できます。 また、実際のデータのようにクリーンアップして維持する必要はありません。 したがって、少なくとも理論的には、時間とコストを大幅に節約できます。

いくつかの定評のある会社は、合成データを生成する会社の中にあります。 IBMはこれを次のように説明しています データの捏造、機密情報の漏洩のリスクを排除し、GDPRおよび規制の問題に対処するための合成テストデータを作成します。 AWSは、Alexaをトレーニングするためのデータセットを生成するための社内合成データツールを開発しました 新しい言語。 そしてマイクロソフトはでツールを開発しました 環境、テクノロジーを推奨 ハーバード大学との合成データ機能により、研究者間のコラボレーションを強化できます。 これらの例にもかかわらず、合成データはまだ初期の段階であり、発展途上の市場は新興企業によって主導されています。

最後に、この新興産業の初期のリーダーのいくつかを見てみましょう。 このリストは、私自身の研究機関および業界研究機関に基づいて作成されています。 G2 およびStartUsInsights。

  1. アイフィ —合成的に生成されたデータを使用して、小売店と買い物客の行動をシミュレートします。
  2. AI.リブリー —合成データを生成して、活動認識、オブジェクト検出、およびセグメンテーションのためのコンピュータービジョンアルゴリズムをトレーニングします。 仕事には、スマートシティ、珍しい飛行機の識別、農業などの幅広いシーンに加えて、スマートストアの小売りが含まれています。
  3. エニーバース —シナリオをシミュレートして、生のセンサーデータ、画像処理機能、および自動車業界向けのカスタムLiDAR設定を使用して合成データセットを作成します。
  4. クヴェディア —大量のラベル付き、実際の、および視覚的なデータの調達を簡素化する合成画像を作成します。 シミュレーションプラットフォームは、複数のセンサーを使用してフォトリアリスティックな環境を合成し、経験的なデータセットを作成します。
  5. データジェネ —スマートストア、家庭内ロボット工学、拡張現実などの内部環境のユースケース。
  6. ダイブプレーン —元のデータと同じ統計プロパティを使用して、ヘルスケア業界向けの合成「ツイン」データセットを作成します。
  7. グレーテル — GitHubと同等のデータを目指して、同社は元のデータソースと同じ洞察を保持する開発者向けの合成データセットを作成しています。
  8. もや —金融犯罪と戦うために、詐欺やマネーロンダリングの検出を強化するためのデータセットを生成します。
  9. 主にAI —保険および金融セクターに焦点を当てており、合成構造化データを作成した最初の企業のXNUMXつでした。
  10. ワンビュー –機械学習アルゴリズムによる地球観測画像の分析用の仮想合成データセットを開発します。

Gary Grossmanは、のテクノロジープラクティス担当上級副社長です。 エデルマン エデルマンAIセンターオブエクセレンスのグローバルリーダー。

VentureBeatの

VentureBeatの使命は、技術的な意思決定者が革新的なテクノロジーと取引についての知識を習得するためのデジタルタウンスクエアになることです。 私たちのサイトは、あなたが組織を率いるときにあなたを導くためのデータ技術と戦略に関する重要な情報を提供します。 以下にアクセスして、コミュニティのメンバーになることをお勧めします。

  • あなたが興味を持っている主題に関する最新情報
  • ニュースレター
  • ゲート付きのソートリーダーコンテンツと、次のような貴重なイベントへの割引アクセス 変換2021: もっと詳しく知る
  • ネットワーク機能など

会員になる

コインスマート。 BesteBitcoin-ヨーロッパのBörse
出典:https://venturebeat.com/2021/03/20/how-synthetic-data-could-save-ai/

スポット画像

最新のインテリジェンス

スポット画像

私たちとチャット

やあ! どんな御用でしょうか?