ゼファーネットのロゴ

これらの10の質問をせずにデータセットに触れないでください

日付:

これらの10の質問をせずにデータセットに触れないでください

AIプロジェクトを成功させるには、適切なデータセットを選択することが重要です。


By Sandeep Uttamchandani、Ph.D.、製品/ソフトウェアビルダー(EnggのVP)と企業全体のデータ/ AIイニシアチブ(CDO)の運営におけるリーダーの両方

データの探索

データはAI製品の心臓部です。 モデルを調整するのではなく、データを調整することにますます重点が置かれています— AndrewNgによって造られました。 データ中心のAI。 私の経験では、AIプロジェクトの成功または失敗は、使用されているデータセットによって予測できます。 

新しいモデルの構築を検討しているデータサイエンティスト/ AIエンジニア、またはAIプロジェクトのパイプラインの構築に取り組んでいるデータエンジニアの場合は、候補リストに追加するすべてのデータセットについて、AIライフサイクルの後半での頭痛や期待を逃さないように、次の質問をしてください。

1.データセット属性の意味は文書化されていますか?

 
ビッグデータ時代以前は、データは中央データウェアハウスに追加される前にキュレートされていました。 これは、スキーマオンライトとして知られています。 今日、データレイクを使用したアプローチは、最初にデータを集約し、次に消費時のデータの意味を推測することです。 これは、スキーマオンリードとして知られています。

データ属性が正しく文書化されたり、最新の状態に保たれたりすることはめったにありません。 ドキュメントを用意することは、プロジェクトの速度を低下させるステップと見なすことができますが、実際には、モデルのデバッグ中に非常に重要になります。 データセットを所有しているデータスチュワードを特定し、最も正確なドキュメントを提供できることを確認します。

2.データセット内の集計/派生メトリックは標準化されていますか?

 
派生データまたはメトリックには、信頼できる唯一の情報源とビジネス定義が含まれる場合があります。 メトリックに明確に文書化されたビジネス定義があることを確認します(ETL内で暗黙的である場合もあります)

3.データセットはデータ権利規制(GDPR、CCPAなど)に準拠していますか?

 
データの権利に関する規制は現在重要になっています。モデルのトレーニングおよび再トレーニング中にこれらを追跡して実施することが重要です。 図に示すように、GDPR、CCPA、ブラジルの一般データ保護法、インドの個人データ保護法案など、データ権利に関する規制が増えています。 これらの法律では、顧客の好みに基づいて顧客データを収集、使用、および削除することが義務付けられています。 がある さまざまな側面 データ権の、すなわち:データ権の収集、データ権の使用、データ権の削除、データ権へのアクセス。

4.データセットスキーマ/定義の変更がすべてのコンシューマーに通知されるような明確な変更管理プロセスはありますか?

 
ソースでのスキーマの変更がダウンストリームの処理と調整されていないことは非常に一般的です。 変更は、スキーマの変更(既存のパイプラインの破壊)から、データ属性への意味のある変更の検出が困難なものまでさまざまです。 また、ビジネスメトリックが変更されると、定義のバージョン管理が不足します。

5.データセットが収集されたコンテキストは何ですか?

  
データセットが統計的な観点から究極の真実を捉えることはめったにありません。 それらは、アプリケーションの所有者がその時点でユースケースに必要とした属性のみをキャプチャします。 データセットのバイアスとドロップされたデータを分析することが重要です。 データセットのコンテキストを理解することは非常に重要です。

6.データはIIDですか? 

  
  暗黙の了解 モデルトレーニングの目的は、データが IID (独立同分布)。 また、データには有効期限があります。 10年前からの顧客の行動の記録は代表的ではないかもしれません。 

7.データセットは、データ収集の体系的なエラーについてテスト/検証されていますか?

 
データセット内のエラーがランダムである場合、モデルトレーニングへの害は少なくなります。 ただし、特定の行または列が体系的に欠落しているようなバグがある場合、データセットに偏りが生じる可能性があります。 たとえば、バグが原因でユーザーカテゴリの顧客クリックのデバイスの詳細が欠落している場合、データセットは現実を表していないことになります。

8.データセットは、突然の分布の変化を監視していますか?

 
データセットは常に進化しています。 データ分布の分析は、モデル作成時にのみ必要なXNUMX回限りのアクティビティではありません。 代わりに、特にオンライントレーニングの場合、データセットのドリフトを継続的に監視する必要があります。

9.データセットで外れ値はどのように処理されますか?

 
外れ値は必ずしも悪いわけではなく、モデルを正しく構築するために不可欠な場合があります。 収集中に外れ値がフィルタリングされているかどうか、およびロジック/基準は何かを理解することが重要です。 

10.データセットにはデータスチュワードが割り当てられていますか? (大規模なチームに適用可能)

  
データセットが理解できない場合、データセットは役に立ちません。 列の意味をリバースエンジニアリングしようとすると、多くの場合、「敗戦」になります。 重要なのは、ドキュメントの詳細を更新および進化させるデータセットを担当するデータスチュワードがいることを確認することです。

 
私の経験では、これらの質問への回答は積極的に発見するのに役立ちます 既知の既知、既知の未知、および未知の未知 データセット内。 それぞれの質問に肯定的な答えがあることは重要ではありません。 むしろ、これらの応答を考慮に入れることで、AIライフサイクルをスピードアップし、死角を回避するのに役立ちます。

 
バイオ: Sandeep Uttamchandani、Ph.D.:データ+ AI / ML —製品/ソフトウェアビルダー(EnggのVP)と企業全体のデータ/ AIイニシアチブ(CDO)の運用におけるリーダーの両方| オライリー本の著者| 創設者 – DataForHumanity (非営利)

関連する


PlatoAi。 Web3の再考。 増幅されたデータインテリジェンス。
アクセスするには、ここをクリックしてください。

出典:https://www.kdnuggets.com/2021/09/dataset-asking-10-questions.html

スポット画像

最新のインテリジェンス

スポット画像

私たちとチャット

やあ! どんな御用でしょうか?