効果的で包括的な検証がなければ、データウェアハウスはデータの沼地になります。
選択するクラウドデータウェアハウスとしてのSnowflakeの採用が加速するにつれ、データを自律的に検証する必要性が重要になっています。
既存のデータ品質ソリューションはSnowflakeデータを検証する機能を提供しますが、これらのソリューションは、何百ものデータ資産に対してスケーラブルではなく、ルールカバレッジの問題が発生しやすいルールベースのアプローチに依存しています。
データカタログを実装および採用する方法を学ぶ
オンラインコースで、組織の成功するデータカタログの作成と維持を始めましょう。 31月25日までにコードDATAEDUを使用するとXNUMX%オフになります!
現在のアプローチと課題
Snowflakeの現在の焦点 データウェアハウス プロジェクトは、データの取り込み、つまり複数のデータソース(多くの場合、異なる形式)から単一の宛先にデータを移動するプロセスです。 データの取り込み後、データはビジネスの利害関係者によって使用および分析されます。ここで、データのエラーや問題が表面化し始めます。 その結果、Snowflakeでホストされているデータに対するビジネスの信頼性が低下します。 私たちの調査によると、Snowflakeの分析およびレポートプロジェクトの平均20〜30%が、データの問題の特定と修正に費やされています。 極端な場合、プロジェクトは完全に放棄される可能性があります。
現在のデータ検証ツールは、一度にXNUMXつのテーブルのデータ品質ルールを確立するように設計されています。 その結果、数百のテーブルにこれらのソリューションを実装するには、重大なコストの問題があります。 テーブルごとに焦点を合わせると、ルールのセットが不完全になったり、特定のテーブルのルールが実装されなかったりして、リスクが軽減されないことがよくあります。
一般に、データエンジニアリングチームは、現在のデータ検証ソリューションを統合する際に、次の運用上の課題を経験します。
- データを分析し、対象分野の専門家に相談して、実装する必要のあるルールを決定するのにかかる時間
- 各テーブルに固有のルールの実装。 したがって、作業量はスノーフレークのテーブル数に直線的に比例します。
- データをスノーフレークからデータ品質ソリューションに移動する必要があるため、遅延と重大なセキュリティリスクが発生します
- 既存のツールには、限られた監査証跡機能が付属しています。 コンプライアンス要件のルール実行結果の監査証跡を生成するには、多くの場合、データエンジニアリングチームの時間と労力がかかります。
- データの進化に合わせて実装されたルールを維持する
ソリューションフレームワーク
組織は、少なくとも次の基準を満たすデータ検証ソリューションを検討する必要があります。
機械学習対応: ソリューションはAI / MLを活用して次のことを行う必要があります。
- 鮮度、完全性、一貫性、適合性、一意性、およびドリフトに関連するデータエラーを検出するために、データフィンガープリントを識別してコード化します。
- 検証チェックを確立するために必要な労力は、テーブルの数に依存するべきではありません。 理想的には、データエンジニアまたは データスチュワード ワンクリックで数百のテーブルの検証チェックを確立できるはずです。
In-Situ: ソリューションは、遅延とセキュリティリスクを回避するために、データを別の場所に移動することなく、ソースでデータを検証する必要があります。 理想的には、すべてのデータ品質分析を実行するために、ソリューションはSnowflakeを利用する必要があります。
自律型: ソリューション 次のことができる必要があります:
- 新しいテーブルが作成されたときに、検証チェックを自律的に確立します。
- テーブル内の基になるデータが変更されたときに、既存の検証チェックを自律的に更新します。
- データが到着したらすぐに増分データの検証を実行し、エラーの数が許容できなくなったときに関連するリソースに警告します。
スケーラビリティ: このソリューションは、ストレージと計算に使用される基盤となるSnowflakeプラットフォームと同じレベルのスケーラビリティを提供する必要があります。
サーバーレス: ソリューションは、サーバーレスのスケーラブルなデータ検証エンジンを提供する必要があります。 理想的には、ソリューションはSnowflakeの基盤となる機能を使用する必要があります。
データ検証パイプラインの一部: ソリューションは、の一部として簡単に統合する必要があります データパイプライン 。
統合とオープンAPI: ソリューションは、エンタープライズスケジューリング、ワークフロー、およびセキュリティシステムとの統合を容易にするために、API統合を開く必要があります。
監査証跡/結果の可視性: ソリューションは、検証テスト結果のナビゲートしやすい監査証跡を提供する必要があります。
ビジネスの利害関係者の管理: ソリューションは、ビジネスの利害関係者に、自動検出された実装済みルールの完全な制御を提供する必要があります。 ビジネスの利害関係者は、データエンジニアを関与させることなく、ルールを追加/変更/非アクティブ化できる必要があります。
まとめ
データは、現代の組織にとって最も価値のある資産です。 データを検証するための現在のアプローチ、特にスノーフレークは、信頼性の欠如とデータエラーを修正するための費用と時間のかかる方法につながる運用上の課題に満ちています。 データウェアハウスがデータの沼地になるのを防ぐために、Snowflakeデータを検証するための標準化された自律的なアプローチを採用することが急務です。