現在、企業の取締役会や経営陣は、業績向上のためのデータと分析の重要性を理解しています。 ただし、企業内のデータのほとんどは、 質の悪いしたがって、データと分析の大部分は失敗します。 データの品質を向上させるために、データ分析プロジェクトの作業の 80% 以上がデータ エンジニアリングに関するものです。 データ エンジニアリングとは、一般に データウェアハウス (またはデータマートまたはデータレイク)。 データ ウェアハウス内のデータは、多くの場合、データ サイエンティストが洞察を引き出す記録システムです。 一般的なデータ エンジニアリングのアクティビティには、重複と不要な値の削除、新しいレコードと属性の取り込み、正規化と標準化を含むデータ値の変換、そして最後に欠落データの処理が含まれます。
データエンジニアリングプロセス
欠損データは、特定のデータ変数、属性、またはフィールドに対して取得および保存されていない値として定義されます。 データの欠落、紛失、または不完全なデータは、ビジネスに次のようなさまざまな問題を引き起こします。
- 運用、コンプライアンス、分析におけるデータの有用性と関連性が低下します。
- 得られる洞察の統計的検出力の低下。 統計検出力または感度は、効果が存在する場合に、有意性検定がその効果を検出する可能性です。
- 得られる洞察にバイアスが生じる。 データの偏りは、データセットが不正確で母集団全体を表すことができない場合に発生します。 これにより、不完全な対応や偏った結果が生じる可能性があります。
欠落データのカテゴリ
技術的には NULL として知られる欠落データは、値が欠落していることを示します。 欠損データは、次の XNUMX つの主なカテゴリに分類できます。
- ランダムで完全に欠損 (MCAR): ここでは、すべての観測値にわたってデータが欠損しています。 たとえば、顧客の電子メール アドレスがすべての顧客レコードにありません。
- ランダムではない欠損 (MNAR): 欠損データには構造または定義されたパターンがあります。 たとえば、顧客レコードの学生カテゴリでは収入値が欠落しています。
- Missing at Random (MAR): ここでは、観測されたデータに対してデータが欠落しています。 データはランダムに欠落しており、欠落データにはパターンがありません。 たとえば、顧客レコードの 12% で顧客の生年月日が欠落しています。
分析における欠損データのソリューション
では、MCAR、MNAR、MAR の欠落データ カテゴリに対処するためのソリューションは何でしょうか? 基本的に、欠落データの解決策は次の XNUMX つの主要なカテゴリに分類できます。
- MCAR に関連する問題に対処するためのソリューションは、光学式文字認識 (OCR)、インテリジェント文書処理 (IDP)、バーコード、QR コード、Web スクレイピングなどのデータ キャプチャ テクノロジの導入を含むデジタル化の改善です。 ただし、すべてのデジタル ソリューションをより適切に導入するには、ユーザー トレーニングによって補完する必要があります。
- MNAR に関連する問題に対処するためのソリューションは、マスター データ管理 (MDM) などの改良されたデータ管理ソリューション、ETL (抽出/変換/ロード) や EAI (エンタープライズ アプリケーション統合) などのデータ統合方法、データ ガバナンスなどです。 。 データ管理の目標は、信頼性、正確性、セキュリティ、コンプライアンスの向上とコストの削減です。
- MAR に関する問題に対処するために、解決策にはデータ代入手法が含まれる場合があります。 代入は、欠損データを代替値で置き換えるプロセスです。 一般的なデータ補完方法には、ラングレージの内挿、グレゴリー ニュートンの前方および後方内挿アルゴリズム、および回帰が含まれます。
MAR データ補完技術
Missing at Random (MAR) は、データ サイエンティストや機械学習エンジニアが遭遇する非常に一般的なデータ欠落状況です。 これは主に、MCAR および MNAR 関連の問題は IT 部門が処理し、データの問題はデータ チームが対処するためです。 MAR データ補完は、欠落しているデータを適切な値で置き換える方法です。 MAR に一般的に使用されるデータ代入方法には次のようなものがあります。
- ホットデッキ補完では、類似したデータ レコードのプールからランダムに選択されたレコードから欠損値が補完されます。 ホットデッキ代入では、データの代入に使用されるランダム関数により、データを選択する確率は等しいと想定されます。
- コールドデッキの代入では、値の代入にランダム関数は使用されません。 代わりに、算術平均、中央値、最頻値などの他の関数が使用されます。
- 回帰データ補完 (多重線形回帰 (MLR) など) では、独立変数の値を使用して、回帰モデルを使用して従属変数の欠損値を予測します。 ここでは、最初に回帰モデルが導出され、次にモデルが検証され、最後に新しい値、つまり欠損値が予測されて代入されます。
- 内挿は、指定されたデータの間にある独立変数の従属変数の値を予測するために使用されるデータ代入手法です。 主要なデータ内挿手法には、グレゴリー ニュートンの前方補間手法、グレゴリー ニュートンの後方向内挿手法、ラグランジュの内挿手法などが含まれます。
- 外挿は、既知の値のセットから拡張された値を代入することです。 これは、既存の傾向が継続するという仮定に基づいて何かを推定することです。 一般的なデータ外挿手法は、傾向線とラグランジュ外挿です。 内挿手法はデータ セット内の XNUMX 点間の値を導き出しますが、外挿手法はデータ セットの外側の値を推定します。
データ分析で MAR 欠損データを管理する戦略を以下の図に示します。
欠損データのカテゴリ、解決策、および手法
データ代入によりデータの品質は向上しますが、適切なデータ代入手法を選択するように注意する必要があります。 データ代入手法の中には、変数間の関係を保持しないもの、基礎となるデータ分布を歪めるもの、特定のデータ型に依存するものなどがあります。 したがって、XNUMX つのデータ代入手法に依存するのではなく、複数の手法を使用して値を代入する戦略をとるべきです。 この点において、複数のデータ代入アルゴリズムを採用することでアンサンブル技術を活用し、パフォーマンスを向上させる最適なモデルを生成できます。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://www.dataversity.net/managing-missing-data-in-analytics/