ゼファーネットのロゴ

データ ガバナンスは AI 疲労に対処できるか? – KDnuggets

日付:

データ ガバナンスは AI 疲労に対処できるか?
著者による画像
 

データ ガバナンスと AI 疲労は 2 つの異なる概念のように聞こえますが、この 2 つの間には本質的なつながりがあります。よりよく理解するために、その定義から始めましょう。 

これは、長い間データ業界の中核的な焦点でした。

でログイン 「データ ガバナンスは、データが安全で、プライベートで、正確で、利用可能で、使いやすいものであることを保証するために行うすべてのことです。それには、データの収集、保存、処理、廃棄の方法に適用される内部標準、つまりデータ ポリシーを設定することが含まれます。」

この定義が強調しているように、データ ガバナンスとはデータの管理、つまり AI モデルを駆動するエンジンのことです。

データ ガバナンスと AI の関連性の最初の兆候が現れ始めたので、それを AI 疲労と関連付けてみましょう。名前からそれがわかりますが、そのような疲労につながる理由を強調することで、投稿全体でこの用語を一貫して使用することができます。  

組織、開発者、チームが直面する挫折や課題によって AI 疲労が始まり、価値の実現や AI システムの導入が失敗に終わることがよくあります。

それはほとんどの場合、AI の機能に対する非現実的な期待から始まります。 AI などの高度なテクノロジーの場合、主要な関係者は、AI の機能と可能性だけでなく、その限界とリスクについても調整する必要があります。

リスクについて話すと、倫理は後付けで考えられ、コンプライアンスに準拠していない AI イニシアチブの廃止につながると考えられています。

この投稿の前提である、AI 疲労の原因におけるデータ ガバナンスの役割について疑問に思っているはずです。

それが私たちが次に向かうところです。 

AI 疲労は、導入前と導入後に大きく分類できます。まず、展開前に焦点を当てましょう。

導入前

概念実証 (PoC) から展開までの段階には、次のようなさまざまな要因が影響します。

  • 私たちは何を解決しようとしているのでしょうか?
  • なぜ今優先順位を付けることが切実な問題となるのでしょうか?
  • どのようなデータが利用可能ですか?
  • そもそもMLで解決できるのでしょうか?
  • データにはパターンがあるのでしょうか?
  • その現象は再現性があるのでしょうか?
  • モデルのパフォーマンスを向上させる追加データは何ですか?

 

データ ガバナンスは AI 疲労に対処できるか?
Image from Freepik 
 

ML アルゴリズムを使用して問題を最適に解決できると評価したら、データ サイエンス チームが探索的データ分析を実行します。この段階では、基礎となるデータ パターンの多くが明らかになり、特定のデータに信号が豊富であるかどうかが強調されます。また、アルゴリズムの学習プロセスを高速化するために設計された機能を作成するのにも役立ちます。

次に、チームは最初のベースライン モデルを構築しますが、多くの場合、それが許容レベルに達していないことがわかります。コイントスと同じくらいの出力をもつモデルには何の価値もありません。これは、ML モデルを構築する際の最初の挫折、別名教訓の 1 つです。

組織は、あるビジネス問題から別のビジネス問題に移り、疲労を引き起こす可能性があります。それでも、基礎となるデータに豊富な信号が含まれていない場合、AI アルゴリズムをその上に構築することはできません。モデルは、目に見えないデータを一般化するために、トレーニング データから統計的関連性を学習する必要があります。

導入後

トレーニングされたモデルが検証セットで有望な結果を示しているにもかかわらず、70% の精度などの適格なビジネス基準に沿って、モデルが実稼働環境で適切に実行できない場合、疲労が発生する可能性があります。

このタイプの AI 疲労は、導入後フェーズと呼ばれます。 

パフォーマンスの低下にはさまざまな理由が考えられますが、モデルを悩ませる最も一般的な問題はデータ品質の低下です。重要な属性が存在しない場合、モデルがターゲットの応答を正確に予測する能力が制限されます。 

トレーニング データではわずか 10% 欠落していた重要な特徴の 50 つが、運用データでは XNUMX% の確率で null になり、誤った予測につながる場合を考えてみましょう。このような繰り返しと、モデルの一貫したパフォーマンスを確保するための取り組みにより、データ サイエンティストやビジネス チームに疲労が蓄積し、その結果、データ パイプラインに対する信頼が失われ、プロジェクトへの投資がリスクにさらされます。

どちらのタイプの AI 疲労にも対処するには、堅牢なデータ ガバナンス対策が不可欠です。データが ML モデルの中核であることを考えると、信号が豊富でエラーがなく、高品質のデータが ML プロジェクトの成功には必須です。 AI 疲労に対処するには、データ ガバナンスに重点を置く必要があります。したがって、私たちは正しいデータ品質を確保するために厳密に取り組み、最先端のモデルを構築し、信頼できるビジネス洞察を提供するための基礎を築く必要があります。

データ品質

データガバナンスを成功させる鍵となるデータ品質は、機械学習アルゴリズムの重要な成功要因です。組織は、データ利用者にレポートを公開するなど、データ品質に投資する必要があります。データ サイエンス プロジェクトでは、低品質のデータがモデルに流入すると何が起こり、パフォーマンスの低下につながる可能性があることを考えてください。

チームはエラー分析中にのみデータ品質の問題を特定できますが、その問題が上流に送信されて修正されると、最終的にチーム間に疲労を引き起こすことになります。

明らかに、費やされる労力だけでなく、適切なデータがパイプインされ始めるまでに多くの時間が失われます。

したがって、このような時間のかかる反復を防ぐために、ソースでデータの問題を修正することを常にお勧めします。最終的に、公開されたデータ品質レポートは、データ サイエンス チーム (さらに言えば、他の下流ユーザーやデータ消費者) が受信データの許容可能な品質を理解できるようになります。

データの品質とガバナンスの対策がなければ、データ サイエンティストはデータの問題で過剰な負担を負い、モデルの失敗につながり、AI 疲労を引き起こすことになります。 

この投稿では、AI 疲労が始まる 2 つの段階に焦点を当て、データ品質レポートなどのデータ ガバナンス対策がどのように信頼できる堅牢なモデルの構築を可能にするかを紹介しました。

データ ガバナンスを通じて強固な基盤を確立することで、組織はシームレスな AI 開発と導入に向けたロードマップを構築し、熱意を高めることができます。

この投稿では、AI 疲労に対処するさまざまな方法の全体的な概要を確実に提供するために、組織文化の役割も強調します。組織文化は、データ ガバナンスなどの他のベスト プラクティスと組み合わせることで、データ サイエンス チームが有意義な AI への貢献をより早く構築できるようになり、権限を与えられるようになります。もっと早く。
 
 

ヴィディ・チュー スケーラブルな機械学習システムを構築するために、製品、科学、エンジニアリングの交差点で働く AI ストラテジストであり、デジタル トランスフォーメーションのリーダーです。 彼女は受賞歴のあるイノベーション リーダーであり、作家であり、国際的な講演者でもあります。 彼女は、機械学習を民主化し、誰もがこの変革に参加できるよう専門用語を打ち破ることを使命としています。

スポット画像

最新のインテリジェンス

スポット画像