ゼファーネットのロゴ

機械学習モデルの監視が重要である理由

日付:

監視 機械学習 モデルは、運用環境で ML モデルを運用しているあらゆるビジネスにとって非常に重要です。 これは、DevOps チームが監視することに慣れている他のソフトウェア システムよりも重要である可能性があります。その理由はさまざまです。 まず、ML モデルは監視されていないと通知なく失敗する可能性があるため、エラーが長期間検出されない可能性があります。 さらに、ML モデルは、多くの場合、大規模なソフトウェア システムにおいてより重要なコンポーネントの一部です。 彼らは賢明な決定を下す責任があり、私たちは彼らの予測に大きく依存しています。

モニタリングが重要であるにもかかわらず、 機械学習 実稼働中のモデルでは、これを行うための標準的な実践やフレームワークがまだ存在しないため、多くのモデルが適切な監視やテストを行わずに実稼働に入ります。 これは、ML モデルのテクノロジーが成熟し始めたばかりであり、DevOps と ML の交差点である MLOps はまだ新しい分野であるためです。 この投稿では、次の重要性について説明します。 機械学習モデルのモニタリング 実稼働環境のモデルで発生する可能性のある潜在的な問題。

構想から本番までの機械学習モデルのライフサイクル全体を示す図。 実際には、多くのモデルは適切な監視段階を経ていません。 (source)

この試験は
間違ってもいいですか?

短い答えは たくさん。 ML モデルはブラック ボックスとして扱われることがよくあります。 多くのソフトウェア エンジニアは、これらのモデルがどのように構築され、そのパフォーマンスを評価する方法を理解しておらず、モデルのエンドポイントが生きている場合、期待どおりにパフォーマンスしていると想定しています。

ML モデルはブラック ボックスとして扱われることが多く、コストのかかる未検出のエラーや制御不能につながる可能性があります (source)

ただし、フリーズされたモデルであってもフリーズされた環境では生きていないため、モデルが依然としてタスクに適合しているかどうかを継続的に評価する必要があります。 モデルが期待どおりに動作しない理由のいくつかについて説明します。

且つ
ドリフトとコンセプトドリフト

時間の経過とともにモデルが劣化する一般的な原因の XNUMX つは次のとおりです。 データドリフト。 時間の経過に伴う入力データの分布の変化が考慮されます。 データドリフト。 これは、「現実世界」の変化(例: 新しい競合他社が市場に影響を与える、パンデミックがユーザーの行動を変える)、またはデータ パイプラインへのより技術的な変更(例: 追加ソースからのデータの組み込み、カテゴリ データへの新しいカテゴリの導入)のいずれかによって引き起こされる可能性があります。 )。 同様に、 コンセプトドリフト 特徴とターゲットとの関係に変化があるときに発生します。

より具体的には、 トレーニング、モデルはパターンに適合することを学習します。 トレーニング データ。 通常、テスト セットは、実世界のデータでパフォーマンスをシミュレートするための評価用に確保されます。 ただし、データの構成に大きな変化がある場合、モデルが完璧に動作することは期待できず、モデルが次のような状態になる可能性があります。 失効した.

概念ドリフトのタイプの分類 (source)

且つ
整合性の問題

データ パイプラインは非常に複雑になる可能性があり、さまざまな団体が所有するさまざまなデータ ソースが関係します。 ML モデルは、DNA 構成のパターンを特定することに関しては非常にインテリジェントですが、XNUMX つの列が交換されたことや、入力属性のスケールが変更されたことを理解することに関しては、まったく愚かです。 モデルに供給されるデータを常に監視すると、データ スキーマへの変更を早期に特定し、重大な損傷が生じる前に問題を修正できます。

ミスマッチ
開発環境と実稼働環境の間

ML モデルを実稼働環境にデプロイする設定は、開発設定とは大きく異なります。 この違いは、モデルがデプロイされた瞬間からモデルに供給されるデータの構造に現れる可能性があります。 適切なモニタリングがなければ、モデルが開発環境とまったく同じように動作していると誤って想定してしまう可能性があります。

サービング
問題

ML モデルは運用環境では比較的「隠蔽」される可能性があるため、モデルが入力を与えられて予測を生成する基本的な機能さえ提供しておらず、そのことを知らない可能性があります。 このような問題は、待ち時間が長いこと、運用環境やモデルのエンドポイントの構成ミスなどが原因で発生する可能性があります。 エンドポイントごとに処理されるリクエストの数などのメトリクスを監視することで、モデルが完全に動作していることを確認できます。

管理
あなたのモデル

機械学習モニタリングを適切に実装すると、これらすべての問題を早期に検出し、最新のデータでモデルを再トレーニングしたり、特徴の計算方法を更新したり、データ パイプラインを修正したりする時期が来たときに通知することができます。 したがって、ML モデルを制御し、次の質問のいずれかに即座に答えることができます。

– 私のモデルは劣化し始めていますか?

– 現在の入力データは、トレーニングに使用されたデータと同様の分布を持っていますか?

– データ パイプラインと入力データのスキーマはそのままですか?

– 人種や性別などの属性に関する偏見は増加していますか?

– 私のモデルは、受信したリクエストの数を必要に応じて処理していますか? もっとリソースが必要ですか? 少なくても十分でしょうか?

– 私のモデルのパフォーマンスが良くなった、または悪くなったデータのサブセットはありますか?

まとめ

機械学習モデルのモニタリングとテストは、見落とされがちな領域です。 データ サイエンス チームは実験環境で良好な結果を達成することに満足しているかもしれませんが、DevOps チームは機械学習の用語や概念を必ずしも理解しているわけではありません。 ML モデルが理論的に役立つだけでなく、継続的にビジネスに付加価値を与える製品であることを確認したい場合は、適切な監視システムに投資する価値があります。

画像クレジット: https://www.ie.edu/

コインスマート。 BesteBitcoin-ヨーロッパのBörse
出典: https://datafloq.com/read/why-monitoring-machine-learning-models-matters/14527

スポット画像

最新のインテリジェンス

スポット画像