ゼファーネットのロゴ

ZopaがAmazonSageMakerClarifyを使用して不正検出アプリケーションをどのように強化したか

日付:

この投稿は、のデータサイエンス責任者であるJiahangZhongによって共同執筆されました。 ゾパ

Zopaは、英国を拠点とするデジタル銀行であり、ピアツーピア(P2P)の貸し手です。 2005年、Zopaは、人々がよりシンプルで価値の高いローンや投資にアクセスできるようにする、史上初のP2P融資会社を立ち上げました。 2020年に、ゾパは人々にお金について気分を良くするためのより多くの方法を提供するために完全な銀行免許を受け取りました。 2005年以来、5億ポンド以上を250万人近くの借り手に貸し出し、プラットフォーム上の投資家にXNUMX億XNUMX万ポンド以上の利息をもたらしました。 Zopaの主要なビジネス目標は、質の高い借り手を特定し、競争力のあるクレジット商品を提供し、優れた顧客体験を提供することです。 テクノロジーと機械学習(ML)はビジネスの中核であり、アプリケーションは信用リスクのモデリングから不正の検出やカスタマーサービスにまで及びます。

この投稿では、ローンにZopaの不正検出システムを使用して、その方法を紹介します。 Amazon SageMaker の明確化 MLモデルを説明し、運用効率を向上させることができます。

ビジネスコンテキスト

Zopaは毎日、何千ものローン申請書を受け取り、借り手に数百万ポンドを貸し出します。 その製品の性質上、ZopaはID詐欺師の標的にもなっています。 これに対抗するために、Zopaは高度なMLモデルを使用して、人間によるレビューのために疑わしいアプリケーションにフラグを立てますが、本物のアプリケーションの大部分は高度に自動化されたシステムによって承認されます。

このようなモデルの主な目的は優れた分類パフォーマンスを達成することですが、ZopaのもうXNUMXつの重要な懸念事項は、次の理由から、これらのモデルの説明可能性です。

  • 金融サービスプロバイダーとして、Zopaは顧客を公正に扱い、自動化された意思決定に合理的な可視性を提供する義務があります。
  • Zopaのデータサイエンティストは、モデルの有効性を実証し、各入力機能の影響を理解する必要があります。
  • モデルがケースを疑わしいと見なした理由を知っていれば、引受人による手動レビューはより迅速になります。 また、調査に集中して、顧客体験の摩擦を減らすこともできます。

技術的な課題

Zopaの不正検出器で使用される高度なMLアルゴリズムは、入力特徴間の非線形関係と相互作用を学習できます。 一定の比例効果の代わりに、入力フィーチャは各モデル予測にさまざまなレベルの影響を与える可能性があります。

Zopaのデータサイエンティストは、部分依存プロットや順列特徴重要度など、非線形MLモデルの入力特徴の影響を理解するためにいくつかの従来の特徴重要度手法を使用することがよくありました。 ただし、これらの方法では、特定の母集団のモデルに関する要約的な洞察しか提供できません。 説明した目的のために、Zopaは、個々のモデルスコアへの各入力特徴の寄与を説明する必要がありました。 形状 (SHapley Additive exPlanations)は、協力ゲーム理論の分野からのシャープレイ値の概念に基づいており、このようなシナリオに適しています。

個々の推論を選択するための複数の説明可能な手法があり、それぞれに長所と短所があります。 たとえば、Tree SHAPはツリーベースのモデルにのみ適用可能であり、IntegratedGradientsは深層学習モデルに固有です。 LIMEはモデルに依存しませんが、常に堅牢であるとは限りません。カーネルSHAPは計算コストが高くなります。 Zopaは、勾配ブーストツリーやニューラルネットワークを含むモデルのアンサンブルを使用するため、特定の説明可能性手法の選択は、使用されるモデルの範囲に対応する必要があります。

対照的な説明可能性手法として、SHAP値は、ベースラインサンプルに対して生成された合成データでモデルを評価することによって計算されます。 同じケースの説明は、このベースラインサンプルの選択によって異なる場合があります。 これは、人口統計など、選択したベースライン母集団の明確な分布に部分的に起因している可能性があります。 また、計算コストによって制約されるベースラインサンプルのサイズが制限されているため、単なる統計的変動である可能性もあります。 したがって、Zopaのデータサイエンティストは、ベースラインサンプルのさまざまな選択肢を効率的に試すことが重要です。

SHAPの説明が個々の推論の粒度で作成された後、Zopaのデータサイエンティストは、全体的な影響を理解するために、特定の推論母集団の集計ビューも必要になります。 これにより、一般的なパターンや外れ値を見つけて、それに応じてモデルを調整できます。

SageMakerが明確にする理由

SageMakerは、ML専用に構築された幅広い機能セットを統合することにより、高品質のMLモデルを迅速に準備、構築、トレーニング、デプロイするためのフルマネージドサービスです。 SageMaker Clarifyは、ML開発者にトレーニングデータとモデルの可視性を高め、バイアスを特定して制限し、予測を説明できるようにします。

ZopaがSageMakerClarifyを選択した主な要因のXNUMXつは、従量課金制のモデル説明のためのフルマネージドサービスの利点と、SageMakerのトレーニングおよびデプロイフェーズとの統合によるものでした。

ZopaはSageMakerで不正検出モデルをトレーニングし、モデルのトレーニング後にSageMakerClarifyを使用してSageMaker実験で機能属性プロットを表示できます。 これらの詳細は、コンプライアンス要件に役立つ場合があります。または、特定の機能がモデル全体の動作に必要以上の影響を与えるかどうかを判断するのに役立ちます。

さらに、SageMaker ClarifyはカーネルSHAPのスケーラブルで効率的な実装を使用しているため、オープンソースアルゴリズムを使用して独自のコンピューティングリソースを管理した場合に発生するZopaのパフォーマンス効率とコスト削減につながります。

また、カーネルSHAPはモデルに依存せず、Clarifyは、Sparkベースの並列化を介して複数の結果を持つモデルの効率的な処理をサポートします。 これは、通常XGBoostやTensorFlowなどのさまざまなフレームワークの組み合わせを使用し、モデルの結果ごとに説明が必要なため、Zopaにとって重要です。 個々の予測のSHAP値は、SageMaker Clarify処理ジョブを介して計算し、引受チームが個々の予測を理解できるようにすることができます。

SHAPの説明は対照的であり、ベースラインからの逸脱を説明しています。 ベースラインが異なれば、異なる説明が生成される可能性があり、SageMaker Clarifyを使用すると、選択したベースラインを入力できます。 有益でないベースラインは、トレーニングデータセットからの平均またはランダムなインスタンスとして構築できます。または、有益なベースラインは、非アクション機能を特定のインスタンスと同じ値に設定することによって構築できます。 ベースラインの選択と設定の詳細については、を参照してください。 説明性のためのSHAPベースライン.

ソリューションの概要

Zopaの不正検出モデルは、アプリケーションの詳細、デバイス情報、インタラクション動作、人口統計など、数十の入力機能を使用します。 モデル構築のために、トレーニングデータセットは彼らから抽出されました Amazonレッドシフト データウェアハウスに保存される前にクリーンアップされます Amazon シンプル ストレージ サービス (Amazon S3)。 Zopaには、機能エンジニアリングとMLフレームワークサポートの両方に対応する独自のMLライブラリがあるため、独自のコンテナ(BYOC)アプローチを使用して、SageMakerマネージドサービスとハイパーパラメータ最適化などの高度な機能を活用します。 最適化されたモデルは、Jenkins CI / CDパイプラインを介して既存の本番システムにデプロイされ、Zopaの顧客向けプラットフォームの一部としてリアルタイムの不正検出のためのマイクロサービスとして機能します。

前述のように、モデルの説明は、モデル検証のためのモデルトレーニング中と、モデルモニタリングおよびアンダーライター向けの洞察の生成のための展開後の両方で実行されます。 これらは、計算要件が高く、レイテンシーの許容度が高いため、顧客向けではない分析環境で実行されます。 Zopaは、同様のBYOC方式でSageMaker MMSモデルサービングスタックを使用して、SageMakerClarify処理ジョブのモデルを登録します。 SageMaker Clarifyは、エフェメラルモデルのエンドポイントを起動し、合成対照データの何百万もの予測のためにそれを呼び出します。 次に、これらの予測を使用して、AmazonS3に保存されている個々のケースのSHAP値を計算します。

上記のように、SHAPの説明可能性手法の重要なパラメーターは、ベースラインサンプルの選択です。 不正検出モデルの場合、説明の主な関心事は、疑わしいと分類されたインスタンスにあります。 Zopaのデータサイエンティストは、過去に承認された不正でないアプリケーションの母集団からの有益なベースラインサンプルを使用して、これらのフラグが立てられたインスタンスがモデルによって疑わしいと見なされる理由を説明します。 SageMaker Clarifyを使用すると、Zopaはさまざまなサイズのベースラインサンプルをすばやく実験して、計算コストを合理的に保ちながら、統計の不確かさを低く抑える最終的なベースラインサンプルを決定することもできます。

モデルの検証とモニタリングの場合、SageMakerの実験パネルで利用できるトレーニングデータとモニタリングデータのSHAP値を集計することで、グローバルな機能への影響を調べることができます。 データサイエンティストは、運用に関する洞察を提供するために、個々のケースの不正スコアにプラスの影響を与えた機能(詐欺師の可能性が高い)を除外し、各機能のSHAP値の順に引受チームに報告します。

次の図は、ソリューションのアーキテクチャを示しています。

まとめ

Zopaのような規制対象の金融サービス会社にとって、各要素がMLモデルの決定にどのように寄与するかを理解することが重要です。 モデルの推論を可視化することで、内部と外部の両方の利害関係者に自信を与えることができます。 また、運用チームがより迅速に対応し、顧客により良いサービスを提供するのにも役立ちます。 SageMaker Clarifyを使用すると、Zopaはモデルの説明をより迅速かつシームレスに作成できるようになりました。

SageMaker Clarifyの詳細については、を参照してください。 機械学習予測の公平性とモデルの説明性とは何ですか?


著者について

ハサン・プーナワラ は、英国のロンドンを拠点とするAWSの機械学習スペシャリストソリューションアーキテクトです。 Hasanは、お客様がAWSの本番環境で機械学習アプリケーションを設計およびデプロイするのを支援します。 彼は、さまざまな業界のビジネス上の問題を解決するための機械学習の使用に情熱を注いでいます。 余暇には、屋外で自然を探索し、友人や家族と過ごすのが大好きです。

ジャハン・ジョン Zopaのデータサイエンス責任者です。 彼は、信用リスク、金融犯罪、運用の最適化、顧客エンゲージメントに焦点を当て、ビジネス全体のデータサイエンスと機械学習プロジェクトを担当しています。

ソース:https://aws.amazon.com/blogs/machine-learning/how-zopa-enhanced-their-fraud-detection-application-using-amazon-sagemaker-clarify/

スポット画像

最新のインテリジェンス

スポット画像

私たちとチャット

やあ! どんな御用でしょうか?