ゼファーネットのロゴ

GenworthがAmazonSageMakerとAWSGlueを使用してAWSでサーバーレスMLパイプラインを構築した方法

日付:

この投稿は、Genworth Mortgage Insurance AustraliaLimitedのデータサイエンティストであるLiamPearsonと共同で執筆しています。

ゲンワース Mortgage Insurance Australia Limitedは、オーストラリアの貸し手住宅ローン保険(LMI)の大手プロバイダーです。 彼らの株式はオーストラリア証券取引所でASX:GMAとして取引されています。

Genworth Mortgage Insurance Australia Limitedは、50年以上の経験と、住宅ローンの返済パターンと保険金請求の依存関係に関するデータを含む大量のデータを収集した貸し手住宅ローン保険会社です。 Genworthは、この履歴情報を使用して、損失軽減(PALM)機械学習(ML)モデルの予測分析をトレーニングしたいと考えていました。 MLモデルを使用すると、Genworthは各保険契約の最近の返済パターンを分析して、可能性(請求の可能性)と影響(保険金額)の降順で優先順位を付けることができます。 Genworthは、ソリューションの構築と運用にかかる労力を最小限に抑えながら、MLモデルでバッチ推論を並行してスケジュールどおりに実行したいと考えていました。 したがって、GenworthとAWSは アマゾンセージメーカー データの取り込みと変換、ML推論の実行、分析結果の処理と公開を行うためのバッチ変換ジョブとサーバーレスビルディングブロック。

GenworthのAdvancedAnalyticsチームは AWSデータラボ データラボのエンジニアとソリューションアーキテクトが主導するプログラム。 ラボ前のフェーズでは、金融サービス業界の性質を考慮して、Genworthが特にセキュリティ制御に関して持っていた特定の要件に適合するソリューションアーキテクチャを作成しました。 アーキテクチャが承認され、すべてのAWSビルディングブロックが特定された後、トレーニングのニーズが決定されました。 AWS Solutions Architectsは、Genworthのビルダーに新しいソリューションの構築に必要なスキルを提供するために、一連のハンズオンワークショップを実施しました。 ビルドフェーズと呼ばれる4日間の集中的なコラボレーションでは、Genworth Advanced Analyticsチームはアーキテクチャと学習を使用して、機能要件に適合するMLパイプラインを構築しました。 パイプラインは完全に自動化されており、サーバーレスです。つまり、メンテナンス、スケーリングの問題、またはダウンタイムはありません。 ラボ後の活動は、パイプラインの製品化と、他のMLユースケースの青写真としての採用に重点が置かれていました。

この投稿では、私たち(GenworthとAWS Architectsの共同チーム)が、ソリューションの設計と実装にどのように取り組んだか、従ったベストプラクティス、使用したAWSサービス、およびソリューションアーキテクチャの主要コンポーネントについて説明します。

ソリューションの概要

最新のMLパイプラインパターンに従って、GenworthのPALMソリューションを実装しました。 このパターンでは、さまざまなソースからのデータの取り込み、データの変換、強化、クリーニング、ML予測ステップが可能であり、出力のデータラングリングの有無にかかわらず、結果を利用できるようになります。

つまり、実装されたソリューションにはXNUMXつのコンポーネントがあります。

  • データの取り込みと準備
  • XNUMXつのカスタム開発されたMLモデルを使用したMLバッチ推論
  • 消費のためのデータ後処理と公開

以下は、実装されたソリューションのアーキテクチャ図です。

XNUMXつのコンポーネントについて詳しく説明しましょう。

コンポーネント1:データの取り込みと準備

Genworthのソースデータは、Oracleオンプレミスデータベースのステージングテーブルに毎週公開されます。 MLパイプラインは AWSグルー Oracleデータベースに接続するジョブ(図のステップ1、データの取り込み) AWSダイレクトコネクト VPNで保護された接続により、生データを取り込み、暗号化されたデータに保存します Amazon シンプル ストレージ サービス (Amazon S3)バケット。 次に、AWS Glue(ステップ2、データ準備)を使用してPythonシェルジョブを実行し、ML推論ステップの後半で使用される機能を選択、クリーンアップ、変換します。 結果は、MLで使用する準備ができているキュレートされたデータセットに使用される別の暗号化されたS3バケットに保存されます。

コンポーネント2:MLバッチ推論

GenworthのAdvancedAnalyticsチームは、すでにオンプレミスでMLを使用しています。 彼らは、事前にトレーニングされたモデルアーティファクトを再利用して、AWSに完全に自動化されたML推論パイプラインを実装したいと考えていました。 さらに、チームは、将来のMLの実験と実装のためのアーキテクチャパターンを確立し、制御された環境でアイデアをすばやく反復してテストできるようにしたいと考えていました。

PALMモデルを形成するXNUMXつの既存のMLアーティファクトは、Kerasを使用して階層型TensorFlowニューラルネットワークモデルとして実装されました。 モデルは、保険証券が保険金請求を提出する確率、保険金が支払われる確率の推定値、およびその可能性のある保険金請求の規模を予測しようとします。

各MLモデルは異なるデータでトレーニングされるため、入力データはそれに応じて標準化する必要があります。 個々のAWSGlue Pythonシェルジョブは、各モデルに固有のこのデータ標準化を実行します。 XNUMXつのMLモデルは、を使用して並行して呼び出されます SageMakerバッチ変換 ML推論を実行し、予測結果をモデル出力S3バケットに保存するジョブ(ステップ3、MLバッチ予測)。 SageMakerバッチ変換は、コンピューティングリソースを管理し、MLモデルをインストールし、Amazon S3とMLモデル間のデータ転送を処理し、データセット全体で推論を実行するために簡単にスケールアウトします。

コンポーネント3:データの後処理と公開

4つのMLモデルからの予測結果を使用する準備が整う前に、AWS GluePythonシェルジョブを使用して実行された一連の後処理ステップが必要です。 結果は集計およびスコアリングされ(ステップ5、PALMスコアリング)、適用されたビジネスルール(ステップ6、ビジネスルール)、生成されたファイル(ステップ7、ユーザーファイルの生成)、および検証されたファイル内のデータ(ステップ8、検証)これらのステップの出力をオンプレミスのOracleデータベースのテーブルに公開します(ステップXNUMX、結果の配信)。 ソリューションは使用します Amazon シンプル通知サービス (Amazon SNS)と Amazon CloudWatchイベント 新しいデータが利用可能になったとき、または問題が発生したときに電子メールでユーザーに通知します(ステップ10、アラートと通知)。

MLパイプラインのすべてのステップは、を使用して分離および調整されます AWSステップ関数、Genworthに実装の容易さ、足場の代わりにビジネスロジックに集中する能力、および将来の実験やその他のMLユースケースに必要な柔軟性を提供します。 次の図は、StepFunctionsステートマシンを使用したMLパイプラインオーケストレーションを示しています。

ビジネス上のメリットと次のステップ

Genworthは、最新のMLプラットフォームを構築することで、エンドツーエンドのML推論プロセスを自動化できました。このプロセスは、オンプレミスのOracleデータベースからデータを取り込み、ML操作を実行し、ビジネスがデータ主導の意思決定を行うのに役立ちます。 機械学習は、Genworthが損失軽減チームによって実行される高価値の手作業を簡素化するのに役立ちます。

このデータラボの取り組みは、組織内のチームが最新のMLおよび分析ツールを利用できるようにすることの重要性を示しています。 アイデアをいかに迅速にパイロットし、成功すれば生産できるかを目の当たりにすることは、驚くべき経験でした。

この投稿では、AWS DataAnalyticsとMLサービスを使用してサーバーレスMLパイプラインを大規模に構築することがいかに簡単であるかを示しました。 すでに説明したように、サーバーレスのマネージドETL処理ジョブにはAWS Glueを使用し、MLのすべてのニーズにSageMakerを使用できます。 あなたのビルドで最高です!

Genworth、Genworth Financial、およびGenworthのロゴは、Genworth Financial、Inc。の登録サービスマークであり、ライセンスに従って使用されます。


著者について

 リアム・ピアソン Genworth Mortgage Insurance Australia Limitedのデータサイエンティストであり、ビジネス内のさまざまなチームのMLモデルを構築および展開しています。 余暇には、リアムはライブ音楽を見たり、水泳を楽しんだり、真のミレニアル世代のように、砕いたアボカドを楽しんだりしています。

マリア・ソコロバ アマゾンウェブサービスのソリューションアーキテクトです。 彼女は、企業顧客がレガシーシステムを最新化するのを支援し、最も必要とされる場所に技術的な専門知識と変革のガイダンスを提供することにより、重要なプロジェクトを加速します。

Vamshiクリシュナエナボタラ AWSのデータラボソリューションアーキテクトです。 Vamshiは、お客様のユースケースで協力し、ビジネス上の問題を解決するソリューションを設計し、スケーラブルなプロトタイプの構築を支援します。 仕事以外では、VamshiはRC愛好家であり、RC機器(車、ボート、ドローン)を組み立てて遊んでおり、ガーデニングも楽しんでいます。

コインスマート。 BesteBitcoin-ヨーロッパのBörse
ソース:https://aws.amazon.com/blogs/machine-learning/how-genworth-built-a-serverless-ml-pipeline-on-aws-using-amazon-sagemaker-and-aws-glue/

スポット画像

最新のインテリジェンス

スポット画像

私たちとチャット

やあ! どんな御用でしょうか?