Amazon SageMaker Data Wrangler と Amazon SageMaker Autopilot を使用した統合データの準備、モデルのトレーニング、デプロイメント – パート 2

データの品質と複雑さに応じて、データサイエンティストはデータ準備タスクに時間の 45 ～ 80% を費やします。これは、データの準備とクレンジングが実際のデータサイエンス作業から貴重な時間を奪うことを意味します。機械学習 (ML) モデルが準備済みデータでトレーニングされ、展開の準備が整った後、データサイエンティストは多くの場合、ML 推論用のデータを準備するために使用されるデータ変換を書き直す必要があります。これにより、生の形状とフォームからデータを推測してスコアリングできる有用なモデルをデプロイするのにかかる時間が長くなる可能性があります。

このシリーズのパート 1 では、Data Wrangler がどのように統一されたデータ準備とモデルトレーニング経験 Amazon SageMakerオートパイロット数回クリックするだけです。このシリーズの第 XNUMX 部と最終部では、組み込みと再利用の機能に焦点を当てます。 AmazonSageMakerデータラングラー欠損値インピューター、序数またはワンホットエンコーダーなどの変換と、ML 推論用のオートパイロットモデル。この機能により、推論時に Data Wrangler 特徴変換を再利用して生データの自動前処理が可能になり、トレーニング済みモデルを本番環境にデプロイするために必要な時間がさらに短縮されます。

ソリューションの概要

Data Wrangler は、ML 用のデータを集約して準備する時間を数週間から数分に短縮し、Autopilot はデータに基づいて最適な ML モデルを自動的に構築、トレーニング、調整します。 Autopilot を使用すると、データとモデルの完全な制御と可視性を引き続き維持できます。どちらのサービスも、ML 実践者の生産性を高め、価値実現までの時間を短縮することを目的として構築されています。

次の図は、ソリューションアーキテクチャを示しています。

前提条件

この投稿は XNUMX 部構成のシリーズの XNUMX 番目なので、よく読んで実装したことを確認してください。第1部続行する前に

モデルのエクスポートとトレーニング

パート 1 では、ML のデータ準備の後、Data Wrangler の統合エクスペリエンスを使用してデータセットを分析し、Autopilot で高品質の ML モデルを簡単に構築する方法について説明しました。

今回は、Autopilot 統合をもう一度使用して、同じトレーニングデータセットに対してモデルをトレーニングしますが、一括推論を実行する代わりに、アマゾンセージメーカー自動的に作成される推論エンドポイント。

自動エンドポイントデプロイによって提供される利便性に加えて、すべての Data Wrangler 機能変換を SageMaker シリアル推論パイプラインとしてデプロイする方法も示します。これにより、推論時に Data Wrangler 機能変換を再利用して、生データの自動前処理が可能になります。

この機能は現在、結合、グループ化、連結、および時系列変換を使用しない Data Wrangler フローでのみサポートされていることに注意してください。

新しいデータラングラーとオートパイロットの統合を使用して、データラングラーデータフローUIからモデルを直接トレーニングできます。

の横にあるプラス記号を選択します スケール値 ノード、および選択 列車モデル.
AmazonS3の場所、を指定します Amazon シンプルストレージサービス (Amazon S3) SageMaker がデータをエクスポートする場所。
デフォルトでルートバケットパスが提示されている場合、Data Wrangler はその下に一意のエクスポートサブディレクトリを作成します。必要でない限り、このデフォルトのルートパスを変更する必要はありません。Autopilot はこの場所を使用してモデルを自動的にトレーニングするため、 Data Wrangler フローの出力場所を定義してから、Autopilot トレーニングデータの入力場所を定義する必要がなくなります。これにより、よりシームレスなエクスペリエンスが実現します。
選択する エクスポートとトレーニング 変換されたデータを Amazon S3 にエクスポートします。

エクスポートが成功すると、 オートパイロット実験を作成する ページ、 入力データ S3 の場所は既に入力されています (前のページの結果から入力されたものです)。
実験名、名前を入力します (またはデフォルト名のままにします)。
ターゲット、選択する結果予測する列として。
選択する 次へ: トレーニング方法.

投稿で詳しく説明されているように AutoGluon を利用した新しいアンサンブルトレーニングモードにより、Amazon SageMaker Autopilot が最大 XNUMX 倍高速化、データセットのサイズに基づいて Autopilot に自動的にトレーニングモードを選択させるか、アンサンブルまたはハイパーパラメーター最適化 (HPO) のトレーニングモードを手動で選択することができます。

各オプションの詳細は次のとおりです。

自動応答オプション – Autopilot は、データセットのサイズに基づいて、アンサンブルモードまたは HPO モードのいずれかを自動的に選択します。データセットが 100 MB を超える場合、Autopilot は HPO を選択します。それ以外の場合は、アンサンブルを選択します。
アンサンブル – オートパイロットはオートグルオン複数の基本モデルをトレーニングし、モデルスタッキングを使用してそれらの予測を最適な予測モデルに結合するアンサンブル手法。
ハイパーパラメーターの最適化 – Autopilot は、ベイジアン最適化手法を使用してハイパーパラメーターを調整し、データセットでトレーニングジョブを実行することにより、モデルの最適なバージョンを見つけます。 HPO は、データセットに最も関連するアルゴリズムを選択し、モデルを調整するために最適な範囲のハイパーパラメーターを選択します。 自動応答オプション.

選択する 次へ: 展開と詳細設定 続行します。
ソフトウェア設定ページで、下図のように 展開と詳細設定 ページで、展開オプションを選択します。
展開オプションをより詳細に理解することが重要です。何を選択するかは、以前に Data Wrangler で行った変換が推論パイプラインに含まれるかどうかに影響します。
- Data Wrangler からの変換を使用して最適なモデルを自動デプロイ – このデプロイオプションを使用すると、Data Wrangler でデータを準備し、Autopilot を呼び出してモデルをトレーニングすると、トレーニング済みのモデルがすべての Data Wrangler 機能変換と共にデプロイされます。 SageMaker シリアル推論パイプライン. これにより、推論時に Data Wrangler 機能変換を再利用して、生データの自動前処理が可能になります。推論エンドポイントは、データの形式が Data Wrangler フローにインポートされたときと同じ形式であると想定していることに注意してください。
  推論変換ロジックがワークフローの別の場所に既に配置されている場合を除き、これを展開オプションとして選択することをお勧めします。
- Data Wrangler からの変換なしで最適なモデルを自動デプロイ – このオプションは、Data Wrangler 変換を使用しないリアルタイムエンドポイントをデプロイします。この場合、推論の前に、Data Wrangler フローで定義された変換をデータに適用する必要があります。
- 最適なモデルを自動デプロイしない – 推論エンドポイントをまったく作成したくない場合は、このオプションを使用する必要があります。ローカルで実行される一括推論など、後で使用するために最適なモデルを生成する場合に役立ちます。 (これは、で選択した展開オプションです。第1部このオプションを選択すると、(SageMaker SDK を介して Autopilot の最適な候補から) 作成されたモデルには、SageMaker シリアル推論パイプラインとして Data Wrangler 機能変換が含まれることに注意してください。
この投稿では、 Data Wrangler からの変換を使用して最適なモデルを自動デプロイ オプションを選択します。
展開オプション選択 Data Wrangler からの変換を使用して最適なモデルを自動デプロイ.
他の設定はデフォルトのままにします。
選択する 次へ: レビューと作成 続行します。
ソフトウェア設定ページで、下図のように 確認して作成する ページに、Autopilot 実験用に選択された設定の概要が表示されます。
選択する 実験を作成する モデル作成プロセスを開始します。

Autopilot ジョブの説明ページにリダイレクトされます。モデルは上に表示されます Models 生成されたタブ。プロセスが完了したことを確認するには、 仕事内容 タブで探します Completed の値 Status: フィールド。

からいつでもこのオートパイロットの仕事の説明ページに戻ることができます。 Amazon SageMakerスタジオ:

選択する 実験と試行 SageMakerリソース ドロップダウンメニュー。
作成した Autopilot ジョブの名前を選択します。
実験を選択 (右クリック) し、 AutoML ジョブの説明.

トレーニングと導入を見る

Autopilot が実験を完了すると、トレーニング結果を表示し、Autopilot ジョブの説明ページから最適なモデルを探索できます。

ラベルの付いたモデルを選択 (右クリック) 最高のモデル、選択して モデルの詳細で開く.

　性能タブには、混同行列、精度/再現率曲線の下の領域 (AUCPR)、受信者動作特性曲線 (ROC) の下の領域など、いくつかのモデル測定テストが表示されます。これらはモデルの全体的な検証パフォーマンスを示していますが、モデルが適切に一般化されるかどうかはわかりません。モデルがどれほど正確に予測を行っているかを確認するために、目に見えないテストデータの評価を実行する必要があります (この例では、個人が糖尿病になるかどうかを予測します)。

リアルタイムエンドポイントに対して推論を実行する

新しい SageMaker ノートブックを作成してリアルタイムの推論を実行し、モデルのパフォーマンスを評価します。次のコードをノートブックに入力して、検証のためにリアルタイムの推論を実行します。

import boto3

### Define required boto3 clients

sm_client = boto3.client(service_name="sagemaker")
runtime_sm_client = boto3.client(service_name="sagemaker-runtime")

### Define endpoint name

endpoint_name = ""

### Define input data

payload_str = '5,166.0,72.0,19.0,175.0,25.8,0.587,51'
payload = payload_str.encode()
response = runtime_sm_client.invoke_endpoint(
    EndpointName=endpoint_name,
    ContentType="text/csv",
    Body=payload,
)

response["Body"].read()

ノートブックで実行するコードをセットアップしたら、次の XNUMX つの変数を構成する必要があります。

endpoint_name
payload_str

endpoint_name の構成

endpoint_name デプロイによって自動作成されたリアルタイム推論エンドポイントの名前を表します。設定する前に、その名前を見つける必要があります。

選択する エンドポイント SageMakerリソース ドロップダウンメニュー。
作成した Autopilot ジョブの名前にランダムな文字列が追加されたエンドポイントの名前を見つけます。
実験を選択 (右クリック) し、 エンドポイントの説明.

　 エンドポイントの詳細 ページが表示されます。
完全なエンドポイント名を強調表示して、 Ctrlキー+ C クリップボードにコピーします。
この値を入力してください (必ず引用符で囲んでください)。 endpoint_name 推理ノートに。

payload_str を構成する

ノートブックにはデフォルトのペイロード文字列が付属しています payload_str エンドポイントのテストに使用できますが、テストデータセットの値など、さまざまな値を自由に試してみてください。

テストデータセットから値を取得するには、次の手順に従います。第1部テストデータセットを Amazon S3 にエクスポートします。次に、Amazon S3 コンソールで、それをダウンロードして、Amazon S3 からのファイルを使用する行を選択できます。

テストデータセットの各行には XNUMX つの列があり、最後の列が outcome 価値。このノートブックコードでは、単一のデータ行のみを使用するようにしてください (CSV ヘッダーは使用しないでください)。 payload_str. また、送信するのは payload_str 結果の値を削除した XNUMX つの列があります。

たとえば、テストデータセットファイルが次のコードのようになり、最初の行のリアルタイム推論を実行したいとします。

Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome 
10,115,0,0,0,35.3,0.134,29,0 
10,168,74,0,0,38.0,0.537,34,1 
1,103,30,38,83,43.3,0.183,33,0

設定します payload_str 〜へ 10,115,0,0,0,35.3,0.134,29. を省略したことに注意してください outcome の値 0 最後に。

データセットのターゲット値が最初または最後の値でない場合は、コンマ構造をそのままにして値を削除してください。たとえば、バーを予測していて、データセットが次のコードのようになっているとします。

foo,bar,foobar
85,17,20

この場合、設定します payload_str 〜へ 85,,20.

ノートブックが適切に構成された状態で実行されている場合 payload_str & endpoint_name の形式で CSV 応答が返されます。 outcome (0 または 1)、 confidence （0-1）。

清掃

このチュートリアルの完了後にチュートリアル関連の料金が発生しないようにするには、必ず Data Wrangler アプリをシャットダウンしてください (https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-shut-down.html)、および推論タスクの実行に使用されるすべてのノートブックインスタンス。 Auto Pilot デプロイによって作成された推論エンドポイントは、追加料金が発生しないように削除する必要があります。

まとめ

この投稿では、Data Wrangler と Autopilot を使用して、エンジニアリングを特徴とするデータ処理とモデル構築を統合する方法を示しました。上に構築第1部このシリーズでは、Data Wrangler のユーザーインターフェイスから直接 Autopilot を使用してモデルを簡単にトレーニング、調整、リアルタイムの推論エンドポイントにデプロイする方法を強調しました。自動エンドポイントデプロイによって提供される利便性に加えて、すべての Data Wrangler 機能変換を SageMaker シリアル推論パイプラインとしてデプロイし、生データの自動前処理を提供し、Data Wrangler 機能変換を再利用する方法をデモンストレーションしました。推論の時間。

Data WranglerやAutopilotなどのローコードおよびAutoMLソリューションは、堅牢なMLモデルを構築するための深いコーディング知識の必要性を排除します。データラングラーの使用を開始する今日、Autopilot を使用して ML モデルを構築することがいかに簡単かを体験してください。

著者について

ジェレミー・コーエン はAWSのソリューションアーキテクトであり、顧客が最先端のクラウドベースのソリューションを構築するのを支援しています。余暇には、ビーチを散歩したり、家族と一緒にベイエリアを探索したり、家の周りの物を修理したり、家の周りの物を壊したり、バーベキューを楽しんだりしています。

プラディープレディ は、SageMaker Autopilot、SageMaker AutomaticModelTunerを含むSageMakerLow/ NoCodeMLチームのシニアプロダクトマネージャーです。仕事以外では、Pradeepは、ラズベリーパイなどの手のひらサイズのコンピューターやその他のホームオートメーション技術を使って、読書、ランニング、オタクを楽しんでいます。

ジョン・ヘ博士 は、Amazon AI のシニアソフトウェア開発エンジニアであり、機械学習と分散コンピューティングに重点を置いています。彼は CMU で博士号を取得しています。

生成的データインテリジェンス

Amazon SageMaker Data Wrangler と Amazon SageMaker Autopilot を使用した統合データ準備、モデルトレーニング、デプロイ – パート 2

ソリューションの概要

前提条件

モデルのエクスポートとトレーニング

トレーニングと導入を見る

リアルタイムエンドポイントに対して推論を実行する

endpoint_name の構成

payload_str を構成する

清掃

まとめ

著者について

Inspect2go が公衆衛生向けの新しい食品検査ソフトウェアをリリース

クリックから現金へ: オンラインスロットの背後にある経済学

最新のインテリジェンス

新しいファンドは不利なスタートアップセクターをターゲットに

英国の広告費は36.6年に2023億ポンドに達すると報告

Stripe がイーサリアム、ポリゴン、ソラナで USDC による暗号通貨決済に再参入

CanSinoBIO CSO、同社の世界的に革新的な肺炎球菌ワクチンの最新結果を共有

自然言語処理入門 [無料 NLP コース]

ブラジルのネオバンク Nubank が、ビットコイン、イーサ、ソラナ用の新しい暗号ウォレット機能を導入

私たちとチャット

Amazon SageMaker Data Wrangler と Amazon SageMaker Autopilot を使用した統合データ準備、モデルトレーニング、デプロイ – パート 2

ソリューションの概要

前提条件

モデルのエクスポートとトレーニング

トレーニングと導入を見る

リアルタイム エンドポイントに対して推論を実行する

endpoint_name の構成

payload_str を構成する

清掃

まとめ

著者について

最新のインテリジェンス

私たちとチャット

リアルタイムエンドポイントに対して推論を実行する