ゼファーネットのロゴ

Amazon SageMaker Data Wrangler を使用した機械学習用に Snowflake からのデータを準備する

日付:

データの準備は、機械学習 (ML) の分野で依然として大きな課題です。 データ サイエンティストとエンジニアは、ソース データ ストアからデータを取得するクエリとコードを作成し、このデータを変換してモデルの開発とトレーニングで使用する機能を作成するクエリを作成する必要があります。 このデータ パイプライン開発作業のすべては、実際には ML モデルの構築に重点を置いているのではなく、モデルでデータを使用できるようにするために必要なデータ パイプラインの構築に重点を置いています。 AmazonSageMakerデータラングラー データ サイエンティストやエンジニアは、視覚的なインターフェイスを使用して、ML アプリケーション開発の初期段階でデータを準備することが容易になります。

Data Wrangler は、単一のビジュアル インターフェイスを使用して、データの準備と特徴エンジニアリングのプロセスを簡素化します。 Data Wrangler には 300 を超える組み込みのデータ変換が付属しており、コードを記述せずに機能を正規化、変換、および結合できます。 Data Wrangler のデータ ソースとして Snowflake を使用して、ML 用の Snowflake のデータを簡単に準備できるようになりました。

この投稿では、Snowflake によって提供された、金融サービス プロバイダーからのローンを表すシミュレートされたデータセットを使用します。 このデータセットには、個人に付与されたローンに関する貸し手のデータが含まれています。 Data Wrangler を使用して、後で ML モデルで使用できるようにデータを変換および準備します。最初に Data Wrangler でデータ フローを構築してから、 AmazonSageMakerパイプライン. まず、データ ソースとして Snowflake をセットアップする手順を説明し、次に Data Wrangler を使用してデータを探索して変換します。

前提条件

この投稿は、次のことを前提としています。

Data Wrangler の権限を設定する

このセクションでは、Data Wrangler のデータ ソースとして Snowflake を設定するために必要なアクセス許可について説明します。 このセクションでは、両方の手順を実行する必要があります。 AWSマネジメントコンソール とスノーフレーク。 各環境のユーザーには、AWS でポリシー、ロール、シークレットを作成するアクセス許可と、Snowflake でストレージ統合を作成する機能が必要です。

AWS リソースに対するすべてのアクセス許可は、ユーザーにアタッチされた IAM ロールを介して管理されます。 Amazon SageMakerスタジオ インスタンス。 Snowflake 固有のアクセス許可は、Snowflake 管理者によって管理されます。 彼らは、各 Snowflake ユーザーにきめ細かい権限と権限を付与できます。 これには、データベース、スキーマ、テーブル、ウェアハウス、およびストレージ統合オブジェクトが含まれます。 Data Wrangler の外部で正しい権限が設定されていることを確認してください。

AWS アクセス要件

Snowflake では、出力 S3 バケットとプレフィックスに次のアクセス許可が必要で、プレフィックス内のオブジェクトにアクセスできます。

  • s3:GetObject
  • s3:GetObjectVersion
  • s3:ListBucket

バケット ポリシーを追加して、Snowflake が HTTPS 経由でのみバケットと通信するようにすることができます。 手順については、を参照してください。 AWS Config ルール s3-bucket-ssl-requests-only に準拠するには、どの S3 バケットポリシーを使用する必要がありますか?

Amazon S3 アクセスを許可する IAM ポリシーを作成する

このセクションでは、Snowflakeが選択した S3 バケットのデータにアクセスするために必要なポリシーの作成について説明します。 Data Wrangler 出力に使用する予定の S3 バケットへのアクセスを許可するポリシーとロールがすでにある場合は、このセクションと次のセクションをスキップして、Snowflake でストレージ統合の作成を開始できます。

  1. IAMコンソールで、 Policies ナビゲーションペインに表示されます。
  2. 選択する ポリシーを作成する.
  3. ソフトウェア設定ページで、下図のように JSONの タブで、次の JSON スニペットを入力し、プレースホルダーをバケットとプレフィックス名に置き換えます。
# Example policy for S3 write access
# This needs to be updated
# Be sure to remove the angle brackets around <bucket> and <prefix> # Then replace with your own bucket and prefix names (eg: MY-SAGEMAKER-BUCKET/MY-PREFIX)
{ "Version":"2012-10-17", "Statement":[ { "Effect":"Allow", "Action": [ "s3:PutObject", "s3:GetObject", "s3:GetObjectVersion", "s3:DeleteObject", "s3:DeleteObjectVersion" ], "Resource":["arn:aws:s3:::<bucket>/<prefix>/*"] }, { "Effect":"Allow", "Action": [ "s3:ListBucket" ], "Resource":["arn:aws:s3:::<bucket>"], "Condition": { "StringLike": { "s3:prefix": ["<prefix>/*"] } } } ]
}

  1. 選択する 次:タグ.
  2. 選択する 次:レビュー.
  3. 名前 、ポリシーの名前を入力します (たとえば、 snowflake_datawrangler_s3_access).
  4. 選択する ポリシーを作成する.

IAMロールを作成する

このセクションでは、IAM ロールを作成し、作成したポリシーにアタッチします。

  1. IAMコンソールで、 役割 ナビゲーションペインに表示されます。
  2. 選択する 役割を作成する.
  3. 選択 別のAWSアカウント 信頼できるエンティティ タイプとして
  4. アカウントID フィールドに、自分の AWS アカウント ID を入力します。

信頼関係を変更し、後で Snowflake へのアクセスを許可します。

  1. 現在地に最も近い 外部 ID が必要
  2. 自分のアカウント ID などのダミー ID を入力します。

その後、信頼関係を変更し、Snowflake ステージの外部 ID を指定します。 AWS リソース (Amazon S3 など) へのアクセスをサードパーティ (Snowflake) に許可するには、外部 ID が必要です。

  1. 選択する Next.
  2. S3 バケット用に以前に作成したポリシーを見つけて、このポリシーを選択します。
  3. 選択する Next.
  4. ロールの名前と説明を入力してから、 役割を作成する.

これで、IAM ロール用に IAM ポリシーが作成され、ポリシーがロールにアタッチされました。

  1. ロール概要ページにあるロール ARN 値を記録します。

次のステップでは、このロールを参照する Snowflake 統合を作成します。

Snowflake でストレージ統合を作成する

Snowflake のストレージ統合により、外部クラウド ストレージ用に生成された IAM エンティティが、Amazon S3 の許可またはブロックされた場所のオプション セットとともに保存されます。 組織の AWS 管理者は、生成された IAM エンティティにストレージの場所に対するアクセス許可を付与します。 この機能を使用すると、ユーザーはステージの作成時、またはデータのロードまたはアンロード時に資格情報を提供する必要がありません。

次のコードを使用してストレージ統合を作成します。

CREATE STORAGE INTEGRATION IF NOT EXISTS SAGEMAKER_DATAWRANGLER_INTEGRATION TYPE = EXTERNAL_STAGE STORAGE_PROVIDER = S3 STORAGE_AWS_ROLE_ARN = '<iam_role_arn>' ENABLED = true STORAGE_ALLOWED_LOCATIONS = ('s3://<your_s3_bucket>/<optional_path>/')

Snowflake アカウントの IAM ユーザーを取得する

以下を実行します DESCRIBE INTEGRATION Snowflake アカウント用に自動的に作成された IAM ユーザーの ARN を取得するコマンド:

DESC INTEGRATION SAGEMAKER_DATAWRANGLER_INTEGRATION;

出力から次の値を記録します。

  • STORAGE_AWS_IAM_USER_ARN – Snowflake アカウント用に作成された IAM ユーザー
  • STORAGE_AWS_EXTERNAL_ID– 信頼関係を確立するために必要な外部 ID

IAM ロールの信頼ポリシーを更新する

次に、信頼ポリシーを更新します。

  1. IAMコンソールで、 役割 ナビゲーションペインに表示されます。
  2. 作成した役割を選択します。
  3. ソフトウェア設定ページで、下図のように 信頼関係 タブを選択 信頼関係を編集する.
  4. 次のコードに示すように、ポリシー ドキュメントを変更します。 DESC STORAGE INTEGRATION 前のステップで記録した出力値:
{ "Version": "2012-10-17", "Statement": [ { "Sid": "", "Effect": "Allow", "Principal": { "AWS": "<snowflake_user_arn>" }, "Action": "sts:AssumeRole", "Condition": { "StringEquals": { "sts:ExternalId": "<snowflake_external_id>" } } } ]
}

  1. 選択する 信頼ポリシーの更新.

Snowflake で外部ステージを作成する

自分のアカウントの S3 バケットから Snowflake にデータをロードするために、Snowflake 内の外部ステージを使用します。 このステップでは、作成したストレージ統合を参照する外部 (Amazon S3) ステージを作成します。 詳細については、次を参照してください。 S3 ステージの作成.

これには、 CREATE_STAGE スキーマおよび USAGE ストレージ統合の特権。 次のステップのコードに示すように、これらの権限をロールに付与できます。

を使用してステージを作成します。 CREATE_STAGE 外部ステージと S3 バケットとプレフィックスのプレースホルダーを含むコマンド。 ステージは、次の名前の名前付きファイル形式オブジェクトも参照します。 my_csv_format:

grant create stage on schema public to role <iam_role>;
grant usage on integration SAGEMAKE_DATAWRANGLER_INTEGRATION to role <iam_role_arn>;
create stage <external_stage> storage_integration = SAGEMAKE_DATAWRANGLER_INTEGRATION url = '<s3_bucket>/<prefix>' file_format = my_csv_format;

Snowflake 資格情報のシークレットを作成する (オプション)

Data Wrangler を使用すると、ユーザーは AWSシークレットマネージャー シークレットまたは Snowflake にアクセスするための Snowflake アカウント名、ユーザー名、およびパスワード。 Snowflake アカウント名、ユーザー名、およびパスワード オプションを使用する場合は、データ ソースの追加について説明する次のセクションにスキップしてください。 デフォルトでは、XNUMX 番目のオプションを使用する場合、Data Wrangler はユーザーに代わって Secrets Manager シークレットを作成します。

Secrets Manager シークレットを手動で作成するには、次の手順を実行します。

  1. Secrets Managerコンソールで、 新しい秘密を保存する.
  2. シークレットタイプを選択選択する その他の種類の秘密.
  3. シークレットの詳細をキーと値のペアとして指定します。

キーの名前は大文字と小文字が区別され、小文字にする必要があります。 これらのいずれかを間違って入力すると、Data Wrangler はエラーを発生させます。

必要に応じて、プレーンテキスト オプションを使用して、シークレット値を JSON として入力できます。

{ "username": "<snowflake username>", "password": "<snowflake password>", "accountid": "<snowflake account id>"
}

  1. 選択する Next.
  2. 秘密の名前、プレフィックスを追加します AmazonSageMaker (たとえば、私たちの秘密は AmazonSageMaker-DataWranglerSnowflakeCreds).
  3. タグ セクション、キーでタグを追加します SageMaker と価値 true.

  1. 選択する Next.
  2. 残りのフィールドはオプションです。 選ぶ Next 選択できるようになるまで オンラインショップ 秘密を保存します。

シークレットを保存すると、Secrets Manager コンソールに戻ります。

  1. 作成したシークレットを選択し、シークレット ARN を取得します。
  2. 後で Data Wrangler データ ソースを作成するときに使用するために、これを任意のテキスト エディタに保存します。

Data Wrangler でデータ ソースを設定する

このセクションでは、Data Wrangler のデータ ソースとして Snowflake を設定する方法について説明します。 この投稿は、SageMaker、Studio のインスタンス、および Studio のユーザーにアクセスできることを前提としています。 前提条件の詳細については、を参照してください。 データラングラーの使用を開始する.

新しいデータ フローを作成する

データ フローを作成するには、次の手順を実行します。

  1. SageMakerコンソールで、 Amazon SageMakerスタジオ ナビゲーションペインに表示されます。
  2. 選択する オープンスタジオ.
  3. ランチャー、選択する 新しいデータフロー.

または、 File ドロップダウン、選択 新作、を選択します データラングラーの流れ.

新しいフローの作成には数分かかる場合があります。 フローが作成された後、 インポート日 ページで見やすくするために変数を解析したりすることができます。

Data Wrangler のデータ ソースとして Snowflake を追加する

次に、データ ソースとして Snowflake を追加します。

  1. ソフトウェア設定ページで、下図のように データソースを追加する メニュー、選択 スノーフレーク.

  1. Snowflake 接続の詳細を追加します。

Data Wrangler は、HTTPS を使用して Snowflake に接続します。

  1. Secrets Manager シークレットを手動で作成した場合は、 認証方法 ドロップダウンメニューから選択 RNA.

  1. 選択する お問合せ.

インポート メニューにリダイレクトされます。

クエリを実行する

Snowflake がデータ ソースとして設定されたので、Data Wrangler クエリ エディターから直接 Snowflake のデータにアクセスできます。 エディターで作成するクエリは、Data Wrangler がデータフローを開始するために Snowflake からデータをインポートするために使用するものです。

  1. ドロップダウン メニューで、クエリに使用するデータ ウェアハウス、データベース、スキーマを選択します。

この投稿では、データセットはデータベースにあります FIN_LOANS、スキーマは DEV、そしてテーブルは LOAN_INT_HV. 私のデータ ウェアハウスの名前は MOONMAXW_DEV_WH; 設定に応じて、これらは異なる可能性があります。

または、クエリ エディターでデータセットへのフル パスを指定できます。 ドロップダウン メニューでデータベースとスキーマを選択していることを確認してください。

  1. クエリ エディターでクエリを入力し、結果をプレビューします。

この投稿では、1,000 行からすべての列を取得します。

  1. 選択する インポート.

  1. プロンプトが表示されたら、データセット名を入力します (この投稿では、 snowflake_loan_int_hv).
  2. 選択する Add.

あなたは 準備 このページでは、データに変換と分析を追加できます。

データに変換を追加する

Data Wrangler には、300 を超える組み込みの変換があります。 このセクションでは、これらの変換のいくつかを使用して、ML モデルのデータセットを準備します。

Data Wrangler フロー ページで、 準備 タブ。 投稿の手順に従っている場合は、データセットを追加した後に自動的にここに移動します。

データ型の変換

実行する最初のステップは、各列の取り込み時に正しいデータ型が推測されたことを確認することです。

  1. の隣に データ型、プラス記号を選択します。
  2. 選択する データ型を編集する.

列に目を通すと、 MNTHS_SINCE_LAST_DELINQ & MNTHS_SINCE_LAST_RECORD ほとんどの場合、文字列ではなく数値型として表されます。

  1. 右側のメニューで、見つかるまで下にスクロールします MNTHS_SINCE_LAST_DELINQ & MNTHS_SINCE_LAST_RECORD.
  2. ドロップダウンメニューで、 フロート.

データセットを調べると、残りの列が正しく推定されているように見えることを確認できます。

  1. 選択する プレビュー 変更をプレビューします。
  2. 選択する 申し込む 変更を適用します。
  3. 選択する データフローに戻る フローの現在の状態を表示します。

列を管理する

使用しているデータセットには、将来のモデルにとって有益ではない可能性のある列がいくつか含まれているため、変換プロセスは、役に立たない列を削除することから始めます。

  1. の隣に データ型、プラス記号を選択します。
  2. 選択する 変形を加える.

変換コンソールが開きます。 ここで、データセットをプレビューし、使用可能な変換から選択して、変換をプレビューできます。

データを見ると、フィールドが EMP_TITLE, URL, DESCRIPTION, TITLE 私たちのユースケースではモデルに価値を提供しない可能性が高いため、それらを削除します。

  1. ソフトウェア設定ページで、下図のように 最適化の適用 メニュー、選択 列を管理する.
  2. ソフトウェア設定ページで、下図のように 最適化の適用 ドロップダウンメニュー、そのまま ドロップカラム
  3. 入力します EMP_TITLE for ドロップする列.
  4. 選択する プレビュー 変更を確認します。
  5. 選択する Add ステップを追加します。
  6. 追加したステップと前のステップを表示するには、 前の手順 最適化の適用

  1. 残りの列 (URL, DESCRIPTION, TITLE).
  2. 選択する データフローに戻る フローの現在の状態を表示します。

データ フロー ビューでは、フローのこのノードに XNUMX つのステップがあり、フローのこの部分のために削除する XNUMX つの列を表していることがわかります。

フォーマット文字列

次に、後で使用しやすいようにフォーマットできる文字列データの列を探します。 データセットを見ると、次のことがわかります。 INT_RATE 将来のモデルではフロートとして役立つかもしれませんが、末尾の文字があります %. 別の組み込み変換 (型として解析) を使用してこれを float に変換する前に、末尾の文字を削除する必要があります。

  1. の隣に ステップ、プラス記号を選択します。
  2. 選択する 変換を追加.
  3. 選択する フォーマット文字列.
  4. ソフトウェア設定ページで、下図のように 最適化の適用 ドロップダウン、選択 記号を削除.
  5. ソフトウェア設定ページで、下図のように 入力列 ドロップダウンで、 INT_RATE コラム。
  6. シンボル、 入る %.
  7. オプションで、 出力 フィールドに、このデータが書き込まれる列の名前を入力します。

この投稿では、元の列を保持し、出力列を INT_RATE_PERCENTAGE このデータの将来のユーザーに、この列がパーセンテージで表した金利であることを示します。 後で、これを float に変換します。

  1. 選択する プレビュー.

Data Wrangler が新しい列を追加すると、その列は自動的に右端の列として追加されます。

  1. 変更を確認して正確性を確認してください。
  2. 選択する Add.

列を型として解析する

前の例を続けて、私たちはそれを特定しました INT_RATE_PERCENTAGE float 型に変換する必要があります。

  1. の隣に ステップ、プラス記号を選択します。
  2. 選択する 変換を追加.
  3. 選択する 列を型として解析.
  4. ソフトウェア設定ページで、下図のように コラム ドロップダウン、選択 INT_RATE_PERCENTAGE.

  フィールドは自動的に入力されます。

  1. ソフトウェア設定ページで、下図のように 〜へ ドロップダウン、選択 フロート.
  2. 選択する プレビュー.
  3. 選択する Add.
  4. 選択する データフローに戻る.

ご覧のとおり、フローのこの部分には XNUMX つのステップがあり、XNUMX つは削除される列を表し、XNUMX つは文字列のフォーマットを表し、もう XNUMX つは型としての解析列を表します。

カテゴリ データをエンコードする

次に、データセット内のカテゴリ データを探します。 Data Wrangler には、序数エンコーディングとワンホット エンコーディングの両方を使用してカテゴリ データをエンコードする機能が組み込まれています。 データセットを見ると、 TERM, HOME_OWNERSHIP, PURPOSE 列はすべて本質的にカテゴリカルであるように見えます。

  1. の隣に ステップ、プラス記号を選択します。
  2. 選択する 変換を追加.

リストの最初の列 TERM 60 か月と 36 か月の XNUMX つの可能な値があります。 おそらく、私たちの将来のモデルは、これらの値をワンホット エンコードして新しい列に配置することで恩恵を受けるでしょう。

  1. 選択する カテゴリをエンコードする.
  2. ソフトウェア設定ページで、下図のように 最適化の適用 ドロップダウン、選択 ワンホットエンコード.
  3. 入力 の項目に表示されます。、選択する TERM.
  4. ソフトウェア設定ページで、下図のように 出力スタイル ドロップダウン、選択 コラム.
  5. 他のすべてのフィールドとチェック ボックスはそのままにします。
  6. 選択する プレビュー.

これで XNUMX つの列が表示されます。 TERM_36 months & TERM_60 months、の対応する値を表すためにワンホット エンコードされます。 TERM コラム。

  1. 選択する Add.

  HOME_OWNERSHIP 列には XNUMX つの可能な値があります。 RENT, MORTGAGE, OWN, other.

  1. 前の手順を繰り返して、これらの値にワンホット エンコーディング アプローチを適用します。

最後に、 PURPOSE 列にはいくつかの可能な値があります。 このデータの場合、ワンホット エンコーディング アプローチも使用しますが、出力を列ではなくベクトルに設定します。

  1. ソフトウェア設定ページで、下図のように 最適化の適用 ドロップダウン、選択 ワンホットエンコード.
  2. 入力 の項目に表示されます。、選択する 目的.
  3. ソフトウェア設定ページで、下図のように 出力スタイル ドロップダウン、選択 ベクトル.
  4. 出力列、この列を PURPOSE_VCTR.

これでオリジナルが保たれる PURPOSE 列、後で使用する場合。

  1. 他のすべてのフィールドとチェック ボックスはそのままにします。
  2. 選択する プレビュー.

  1. 選択する Add.
  2. 選択する データフローに戻る.

このフローでは XNUMX つの異なる変換を確認できますが、まだ XNUMX 行のコードも記述していません。

外れ値を処理する

このフローの最後のステップとして、データセット内の外れ値を処理します。 データ探索プロセスの一環として、分析を作成できます (次のセクションで説明します)。 次の散布図の例では、散布図のデータセットを観察することで、年収、金利、雇用期間の関係を調べて洞察を得ることができるかどうかを調べました。 グラフには、ローンの受取人がいます INT_RATE_PERCENTAGE X軸上で、 ANNUAL_INC Y 軸上にあり、データは次のように色分けされています EMP_LENGTH. データセットには、後でモデルの結果を歪める可能性のある外れ値がいくつかあります。 これに対処するために、外れ値を処理するために Data Wrangler の組み込み変換を使用します。

  1. の隣に ステップ、プラス記号を選択します。
  2. 選択する 変換を追加.
  3. 選択する 外れ値を処理する.
  4. ソフトウェア設定ページで、下図のように 最適化の適用 ドロップダウン、選択 標準偏差の数値外れ値.
  5. 入力列、 入る ANNUAL_INC.
  6. 出力列、 入る ANNUAL_INC_NO_OUTLIERS.

これはオプションですが、列が後の消費者のために変換されたことを通知することをお勧めします。

  1. ソフトウェア設定ページで、下図のように 修正方法 ドロップダウン、残す クリップ

このオプションは、次に設定する対応する外れ値検出範囲に値を自動的にクリップします。

  1. 標準偏差、デフォルトの 4 のままにして開始します。

これにより、平均値の XNUMX 標準偏差以内の値を有効と見なすことができます (したがって、クリップされません)。 この境界の外にある値は切り取られます。

  1. 選択する プレビュー.
  2. 選択する Add.

出力にはオブジェクト タイプが含まれます。 データセットと視覚化内で有効にするには、これを float に変換する必要があります。

  1. 列を型として解析するときと同じ手順に従います。今回は、 ANNUAL_INC_NO_OUTLIERS 列。
  2. 選択する データフローに戻る フローの現在の状態を表示します。

データへの分析の追加

このセクションでは、データセットに分析を追加する手順を説明します。 ここでは視覚化に焦点を当てていますが、ターゲット漏洩の検出、バイアス レポートの生成、または Altairライブラリ.

散布図

散布図を作成するには、次の手順を実行します。

  1. データ フロー ページの横にある ステップ、プラス記号を選択します。
  2. 選択する 分析を追加.
  3. 分析タイプ¸選ぶ 散布図.
  4. 前の例を使用して、この分析に名前を付けます EmpLengthAnnualIncIntRate.
  5. X軸、 入る INT_RATE_PERCENTAGE.
  6. Y軸、 入る ANNUAL_INC_NO_OUTLIERS.
  7. カラーバイ、 入る EMP_LENGTH.
  8. 選択する プレビュー.

次のスクリーンショットは、散布図を示しています。

これを、異常が削除される前の古いバージョンと比較できます。

これまでのところ、これは良さそうですが、ファセットを追加して、 Grade 独自のグラフに列を追加します。

  1. ファセット、選択する GRADE.
  2. 選択する プレビュー.

次のスクリーンショットは、表示のためにトリミングされています。 Y 軸は引き続き ANNUAL_INC. ファセット プロットの場合、これは一番下のプロットに表示されます。

  1. 選択する Save 分析を保存します。

データ フローをエクスポートする

最後に、このデータ フロー全体をパイプラインとしてエクスポートし、コードが事前入力された Jupyter ノートブックを作成します。 Data Wrangler を使用すると、データを SageMaker 処理ジョブまたは SageMaker フィーチャストアとして Jupyter ノートブックにエクスポートしたり、Python コードに直接エクスポートしたりすることもできます。

  1. データ フロー コンソールで、 輸出
  2. エクスポートするステップを選択します。 このユースケースでは、ステップを表す各ボックスを選択します。

  1. 選択する エクスポートステップ、を選択します パイプライン.

事前入力済みの Jupyter ノートブックが自動的に読み込まれて開き、データ フロー用に生成されたすべてのステップとコードが表示されます。 次のスクリーンショットは、データ ソースを定義する入力セクションを示しています。

クリーンアップ

Data Wrangler での作業が完了したら、 Data Wrangler インスタンスをシャットダウンします 追加料金の発生を避けるため。

まとめ

この投稿では、Data Wrangler のデータ ソースとして Snowflake を設定し、データセットに変換と分析を追加してから、Jupyter Notebook でさらに使用するためにデータ フローにエクスポートする方法について説明しました。 Data Wrangler の組み込み分析機能を使用してデータセットを視覚化した後、データ フローをさらに改善しました。 最も注目すべきは、コードを XNUMX 行も書かずにデータ準備パイプラインを構築したことです。

Data Wrangler の使用を開始するには、次を参照してください。 Amazon SageMaker Data Wrangler で ML データを準備する、およびデータラングラーの最新情報を参照してください 製品ページ.

Data Wrangler を使用すると、データを簡単に取り込み、探索的データ分析、特徴選択、特徴エンジニアリングなどのデータ準備タスクを実行できます。 データ準備に関するこの投稿では、Data Wrangler の機能の一部のみを取り上げました。 Data Wrangler を使用すると、簡単で直感的なユーザー インターフェイスを使用して、特徴の重要性、ターゲットの漏れ、モデルの説明可能性などのより高度なデータ分析を行うことができます。


著者について

マクスウェル・ムーン AWS のシニアソリューションアーキテクトであり、独立系ソフトウェアベンダー (ISV) と協力して、AWS でアプリケーションを設計およびスケーリングしています。 仕事以外では、マクスウェルは XNUMX 匹の猫の父親であり、ウォルバーハンプトン ワンダラーズ フットボール クラブの熱心なサポーターであり、できるだけ多くの時間を音楽に費やすようにしています。

ボスコ・アルバカーキ AWS のシニア パートナー ソリューション アーキテクトであり、エンタープライズ データベース ベンダーやクラウド プロバイダーからのデータベースおよび分析製品を扱ってきた 20 年以上の経験があり、大規模なテクノロジー企業がデータ分析ソリューションを設計するのを支援してきました。データ分析プラットフォームとデータ製品の実装。

コインスマート。 BesteBitcoin-ヨーロッパのBörse
ソース: https://aws.amazon.com/blogs/machine-learning/prepare-data-from-snowflake-for-machine-learning-with-amazon-sagemaker-data-wrangler/

スポット画像

最新のインテリジェンス

スポット画像