ゼファーネットのロゴ

Amazon DataZone が、AWS Glue データ カタログの AWS Lake Formation ハイブリッド アクセス モードとの統合を発表 |アマゾン ウェブ サービス

日付:

先週発表しましたが、 一般的な可用性 間の統合の アマゾンデータゾーン & AWSレイクフォーメーション ハイブリッドアクセスモード。この投稿では、この新機能が Amazon DataZone の使用方法を簡素化し、安全かつ管理されたデータの共有を可能にする方法について説明します。 AWSグルー データカタログ。また、データプロデューサーが最初に Lake Formation に登録することなく、Amazon DataZone を通じて AWS Glue テーブルを共有する方法についても詳しく説明します。

Amazon DataZone と Lake Formation ハイブリッド アクセス モードの統合の概要

Amazon DataZone は、組織内のデータ生成者と消費者の間でデータをカタログ化、検出、分析、共有、管理するためのフルマネージド型のデータ管理サービスです。 Amazon DataZone を使用すると、データプロデューサーは AWS Glue データ カタログなどのデータ ソースからのデータ資産をビジネス データ カタログに追加します。 Amazonレッドシフト。また、ビジネス コンテキストで資産を充実させ、データ利用者が理解しやすいようにします。データがカタログで利用可能になると、アナリストやデータ サイエンティストなどのデータ利用者は、サブスクリプションをリクエストすることでこのデータを検索し、アクセスできるようになります。リクエストが承認されると、Amazon DataZone は Lake Formation または Amazon Redshift でアクセス許可を管理することでデータへのアクセスを自動的にプロビジョニングし、データ利用者が次のようなツールを使用してデータのクエリを開始できるようにします。 アマゾンアテナ またはAmazon Redshift。

AWS Glue データカタログ内のデータへのアクセスを管理するために、Amazon DataZone は Lake Formation を使用します。以前は、Amazon DataZone を使用して AWS Glue データ カタログ内のデータへのアクセスを管理する場合は、最初にデータを Lake Formation にオンボードする必要がありました。 Amazon DataZone と Lake Formation ハイブリッド アクセス モードの統合により、最初にデータを Lake Formation にオンボードする必要がなくなり、Amazon DataZone の利用を開始する方法が簡素化されました。

湖の形成 ハイブリッドアクセスモード 既存の権限を維持しながら、Lake Formation を通じて AWS Glue データベースとテーブルのアクセス許可の管理を開始できます。 AWS IDおよびアクセス管理 これらのテーブルとデータベースに対する (IAM) 権限。 Lake Formation ハイブリッド アクセス モードは、同じ Data Catalog データベースおよびテーブルへの 2 つの権限パスウェイをサポートしています。

  • 最初の経路では、Lake Formation では特定のプリンシパル (オプトイン プリンシパル) を選択し、オプトインすることでデータベースとテーブルにアクセスするための Lake Formation 権限を付与できます。
  • 2 番目の経路では、他のすべてのプリンシパル (オプトイン プリンシパルとして追加されていない) が、IAM プリンシパル ポリシーを通じてこれらのリソースにアクセスできるようになります。 Amazon シンプル ストレージ サービス (Amazon S3) および AWS Glue アクション

Amazon DataZone と Lake Formation ハイブリッド アクセス モードの統合により、IAM ベースのポリシーを通じて管理されるテーブルが AWS Glue データ カタログにある場合、これらのテーブルを Lake Formation に登録せずに Amazon DataZone に直接公開できます。 Amazon DataZone は、ハイブリッド アクセス モードを使用してこれらのテーブルの場所を Lake Formation に登録します。これにより、既存の IAM アクセス許可を引き続き維持しながら、Lake Formation を通じて AWS Glue テーブルのアクセス許可を管理できるようになります。

Amazon DataZone を使用すると、ビジネス データ カタログ内のあらゆるタイプのアセットを公開できます。これらのアセットの一部については、Amazon DataZone がアクセス許可を自動的に管理できます。これらの資産は次のように呼ばれます 運用資産、Lake Formation が管理する Data Catalog テーブルと Amazon Redshift のテーブルとビューが含まれます。この統合の前に、Amazon DataZone が公開された Data Catalog テーブルを管理対象アセットとして扱うには、次の手順を完了する必要がありました。

  1. Data Catalog テーブルに関連付けられた Amazon S3 の場所を特定します。
  2. を使用して、ハイブリッド アクセス モードで Amazon S3 の場所を Lake Formation に登録します。 役割 適切な権限を持っています。
  3. テーブルのメタデータを Amazon DataZone ビジネス データ カタログに公開します。

次の図は、このワークフローを示しています。

Amazon DataZone と Lake Formation ハイブリッド アクセス モードの統合により、これらの手順を Amazon DataZone に委任することで、Amazon S3 の場所の登録や Lake Formation でのオプトイン プリンシパルの追加を心配することなく、AWS Glue テーブルを Amazon DataZone に簡単に公開できます。 。 AWS アカウントの管理者は、データの場所の登録設定を有効にすることができます。 DefaultDataLake Amazon DataZone コンソールのブループリント。データ所有者またはパブリッシャーは、追加のセットアップ手順を行わずに、(IAM アクセス許可によって管理される) AWS Glue テーブルを Amazon DataZone に公開できるようになりました。データコンシューマーがこのテーブルにサブスクライブすると、Amazon DataZone はテーブルの Amazon S3 の場所をハイブリッド アクセス モードで登録し、データ コンシューマーの IAM ロールをオプトイン プリンシパルとして追加し、そのテーブルに対するアクセス許可を管理することによって同じ IAM ロールへのアクセスを許可します。 Lake Formation を通るテーブル。これにより、既存のワークフローを中断することなく、テーブルに対する IAM アクセス許可が、新しく付与された Lake Formation アクセス許可と共存できるようになります。次の図は、このワークフローを示しています。

ソリューションの概要

この新しい機能を実証するために、財務チームが財務分析とレポート作成のために営業チームが所有するデータにアクセスしたいというサンプル顧客シナリオを使用します。営業チームには、チケット販売、人気のイベント、会場、季節に関する貴重な情報を含むデータセットを作成するパイプラインがあります。これをticitデータセットと呼びます。営業チームは、このデータセットを Amazon S3 に保存し、データ カタログのデータベースに登録します。このテーブルへのアクセスは現在、IAM ベースの権限によって管理されています。ただし、営業チームは、財務チームとの安全で管理されたデータ共有を促進するために、このテーブルを Amazon DataZone に公開したいと考えています。

このソリューションを構成する手順は次のとおりです。

  1. Amazon DataZone 管理者は、Amazon DataZone のデータレイクのロケーション登録設定を有効にして、Lake Formation ハイブリッド アクセス モードで AWS Glue テーブルの Amazon S3 のロケーションを自動的に登録します。
  2. Amazon DataZone でハイブリッド アクセス モードの統合が有効になった後、財務チームは販売データ資産へのサブスクリプションをリクエストします。アセットは管理対象アセットとして表示されます。これは、このアセットの Amazon S3 の場所が Lake Formation に登録されていない場合でも、Amazon DataZone がこのアセットへのアクセスを管理できることを意味します。
  3. 営業チームは、財務チームからのサブスクリプション リクエストについて通知を受けます。彼らはアクセス要求を検討して承認します。リクエストが承認されると、Amazon DataZone は Lake Formation でアクセス許可を管理することによってサブスクリプションリクエストを実行します。 Lake Formation ハイブリッド モードで、サブスクライブされたテーブルの Amazon S3 の場所を登録します。
  4. 財務チームは、財務レポートに必要な販売データセットにアクセスできるようになります。 DataZone 環境に移動し、サブスクライブしたデータセットに対して Athena を使用してクエリの実行を開始できます。

前提条件

この投稿の手順に従うには、AWS アカウントが必要です。アカウントをお持ちでない場合は、 一つ作る。さらに、アカウントで次のリソースを構成する必要があります。

  • S3バケット
  • AWS Glue データベースとクローラー
  • さまざまなペルソナとサービスの IAM ロール
  • Amazon DataZone ドメインとプロジェクト
  • Amazon DataZone 環境プロファイルと環境
  • Amazon DataZone データソース

これらのリソースがまだ構成されていない場合は、次をデプロイしてリソースを作成できます。 AWS CloudFormation スタック:

  1. 選択する 発射スタック CloudFormation テンプレートをデプロイします。
  2. テンプレートをデプロイする手順を完了し、すべての設定をデフォルトのままにします。
  3. 選択 AWS CloudFormationがIAMリソースを作成する可能性があることを認めます、を選択します 送信.

CloudFormation のデプロイが完了したら、Amazon DataZone ポータルにログインし、データ ソースの実行を手動でトリガーできます。これにより、新しいメタデータまたは変更されたメタデータがソースから取得され、インベントリ内の関連アセットが更新されます。このデータ ソースは、データ資産をカタログに自動的に公開するように構成されています。

  1. Amazon DataZone コンソールで、選択します ドメインを表示する.

CloudFormation のデプロイに使用したのと同じロールを使用してログインし、同じ AWS リージョンにいることを確認する必要があります。

  1. ドメインを探す blog_dz_domain、を選択します オープンデータポータル.
  2. 選択する すべてのプロジェクトを参照する 選択して セールスプロデューサープロジェクト.
  3. ソフトウェア設定ページで、下図のように 且つ タブを選択 データソース ナビゲーションペインに表示されます。
  4. 実行するデータ ソースを見つけて選択します。

これにより、データ ソースの詳細ページが開きます。

  1. の横にあるオプション メニュー (縦に並んだ 3 つのドット) を選択します。 tickit_datasource 選択して ラン.

Amazon DataZone がアセットのメタデータを更新すると、データ ソースのステータスが「実行中」に変わります。

Amazon DataZone でハイブリッド モード統合を有効にする

このステップでは、Amazon DataZone 管理者は、Amazon DataZone と Lake Formation ハイブリッド アクセス モードの統合を有効にするプロセスを実行します。次の手順を実行します。

  1. 別のブラウザタブで、Amazon DataZone コンソールを開きます。

CloudFormation テンプレートをデプロイしたリージョンと同じリージョンにいることを確認します。

  1. 選択する ドメインを表示する.
  2. AWS CloudFormation によって作成されたドメインを選択し、 blog_dz_domain.
  3. ドメインの詳細ページを下にスクロールし、 設計図 タブには何も表示されないことに注意してください。

A 青写真 Amazon DataZone で公開されるデータ資産で使用できる AWS ツールとサービスを定義します。の DefaultDataLake ブループリントは、CloudFormation スタック デプロイメントの一部として有効になります。このブループリントを使用すると、Athena を使用して AWS Glue テーブルを作成およびクエリできるようになります。独自の展開でこれを有効にする手順については、を参照してください。 Amazon DataZone ドメインを所有する AWS アカウントで組み込みブループリントを有効にする.

  1. 選択する DefaultDataLake 設計図。
  2. ソフトウェア設定ページで、下図のように プロビジョニング タブを選択 編集.
  3. 選択 Amazon DataZone が AWS Lake Formation ハイブリッド アクセス モードを使用して S3 ロケーションを登録できるようにする.

Amazon DataZone によって特定の Amazon S3 ロケーションが Lake Formation ハイブリッド アクセス モードに自動的に登録されないようにするには、特定の Amazon SXNUMX ロケーションを除外するオプションがあります。

  1. 選択する 変更を保存します.

要求アクセス

このステップでは、財務チームとして Amazon DataZone にログインし、販売データ資産を検索してサブスクライブします。次の手順を実行します。

  1. Amazon DataZone データポータルのブラウザタブに戻ります。
  2. プロジェクト名の横にあるドロップダウン メニューを選択し、 金融消費者プロジェクト.

このステップ以降、前のステップで公開されたデータ資産をサブスクライブしようとしている金融ユーザーの役割を果たします。

  1. 検索バーで、 sales データ資産。
  2. 選択する ニュースレター登録.

資産は管理資産として表示されます。これは、Amazon DataZone が Lake Formation でアクセス許可を管理することで、このデータ資産へのアクセスを財務チームのプロジェクトに許可できることを意味します。

  1. アクセス要求の理由を入力し、選択します ニュースレター登録.

アクセス要求を承認する

営業チームは、財務チームからアクセス要求が送信されたという通知を受け取ります。リクエストを承認するには、次の手順を実行します。

  1. プロジェクト名の横にあるドロップダウン メニューを選択し、 セールスプロデューサープロジェクト.

ここで、あなたは、販売データ資産の所有者および管理者である営業チームのペルソナを引き受けます。

  1. DataZone ポータルの右上隅にある通知アイコンを選択します。
  2. 選択する サブスクリプションリクエストが作成されました タスク。
  3. 財務チームに販売データ資産へのアクセスを許可し、選択します。 承認.

データを分析する

これで財務チームには販売データへのアクセスが許可され、このデータセットは Amazon DataZone 環境に追加されました。彼らは環境にアクセスし、Athena を使用して販売データセットと、現在所有している他のデータセットをクエリできます。次の手順を実行します。

  1. ドロップダウン メニューで、選択します 金融消費者プロジェクト.

プロジェクト概要画面の右側のペインには、使用可能なアクティブな環境のリストが表示されます。

  1. Amazon DataZone 環境を選択します finance_dz_environment.
  2. ナビゲーションペインの[ データ資産、選択する 購読.
  3. 現在の環境が販売データにアクセスできることを確認します。

データ資産が環境に自動的に追加されるまでに数分かかる場合があります。

  1. 新しいタブのアイコンを選択します クエリデータ.

新しいタブが開き、Athena クエリエディターが表示されます。

  1. データベース、選択する finance_consumer_db_tickitdb-<suffix>.

このデータベースには、サブスクライブしたデータ資産が含まれます。

  1. オプション メニュー (縦に 3 つの点) を選択し、 プレビュー表.

クリーンアップ

リソースをクリーンアップするには、次の手順を実行します。

  1. CloudFormation スタックのデプロイに使用した管理者ロールに戻ります。
  2. Amazon DataZone コンソールで、 プロジェクトを削除する この投稿で使用されています。これにより、データ資産や環境などのほとんどのプロジェクト関連オブジェクトが削除されます。
  3. AWS CloudFormation コンソールで、この投稿の冒頭でデプロイしたスタックを削除します。
  4. Amazon S3 コンソールで、Tickit データセットを含む S3 バケットを削除します。
  5. Lake Formation コンソールで、Amazon DataZone によって登録された Lake Formation 管理者を削除します。
  6. Lake Formation コンソールで、Amazon DataZone によって作成されたテーブルとデータベースを削除します。

まとめ

この投稿では、Amazon DataZone と Lake Formation ハイブリッド アクセス モードの統合により、AWS Glue データ カタログ内のデータのエンドツーエンドのガバナンスのために Amazon DataZone の使用を開始するプロセスがどのように簡素化されるかについて説明しました。この統合により、Amazon DataZone の使用を開始する前に、Lake Formation へのオンボーディングの手動手順をバイパスすることができます。

Amazon DataZone の使用を開始する方法の詳細については、を参照してください。 スタートガイド。 チェックアウトする YouTubeの再生リスト Amazon DataZone の最新のデモの一部と、利用可能な機能の簡単な説明をご覧ください。 Amazon DataZone の詳細については、「Amazon DataZone」を参照してください。 Amazon DataZone が顧客がデータの海で価値を見出すのをどのように支援するか.


著者について

ウトカルシュ・ミッタル は、AW​​S の Amazon DataZone のシニア テクニカル プロダクト マネージャーです。彼は、顧客のエンドツーエンドの分析プロセスを簡素化する革新的な製品の構築に情熱を注いでいます。テクノロジーの世界以外では、ウトカーシュは音楽を演奏するのが大好きで、ドラムが彼の最近の取り組みです。

プラヴィーン・クマール AWS のプリンシパル分析ソリューション アーキテクトであり、クラウド中心のサービスを使用した最新のデータおよび分析プラットフォームの設計、構築、実装に関する専門知識を持っています。彼の関心分野は、サーバーレス テクノロジー、最新のクラウド データ ウェアハウス、ストリーミング、および生成 AI アプリケーションです。

ポール・ヴィレナ AWS のシニア分析ソリューション アーキテクトであり、ビジネス価値を高めるための最新のデータおよび分析ソリューションの構築に関する専門知識を備えています。彼は顧客と協力して、クラウドの力を活用できるよう支援しています。彼の興味のある分野は、コードとしてのインフラストラクチャ、サーバーレス テクノロジ、Python でのコーディングです。

スポット画像

最新のインテリジェンス

スポット画像