ゼファーネットのロゴ

AWS Lake Formation 2023 年の振り返り |アマゾン ウェブ サービス

日付:

AWSレイクフォーメーションAWSグルー データ カタログは、上に構築されたデータ レイクのデータ ガバナンス ソリューションの不可欠な部分を形成します。 Amazon シンプル ストレージ サービス (Amazon S3) と複数の AWS 分析サービスが統合されています。で 2022では、これらのサービスに対して行った機能強化について話しました。私たちは引き続きお客様の話に耳を傾け、お客様の考えを製品に反映するために逆算して作業を進めます。この投稿では、お客様のデータ ガバナンスを改善および簡素化するための 2023 年の熱心な取り組みの結果を要約できることをうれしく思います。

毎年恒例となっているように、AWS re:Invent 2023 中に新しい機能と機能を発表しました。以下は、Lake Formation と Data Catalog の機能を紹介する re:Invent 2023 の講演です。

新しい機能を 4 つのカテゴリに分類します。

  • 発見して保護する
  • データ共有で接続する
  • スケーリングと最適化
  • 監査と監視

2023 年に導入される新機能についてさらに詳しく説明しましょう。

発見して保護する

Lake Formation とデータ カタログを基礎的な構成要素として使用して、 打ち上げ アマゾンデータゾーン DataZone は、AWS、オンプレミス、およびサードパーティのソース全体に保存されているデータのカタログ化、検出、共有、管理をより迅速かつ簡単に行うことができるデータ管理サービスです。 DataZone のパブリッシュおよびサブスクリプションのワークフローは、組織内のさまざまな役割間のコラボレーションを強化し、データからビジネスの洞察を引き出す時間を短縮します。 AI を活用したアシスタントを使用して Data Catalog の技術メタデータを DataZone のビジネス メタデータに拡張し、より簡単に検出できるようにすることができます。 DataZone は、DataZone プロジェクト内の共有データの権限を自動的に管理します。 DataZone の詳細については、以下を参照してください。 ユーザーガイド. DataZone のビアンベニュー!

AWSGlueクローラー データを分類して生データの形式、スキーマ、関連プロパティを決定し、データをテーブルまたはパーティションにグループ化し、メタデータをデータ カタログに書き込みます。 2023 年に、AWS Glue クローラーに対するいくつかのアップデートをリリースしました。をもたらす機能を追加しました。 クローラーの JDBC ドライバーのカスタム バージョン データ ソースからデータ スキーマを抽出し、データ カタログにデータを入力します。パーティションの取得を最適化し、クエリのパフォーマンスを向上させるために、クローラーの機能を追加しました。 パーティションインデックスを自動的に追加する 新しく発見されたテーブルの場合。私達も Lake Formation と統合されたクローラー、S3 データレイクのアカウント内およびクロスアカウントのクロールに対する一元化されたアクセス許可をサポートします。これらは、クローラーを使用したメタデータの検出を簡素化する、非常に要望の高い改良点です。 クローラーたちよ、敬礼!

また、Linux Foundation Delta Lake のようなオープン テーブル フォーマット (OTF) の使用が大幅に増加しています。 アパッチ氷山, アパッチ・フディ。これらの一般的な OTF をサポートするために、これら 3 つのテーブル形式をデータ カタログにネイティブにクロールするサポートを追加しました。さらに、次のような他の AWS 分析サービスとも連携しました。 アマゾンEMR、Lake Formation のきめ細かい権限を有効にします。 3 つのオープンなテーブル形式すべて。ぜひ調べてみることをお勧めします Lake Formation のどの機能が OTF テーブルでサポートされているか. ビアン・インテグレ!

データ ソースとデータ型は時間の経過とともに増加するため、遅かれ早かれデータ レイク内にネストされたデータ型が存在することになります。これらのデータセットを平坦化することなくデータ ガバナンスを実現するために、Lake Formation はきめ細かいアクセス制御のサポートを追加しました。 ネストされたデータ型と列。また、Lake Formation の実行中のきめ細かいアクセス制御のサポートも追加しました。 EC2 の Amazon EMR での Apache Hive ジョブ と上 アマゾンEMRスタジオ Amazon EMR サーバーレス、Lake Formation によるきめ細かいアクセス制御が可能になりました。 プレビューで利用可能. コネテ・レ・ポイント!

AWS では、お客様のエクスペリエンスを理解するためにお客様と緊密に連携しています。 Lake Formation へのオンボーディングは、 AWS IDおよびアクセス管理 Amazon S3 および AWS Glue データカタログの (IAM) ベースのアクセス許可が合理化される可能性があります。私たちは、お客様のユースケースではデータ ガバナンスにおいてより柔軟な対応が必要であることを認識しました。とともに ハイブリッドアクセスモード Lake Formation では、他のユーザーやワークロードを中断することなく、一部のユーザーとデータベースに対する Lake Formation 権限の選択的な追加を導入しました。ハイブリッド モードでカタログ テーブルを定義し、Lake Formation を使用してデータ アナリストやデータ サイエンティストなどの新しいユーザーにアクセスを許可すると同時に、運用環境の抽出、変換、ロード (ETL) パイプラインが既存の IAM ベースのアクセス許可を使用し続けることができます。 ダブル勝利!

アイデンティティ管理について話しましょう。 IAM プリンシパルを使用できます。 アマゾンクイックサイト ユーザーとグループ、外部アカウントと外部アカウントの IAM プリンシパルを使用して、Lake Formation の Data Catalog リソースへのアクセスを許可します。コーポレートアイデンティティについてはどうですか?複数の IAM ロールを作成および維持し、それらをさまざまな企業 ID にマッピングする必要がありますか?テーブルにアクセスした IAM ロールは確認できますが、どのユーザーがテーブルにアクセスしたかを確認するにはどうすればよいでしょうか?これらの質問に答えるには、 Lake Formation と AWS IAM Identity Center の統合 そして、信頼できるアイデンティティの伝播のための機能を追加しました。これにより、組織の既存の ID プロバイダーからの ID に対してきめ細かいアクセス許可を付与できます。他の AWS分析サービス ユーザー ID の伝播もサポートします。これで、監査人はユーザーが次のことを確認できるようになります。 john@anycompany.comたとえば、Lake Formation のアクセス許可によって管理されるテーブルに、次の方法でアクセスしていました。 アマゾンアテナ、Amazon EMR、および AmazonRedshiftスペクトラム. 統合が簡単!

データガバナンスのために AWS のサービスを使用するために、データを移動したり、データカタログを別の AWS リージョンにコピーしたりすることを心配する必要はなくなりました。拡張して作りました すべての地域で利用可能な湖の形成 2023インチ エボイア!

データ共有で接続する

Lake Formation は、データベースやテーブルなどの Data Catalog オブジェクトを内部および外部ユーザーと共有する簡単な方法を提供します。このメカニズムにより、組織はデータに迅速かつ安全にアクセスできるようになり、ビジネス上の意思決定が迅速化されます。このテーマに基づいて、2023 年に行われた新機能と機能強化を確認してみましょう。

AWS Glue データ カタログは、Lake Formation と DataZone の両方のデータ ガバナンスの中心的かつ基礎的なコンポーネントです。 2023 年に、フェデレーションを通じてデータ カタログを拡張しました。 外部の Apache Hive メタストアと統合する & Redshift データシェア。もご用意しました コネクタコードこれをカスタマイズして、データ カタログを追加の Apache Hive 互換メタストアに接続できます。これらの統合により、より多くのメタデータを Data Catalog に取り込む道が開かれ、きめ細かいアクセス制御と、Lake Formation 権限を使用して AWS アカウント間でこれらのリソースを簡単に共有できるようになります。また、次を使用して、あるリージョンのデータ カタログ テーブルに他のリージョンからアクセスするためのサポートも追加しました。 リージョン間のリソースリンク。この機能強化により、多くのユースケースが簡素化され、メタデータの重複が回避されます。

AWS CloudTrail Lake フェデレーション この機能を使用すると、CloudTrail Lake データを検出、分析、結合し、Data Catalog 内の他のデータ ソースと共有できます。 CloudTrail Lake の場合、Athena を通じて、きめ細かいアクセス制御とクエリおよび視覚化機能を利用できます。

データカタログ機能をさらに拡張して、均一なデータをサポートします。 ビュー データレイク全体で。さまざまな SQL 言語を使用してビューを作成し、Athena、Redshift Spectrum、Amazon EMR からクエリを実行できます。これにより、ビュー レベルで権限を維持し、個々のテーブルを共有する必要がなくなります。データ カタログ ビュー機能は次のとおりです。 プレビューで利用可能、re:Invent 2023で発表されました。

スケーリングと最適化

SQL クエリは、時間の経過とともにデータが変更されたり、複数の結合が含まれたりすることでより複雑になるため、コストベースのオプティマイザー (CBO) は、テーブル内のデータの統計に基づいてクエリ プランの最適化を推進し、パフォーマンスの高速化につながります。 2023 年には、次のサポートを追加しました。 データカタログ内のテーブルの列レベルの統計。お客様は、テーブル列の統計を有効にした場合、Athena および Redshift Spectrum でのクエリ パフォーマンスの向上をすでに実感しています。 スヴェス・レ・シッフル!

タグベースのアクセス制御により、新しいリソースがデータ レイクに追加されるたびにポリシーを更新する必要がなくなります。代わりに、データ レイク管理者は、Lake Formation タグ (LF-Tag) を作成してデータ カタログ オブジェクトにタグを付け、これらの LF-Tag に基づくアクセスをユーザーとグループに許可します。 2023 年には、次のサポートを追加しました。 LFタグの委任、データ レイク管理者は、管理者権限を必要とせずに、データ スチュワードや他のユーザーに LF タグを管理するためのアクセス許可を与えることができます。 LFタグの民主化!

Apache Iceberg 形式は、メタデータを使用して、テーブルを構成するデータ ファイルを追跡します。挿入や更新などのテーブルへの変更により、新しいデータ ファイルが作成されます。テーブルのデータ ファイルの数が増えると、そのテーブルを使用するクエリの効率が低下する可能性があります。 Iceberg テーブルでのクエリのパフォーマンスを向上させるには、小さな変更キャプチャ ファイルを大きなファイルに圧縮して、データ ファイルの数を減らす必要があります。通常、ユーザーはスクリプトを作成して実行し、独自のサーバーまたは AWS Glue ETL を通じてこれらの Iceberg テーブル ファイルの最適化を実行します。 Iceberg テーブルのこの複雑なメンテナンスを軽減するために、お客様からより良いソリューションを求めて当社に問い合わせがありました。の機能を導入しました Apache Iceberg テーブルの自動圧縮 データカタログにあります。自動圧縮を有効にすると、データカタログはテーブルのメタデータを自動的に管理し、Iceberg テーブルに常に最適化された Amazon S3 レイアウトを提供します。さらに詳しく知りたい場合は、こちらをご覧ください Iceberg テーブルの最適化. オートマティーク!

監査と監視

誰がどのデータにアクセスできるかを知ることは、データ ガバナンスの重要な要素です。監査人は、適切なメタデータとデータ権限が Lake Formation とデータ カタログに設定されていることを検証する必要があります。データ レイク管理者は、アクセス許可とメタデータに完全にアクセスでき、データ自体へのアクセスを許可できます。監査人に、アクセス許可を変更するためのアクセス権を付与せずに、メタデータのアクセス許可を検索およびレビューするオプションを提供するために、 読み取り専用管理者の役割 レイクフォーメーションで。このロールを使用すると、カタログのメタデータ、Lake Formation のアクセス許可、および LF タグを監査し、それらに対する変更を制限できます。

まとめ

私たちは、Lake Formation と Data Catalog を使用してデータ ガバナンスを簡素化および強化するための製品拡張機能を開発し、素晴らしい 2023 年を過ごしました。ぜひこれらの新機能をお試しください。以下は、参考のためのローンチ投稿のリストです。

  • データ カタログとクローラーの機能:
  • レイク フォーメーションの特徴:

当社は 2024 年もお客様に代わって革新を続けます。製品の改善に関するご意見、使用例、フィードバックをコメントセクションまたは AWS アカウントチームを通じて共有してください。 2024 年が幸せで豊かな年になりますようお祈り申し上げます。 明けましておめでとうございます!


著者について

アーティ・スリニヴァサン AWS Lake Formation のシニア ビッグデータ アーキテクトです。 彼女は、AWS の顧客とパートナーのためにデータレイク ソリューションを構築するのが好きです。 キーボードを操作していないときは、最新の科学と技術のトレンドを探求し、家族との時間を過ごしています。

レオン・スティクター は、AW​​S Lake Formation のシニア テクニカル プロダクト マネージャーです。 Leon は、開発者が分析ツールへのシームレスな接続によりデータレイクをより迅速に構築し、データを革新的な洞察に変換できるよう支援することに重点を置いています。レオンはデータとサーバーレス テクノロジーに興味があり、どこに行ってもチーズケーキを味わうという使命を持ってさまざまな都市を探索することを楽しんでいます。

スポット画像

最新のインテリジェンス

スポット画像