Apache Spark 用 AWS Glue での Apache Hudi、Delta Lake、および Apache Iceberg のネイティブサポートの導入、パート 1: 開始方法

AWSグルーサーバーレスでスケーラブルなデータ統合サービスであり、複数のソースからのデータの検出、準備、移動、および統合を容易にします。 AWS Glue は、ユーザーがさまざまなデータ処理のユースケースを使用できるようにする拡張可能なアーキテクチャを提供します。

一般的なユースケースは、データレイクの構築です Amazon シンプルストレージサービス (Amazon S3) AWS Glue の抽出、変換、ロード (ETL) ジョブを使用します。データレイクは、ビジネスインテリジェンス (BI) ツールによって定義された独自のデータ形式や、独自のストレージの限られた容量から解放されます。さらに、データレイクは、データサイロを分解してエンドツーエンドのデータインサイトを最大化するのに役立ちます。データレイクのサイズが大きくなり、使用が成熟するにつれて、ファイルがトランザクション的に一貫した方法で更新されるようにすることで、データを最新の状態に保つために多大な労力が費やされる可能性があります。

AWS Glue のお客様は、Apache Hudi、Linux Foundation Delta Lake、および Apache Iceberg というオープンソースのデータレイクストレージフレームワークを使用できるようになりました。これらのデータレイクフレームワークは、データを保存し、アプリケーションやフレームワークとデータをやり取りするのに役立ちます。 Apache Parquet、CSV、JSON などの一般的なデータファイル形式はビッグデータを格納できますが、データレイクフレームワークは、分散されたビッグデータファイルを表形式の構造にまとめて管理するのが困難です。これにより、データレイクテーブルフレームワークは、データレイク上のデータベースの構築構造になります。

We 一般提供を発表 AWS Glue for Spark での Apache Hudi、Linux Foundation Delta Lake、および Apache Iceberg のネイティブサポート。この機能により、個別のコネクタまたは関連する依存関係をインストールし、バージョンを管理する必要がなくなり、AWS Glue for Apache Spark でこれらのフレームワークを使用するために必要な設定手順が簡素化されます。これらのオープンソースデータレイクフレームワークを使用すると、増分データ処理を簡素化できます。 Amazon S3 上に構築されたデータレイク ACID (原子性、一貫性、分離、耐久性) トランザクション、アップサート、および削除を使用して。

この投稿では、AWS Glue for Apache Spark が Hudi、Delta、および Iceberg データセットテーブルでどのように機能するかを示し、AWS Glue Studio ノートブックでの一般的なユースケースについて説明します。

Glue for Apache Spark で Hudi、Delta、Iceberg を有効にする

新しいジョブパラメータを指定することで、Hudi、Delta、または Iceberg を使用できます --datalake-formats. たとえば、Hudi を使用する場合は、キーを次のように指定する必要があります。 --datalake-formats 値は hudi です。オプションが設定されている場合、AWS Glue は必要な JAR ファイルをランタイム Java クラスパスに自動的に追加します。必要なのはそれだけです。必要なライブラリをビルドして構成したり、別のコネクタをインストールしたりする必要はありません。このオプションでは、次のライブラリバージョンを使用できます。

AWS グルーのバージョン	フディ	デルタ湖	氷山
AWS グルー 3.0	0.10.1	1.0.0	0.13.1
AWS グルー 4.0	0.12.1	2.1.0	1.0.0

上記のライブラリの他のバージョンを使用する場合は、次のオプションのいずれかを選択できます。

上記のオプションのいずれかを選択した場合は、 --datalake-formats ジョブパラメータが指定されていません。詳細については、次を参照してください。 Apache Hudi、Delta Lake、Apache Icebergデータセットを大規模に処理するパート1：AWS Glue Studio Notebook.

前提条件

このチュートリアルを続けるには、事前に次の AWS リソースを作成する必要があります。

AWS Glue Studio ノートブックで Hudi、Delta、および Iceberg データセットを処理する

AWS Glue Studio ノートブックは、最小限の設定でサーバーレスノートブックを提供します。データエンジニアと開発者は、データセットをすばやくインタラクティブに探索して処理できます。経由でパラメータを指定することにより、AWS Glue Studio ノートブックで Hudi、Delta、または Iceberg の使用を開始できます。 %%configure 次のように、AWS Glue のバージョンを 3.0 に設定します。

# Use Glue version 3.0
%glue_version 3.0 # Configure '--datalake-formats' Job parameter
%%configure
{ "--datalake-formats": "your_comma_separated_formats"
}

詳細については、GitHub リポジトリで利用可能なサンプルノートブックを参照してください。

この投稿では、例として Iceberg DataFrame を使用します。

以下のセクションでは、AWS Glue Studio ノートブックを使用して Iceberg テーブルを作成し、テーブルにレコードを追加する方法について説明します。

Jupyter ノートブックを起動して Iceberg テーブルを処理する

次の手順を実行して、AWS Glue Studio ノートブックを起動します。

ダウンロード Jupyterノートブックファイル.
AWS Glue コンソールで、選択します Jobs > Create New Job ナビゲーションプレーンで。
ジョブを作成選択 ジュピターノート.

選択 既存のノートブックをアップロードして編集する.
アップロード native_iceberg_dataframe.ipynb 　 ファイルを選ぶ 下 ファイルアップロード.

選択する 作成します。
職種名、入る native_iceberg_dataframe.
IAMの役割、IAM ロールを選択します。
選択する ノートブックジョブを開始する.

Iceberg 構成で SparkSession を準備して構成する

Iceberg テーブルを処理するように SparkSession を構成するには、次の手順を実行します。

次のセルを実行します。

あなたが見ることができます --datalake-formats 氷山は %%configure Jupyter マジックコマンド。 Jupyter マジックの詳細については、次を参照してください。 Jupyter および AWS Glue Studio ノートブックの AWS Glue インタラクティブセッションの設定.

次のセルに Iceberg テーブルの場所の S3 バケット名とバケットプレフィックスを入力し、実行します。

次のセルを実行して、SparkSession を初期化します。

必要に応じて、以前にノートブックを実行したことがある場合は、次のセルを実行して既存のリソースをクリーンアップする必要があります。

これで、ノートブックを使用して Iceberg テーブルを作成する準備が整いました。

アイスバーグテーブルを作成する

ノートブックを使用して Iceberg テーブルを作成するには、次の手順を実行します。

次のセルを実行して、DataFrame (df_products) 書き込みます。

成功すると、次の表が表示されます。

次のセルを実行して、DataFrame を使用して Iceberg テーブルを作成します。

これで、次のセルを実行して、Iceberg テーブルからデータを読み取ることができます。

Iceberg テーブルにレコードを追加する

Iceberg テーブルにレコードを追加するには、次の手順を実行します。

次のセルを実行して、DataFrame (df_products_appends) を追加します。

次のセルを実行して、レコードをテーブルに追加します。

次のセルを実行して、前のレコードがテーブルに正常に追加されたことを確認します。

クリーンアップ

継続的な料金が発生しないようにするには、リソースをクリーンアップします。

で手順 4 を実行します。 Iceberg 構成で SparkSession を準備して構成する テーブルと基礎となる S3 オブジェクトを削除するには、この投稿のセクションを参照してください。
AWS Glue コンソールで、選択します Jobs > Create New Job ナビゲーションプレーンで。
ジョブを選択し、メニュー、選択 ジョブを削除.
選択する削除確認します。

考慮事項

この機能を使用すると、Hudi、Delta、および Iceberg テーブルにアクセスするための XNUMX つの異なるオプションがあります。

たとえば、Spark DataFrames spark.read.format("hudi").load("s3://path_to_data")
たとえば、SparkSQL SELECT * FROM table
たとえば、GlueContext create_data_frame.from_catalog, write_data_frame.from_catalog, getDataFrame, writeDataFrame

詳細については、 AWS Glue で Hudi フレームワークを使用する, AWS Glue で Delta Lake フレームワークを使用する, AWS Glue での Iceberg フレームワークの使用.

Delta Lake ネイティブ統合は、AWS Glue クローラーによってネイティブ Delta Lake テーブルから作成されたカタログテーブルと連携します。この統合は、マニフェストファイルに依存しません。詳細については、次を参照してください。 AWS Glue クローラーによるネイティブ Delta Lake テーブルサポートの導入.

まとめ

この投稿では、AWS Glue for Apache Spark を使用して Apache Hudi、Delta Lake、Apache Iceberg データセットを処理する方法を示しました。ライブラリの依存関係の管理に苦労することなく、これらのデータレイク形式を使用して簡単にデータを統合できます。

このシリーズの後続の投稿では、AWS Glue Studio を使用して、これらのデータレイク形式のより簡単な構成とセットアップで ETL ジョブを視覚的に作成する方法と、AWS Glue ワークフローを使用してデータパイプラインを調整し、取り込みを自動化する方法を紹介します。 AWS Glue ジョブを使用して、Amazon S3 のデータレイクに追加します。乞うご期待！

コメントやフィードバックがある場合は、コメントに残してください。

著者について

味坂明 AWS Glue チームのシニアソフトウェア開発エンジニアです。彼はオープンソースソフトウェアと分散システムが好きです。余暇には、アーケードゲームとコンソールゲームの両方を楽しんでいます。

関山典隆 AWS Glue チームのプリンシパルビッグデータアーキテクトです。彼は、顧客を支援するソフトウェアアーティファクトの構築を担当しています。余暇には、新しいロードバイクでサイクリングを楽しんでいます。

サビオ・ドゥザ AWS Glue チームのソフトウェア開発マネージャーです。彼のチームは、分散コンピューティングシステムとフレームワーク、つまり Apache Spark の構築と革新に取り組んでいます。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
Platoblockchain。 Web3メタバースインテリジェンス。知識の増幅。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/big-data/part-1-getting-started-introducing-native-support-for-apache-hudi-delta-lake-and-apache-iceberg-on-aws-glue-for-apache-spark/

生成的データインテリジェンス

AWS Glue for Apache Spark での Apache Hudi、Delta Lake、および Apache Iceberg のネイティブサポートの紹介、パート 1: 開始方法

Glue for Apache Spark で Hudi、Delta、Iceberg を有効にする

前提条件

AWS Glue Studio ノートブックで Hudi、Delta、および Iceberg データセットを処理する

Jupyter ノートブックを起動して Iceberg テーブルを処理する

Iceberg 構成で SparkSession を準備して構成する

アイスバーグテーブルを作成する

Iceberg テーブルにレコードを追加する

クリーンアップ

考慮事項

まとめ

著者について

ブロックチェーン技術: ETH、AVAX、Scorpion Casino は購入するのに最適な仮想通貨ですか?

VCカフェ

最新のインテリジェンス

VCカフェ

VCカフェ

ミームコインが仮想通貨市場と同期して暴落: その理由は次のとおりです

🔴イーサリアムETFの遅延 |今週の暗号通貨 – 11 年 2024 月 XNUMX 日

Spotify、歌詞をペイウォールの内側に静かにロック

WTIは米国のNFPデータに先駆けて79.00ドルを超えている

AWS Glue for Apache Spark での Apache Hudi、Delta Lake、および Apache Iceberg のネイティブサポートの紹介、パート 1: 開始方法

Glue for Apache Spark で Hudi、Delta、Iceberg を有効にする

前提条件

AWS Glue Studio ノートブックで Hudi、Delta、および Iceberg データセットを処理する

Jupyter ノートブックを起動して Iceberg テーブルを処理する

Iceberg 構成で SparkSession を準備して構成する

アイスバーグ テーブルを作成する

Iceberg テーブルにレコードを追加する

クリーンアップ

考慮事項

まとめ

著者について

最新のインテリジェンス

アイスバーグテーブルを作成する