Amazon MSK と Amazon Redshift を使用して分析のためのデータストリーミング取り込みを簡素化する |アマゾンウェブサービス

2022の終わりに向かって、 AWS はリアルタイムストリーミングインジェストの一般提供を発表しました〜へ Amazonレッドシフト for Amazon Kinesisデータストリーム & Apache KafkaのAmazonマネージドストリーミング（Amazon MSK）ストリーミングデータをステージングする必要がなくなります。 Amazon Simple Storage Service（Amazon S3） Amazon Redshift に取り込む前に。

ストリーミング取り込み Amazon MSK から Amazon Redshift への移行は、リアルタイムのデータ処理と分析に対する最先端のアプローチを表します。 Amazon MSK は、Apache Kafka 用の拡張性の高いフルマネージドサービスとして機能し、膨大なデータストリームのシームレスな収集と処理を可能にします。ストリーミングデータを Amazon Redshift に統合すると、組織がリアルタイム分析とデータ主導の意思決定の可能性を活用できるようになり、計り知れない価値がもたらされます。

この統合により、秒単位で測定される低レイテンシを実現しながら、3 秒あたり数百メガバイトのストリーミングデータを Amazon Redshift に取り込むことができます。同時に、この統合により、最新の情報を分析にすぐに利用できるようになります。統合では Amazon SXNUMX にデータをステージングする必要がないため、Amazon Redshift はより低いレイテンシーで、中間のストレージコストなしでストリーミングデータを取り込むことができます。

SQL ステートメントを使用して Redshift クラスター上で Amazon Redshift ストリーミングインジェストを設定し、MSK トピックを認証して接続できます。このソリューションは、データパイプラインを簡素化し、運用コストを削減したいと考えているデータエンジニアにとって優れたオプションです。

この投稿では、設定方法の完全な概要を提供します。 Amazon Redshift ストリーミングインジェストアマゾンMSKから。

ソリューションの概要

次のアーキテクチャ図は、使用する AWS のサービスと機能を説明しています。

使用する AWS のサービスと機能を説明するアーキテクチャ図

ワークフローには次の手順が含まれます。

まず、アマゾンMSKコネクトソースコネクタを使用して、MSK トピックを作成し、モックデータを生成して、それを MSK トピックに書き込みます。この投稿では、模擬顧客データを使用します。
次のステップでは、クエリエディタv2.
最後に、外部スキーマを設定し、Amazon Redshift でマテリアライズドビューを作成して、MSK トピックからのデータを使用します。このソリューションは、Amazon MSK から Amazon Redshift にデータをエクスポートするために MSK Connect シンクコネクタに依存しません。

次のソリューションアーキテクチャ図では、使用する AWS サービスの構成と統合について詳しく説明します。
使用する AWS サービスの構成と統合を詳細に説明するソリューションアーキテクチャ図
ワークフローには次の手順が含まれます。

VPC 上のプライベートサブネット内に MSK Connect ソースコネクタ、MSK クラスター、および Redshift クラスターをデプロイします。
MSK Connect ソースコネクタは、 AWS Identity and Access Management（IAM）インラインポリシーに付属 IAMの役割これにより、ソースコネクタが MSK クラスター上でアクションを実行できるようになります。
MSK Connect ソースコネクタのログがキャプチャされ、アマゾンクラウドウォッチロググループ.
MSK クラスターはカスタム MSK クラスター構成これにより、MSK Connect コネクタが MSK クラスター上にトピックを作成できるようになります。
MSK クラスターのログがキャプチャされ、Amazon CloudWatch ロググループに送信されます。
Redshift クラスターは、IAM ロールにアタッチされた IAM インラインポリシーで定義された詳細な権限を使用します。これにより、Redshift クラスターは MSK クラスター上でアクションを実行できます。
Query Editor v2 を使用して Redshift クラスターに接続できます。

前提条件

前提条件リソースのプロビジョニングと構成を簡素化するには、次を使用できます。 AWS CloudFormation テンプレート：

スタックを起動するときは、次の手順を実行します。

スタック名、スタックの意味のある名前を入力します。たとえば、 prerequisites.
選択する 次へ。
選択する 次へ。
選択 AWS CloudFormationがカスタム名でIAMリソースを作成する可能性があることを認めます。
選択する 送信します。

CloudFormation スタックは、次のリソースを作成します。

VPC custom-vpc、3 つのアベイラビリティーゾーンにわたって作成され、3 つのパブリックサブネット 3つプライベートサブネット:
- パブリックサブネットはパブリックルートテーブルに関連付けられ、送信トラフィックはインターネットゲートウェイに送信されます。
- プライベートサブネットはプライベートルートテーブルに関連付けられ、送信トラフィックは NAT ゲートウェイに送信されます。
An インターネットゲートウェイ Amazon VPC に接続されています。
A NATゲートウェイに関連付けられているエラスティックIP また、パブリックサブネットの 1 つにデプロイされます。
スリーセキュリティグループ:
- msk-connect-sg、これは後で MSK Connect コネクタに関連付けられます。
- redshift-sg、これは後で Redshift クラスターに関連付けられます。
- msk-cluster-sg、これは後で MSK クラスターに関連付けられます。からの受信トラフィックを許可します。 msk-connect-sg, redshift-sg.
2 つの CloudWatch ロググループ:
- msk-connect-logs、MSK Connect ログに使用されます。
- msk-cluster-logs、MSK クラスターログに使用されます。
2 つの IAM ロール:
- msk-connect-roleこれには、MSK Connect の詳細な IAM 権限が含まれます。
- redshift-roleこれには、Amazon Redshift に対する詳細な IAM 権限が含まれます。
A カスタム MSK クラスター構成これにより、MSK Connect コネクタが MSK クラスター上にトピックを作成できるようになります。
MSK クラスター。 3 つのプライベートサブネット全体に 3 つのブローカーがデプロイされています。 custom-vpc. 　 msk-cluster-sg セキュリティグループと custom-msk-cluster-configuration 構成は MSK クラスターに適用されます。ブローカーのログは、 msk-cluster-logs CloudWatch ロググループ。
A Redshiftクラスターのサブネットグループ、の 3 つのプライベートサブネットを使用しています。 custom-vpc.
Redshift クラスターのサブネットグループ内のプライベートサブネットにデプロイされた 1 つの単一ノードを持つ Redshift クラスター。の redshift-sg セキュリティグループと redshift-role IAM ロールは Redshift クラスターに適用されます。

MSK Connect カスタムプラグインを作成する

この投稿では、 Amazon MSK データジェネレーター MSK Connect にデプロイされ、疑似顧客データが生成され、MSK トピックに書き込まれます。

次の手順を完了します。

ダウンロード Amazon MSK データジェネレーター GitHub からの依存関係を含む JAR ファイル。
JAR ファイルを AWS アカウントの S3 バケットにアップロードします。
Amazon MSKコンソールで、 カスタムプラグイン 下 MSKコネクト ナビゲーションペインに表示されます。
選択する カスタムプラグインを作成します。
選択する S3を参照、Amazon S3 にアップロードした Amazon MSK データジェネレーター JAR ファイルを検索し、選択します 選択する.
カスタムプラグイン名、入る msk-datagen-plugin.
選択する カスタムプラグインを作成します。

カスタムプラグインが作成されると、そのステータスが次のようになります。 アクティブをクリックすると、次のステップに進むことができます。
msk connect カスタムプラグインが正常に作成されたことを示す amazon msk コンソール

MSK Connect コネクタを作成する

コネクタを作成するには、次の手順を実行します。

Amazon MSKコンソールで、 コネクタ 下 MSKコネクト ナビゲーションペインに表示されます。
選択する コネクタを作成します。
カスタムプラグインタイプ、選択する 既存のプラグインを使用します。
選択 msk-datagen-plugin、を選択します 次へ。
コネクタ名、入る msk-datagen-connector.
クラスタータイプ、選択する 自己管理型の Apache Kafka クラスター。
VPC、選択する custom-vpc.
サブネット1、最初のアベイラビリティーゾーン内のプライベートサブネットを選択します。

　 custom-vpc CloudFormation テンプレートによって作成された場合、パブリックサブネットには奇数の CIDR 範囲を使用し、プライベートサブネットには偶数の CIDR 範囲を使用しています。

- パブリックサブネットの CIDR は 10.10.1.0/24、10.10.3.0/24、および 10.10.5.0/24 です。
- プライベートサブネットの CIDR は 10.10.2.0/24、10.10.4.0/24、および 10.10.6.0/24 です。

サブネット2、2 番目のアベイラビリティーゾーン内のプライベートサブネットを選択します。
サブネット3、3 番目のアベイラビリティーゾーン内のプライベートサブネットを選択します。
ブートストラップサーバー、MSK クラスターの TLS 認証用のブートストラップサーバーのリストを入力します。

に MSK クラスターのブートストラップサーバーを取得します、Amazon MSK コンソールに移動し、選択します クラスター、選択する msk-cluster、を選択します クライアント情報を見る。ブートストラップサーバーの TLS 値をコピーします。

セキュリティグループ、選択する このクラスターへのアクセス権を持つ特定のセキュリティグループを使用する、選択して msk-connect-sg.
コネクタ構成、デフォルト設定を次のように置き換えます。

connector.class=com.amazonaws.mskdatagen.GeneratorSourceConnector
tasks.max=2
genkp.customer.with=#{Code.isbn10}
genv.customer.name.with=#{Name.full_name}
genv.customer.gender.with=#{Demographic.sex}
genv.customer.favorite_beer.with=#{Beer.name}
genv.customer.state.with=#{Address.state}
genkp.order.with=#{Code.isbn10}
genv.order.product_id.with=#{number.number_between '101','109'}
genv.order.quantity.with=#{number.number_between '1','5'}
genv.order.customer_id.matching=customer.key
global.throttle.ms=2000
global.history.records.max=1000
value.converter=org.apache.kafka.connect.json.JsonConverter
value.converter.schemas.enable=false

コネクタ容量については、選択します プロビジョニング済み。
ワーカーあたりの MCU 数、選択する 1.
労働者の数、選択する 1.
ワーカー構成、選択する MSK のデフォルト構成を使用する.
アクセス許可、選択する msk-connect-role.
選択する 次へ。
暗号化については、選択します TLS 暗号化トラフィック。
選択する 次へ。
ログ配信、選択する Amazon CloudWatch Logs に配信する.
選択する ブラウズ選択 msk-connect-logs、選択して 選択する.
選択する 次へ。
確認して選択 コネクタを作成します。

カスタムコネクタが作成されると、そのステータスが次のようになります。 Running:をクリックすると、次のステップに進むことができます。
msk Connect コネクタが正常に作成されたことを示す amazon msk コンソール

Amazon MSK の Amazon Redshift ストリーミング取り込みを設定する

ストリーミング取り込みを設定するには、次の手順を実行します。

Query Editor v2 を使用して Redshift クラスターに接続し、データベースユーザー名で認証します。 awsuser、パスワード Awsuser123.
次の SQL ステートメントを使用して、Amazon MSK から外部スキーマを作成します。

次のコードに、 redshift-role IAM の役割と msk-cluster クラスター ARN.

CREATE EXTERNAL SCHEMA msk_external_schema
FROM MSK
IAM_ROLE '<insert your redshift-role arn>'
AUTHENTICATION iam
CLUSTER_ARN '<insert your msk-cluster arn>';

選択するラン SQL ステートメントを実行します。

Amazon msk から外部スキーマを作成するために使用される SQL ステートメントを示す redshift クエリエディター v2

作るマテリアライズドビュー次の SQL ステートメントを使用します。

CREATE MATERIALIZED VIEW msk_mview AUTO REFRESH YES AS
SELECT
    "kafka_partition",
    "kafka_offset",
    "kafka_timestamp_type",
    "kafka_timestamp",
    "kafka_key",
    JSON_PARSE(kafka_value) as Data,
    "kafka_headers"
FROM
    "dev"."msk_external_schema"."customer"

選択するラン SQL ステートメントを実行します。

マテリアライズド・ビューの作成に使用される SQL ステートメントを示す redshift クエリー・エディター v2

これで、次の SQL ステートメントを使用してマテリアライズドビューにクエリを実行できるようになります。

select * from msk_mview LIMIT 100;

選択するラン SQL ステートメントを実行します。

マテリアライズドビューのクエリに使用される SQL ステートメントを示す redshift クエリエディター v2

ストリーミング取り込み経由でロードされたレコードの進行状況を監視するには、 SYS_STREAM_SCAN_STATES 次の SQL ステートメントを使用してビューを監視します。

select * from SYS_STREAM_SCAN_STATES;

選択するラン SQL ステートメントを実行します。

Redshift クエリエディター v2 は、sys ストリームスキャン状態監視ビューのクエリに使用される SQL ステートメントを示しています

ストリーミング取り込み経由でロードされたレコードで発生したエラーを監視するには、 SYS_STREAM_SCAN_ERRORS 次の SQL ステートメントを使用してビューを監視します。

select * from SYS_STREAM_SCAN_ERRORS;

選択するラン SQL ステートメントを実行します。

クリーンアップ

手順を進めた後、作成したリソースが不要になった場合は、追加料金が発生しないように、次の順序でリソースを削除してください。

MSK Connectコネクタを削除する msk-datagen-connector.
MSK Connectプラグインを削除する msk-datagen-plugin.
ダウンロードした Amazon MSK データジェネレーター JAR ファイルを削除し、作成した S3 バケットを削除します。
MSK Connect コネクタを削除した後、CloudFormation テンプレートを削除できます。 CloudFormation テンプレートによって作成されたすべてのリソースは、AWS アカウントから自動的に削除されます。

まとめ

この投稿では、プライバシーとセキュリティに焦点を当てて、Amazon MSK からの Amazon Redshift ストリーミング取り込みを設定する方法を説明しました。

高スループットのデータストリームを処理する Amazon MSK の機能と Amazon Redshift の堅牢な分析機能を組み合わせることで、ビジネスはすぐに実用的な洞察を得ることができます。このリアルタイムのデータ統合により、変化するデータの傾向、顧客の行動、運用パターンを理解する際の組織の機敏性と応答性が向上します。これにより、情報に基づいたタイムリーな意思決定が可能になり、今日のダイナミックなビジネス環境において競争力を獲得できます。

このソリューションは、次のことを検討しているお客様にも適用できます。 Amazon MSK サーバーレス & AmazonRedshiftサーバーレス.

この投稿が AWS のサービスの統合と構成について詳しく学ぶ良い機会になれば幸いです。コメントセクションでフィードバックをお聞かせください。

著者について

セバスチャン・ヴラド アマゾンウェブサービスのシニアパートナーソリューションアーキテクトであり、データおよび分析ソリューションと顧客の成功に情熱を持っています。 Sebastian は企業顧客と協力して、ビジネス成果を達成するための最新で安全かつスケーラブルなソリューションの設計と構築を支援します。

シャラド・パイ AWS の主任テクニカルコンサルタントです。彼はストリーミング分析を専門としており、お客様が Amazon MSK と Amazon Kinesis を使用してスケーラブルなソリューションを構築するのを支援しています。彼は業界で 16 年以上の経験があり、現在 AWS でライブストリーミングプラットフォームをホストしているメディア顧客と協力して、50 万を超えるピーク時の同時実行数を管理しています。 AWS に入社する前、Sharad の主任ソフトウェア開発者としてのキャリアには、JavaScript、Python、PHP などのオープンソーステクノロジーを使用した 9 年間のコーディング業務が含まれていました。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/big-data/simplify-data-streaming-ingestion-for-analytics-using-amazon-msk-and-amazon-redshift/

生成的データインテリジェンス

Amazon MSK と Amazon Redshift を使用した分析のためのデータストリーミング取り込みを簡素化する |アマゾンウェブサービス

ソリューションの概要

前提条件

MSK Connect カスタムプラグインを作成する

MSK Connect コネクタを作成する

Amazon MSK の Amazon Redshift ストリーミング取り込みを設定する

クリーンアップ

まとめ

著者について

ベスト AVAX DApps 2024: Avalanche エコシステムの探索

科学者たちは、異なる種類の化学を使用してリチウム抽出を再検討しています – CleanTechnica

最新のインテリジェンス

なぜ PBS は反 EV FUD を広めているのでしょうか? – クリーンテクニカ

IQT Nordics 最新情報: Planckian の共同創設者であるマルコ・ポリーニ氏が 2024 年の講演者に – Inside Quantum Technology

ビットコインが30日間のNFT売上高をリードし、ブロックチェーン競合他社24社を上回った

今週のWeb全体からの素晴らしい技術ストーリー（27月XNUMX日まで）

Skywise.ai 創設者の Chris McGinty は、2024 IQT Quantum + AI カンファレンスの講演者 – Inside Quantum Technology

セキュリティよりも先行者利益を優先すると、Defiプロトコルはハッキングに対して脆弱になる – ニキータ・オブチニク

Amazon MSK と Amazon Redshift を使用した分析のためのデータ ストリーミング取り込みを簡素化する |アマゾン ウェブ サービス

ソリューションの概要

前提条件

MSK Connect カスタム プラグインを作成する

MSK Connect コネクタを作成する

Amazon MSK の Amazon Redshift ストリーミング取り込みを設定する

クリーンアップ

まとめ

著者について

最新のインテリジェンス

Amazon MSK と Amazon Redshift を使用した分析のためのデータストリーミング取り込みを簡素化する |アマゾンウェブサービス

MSK Connect カスタムプラグインを作成する