شعار زيفيرنت

قم ببناء بحيرة بيانات المعاملات باستخدام Apache Iceberg و AWS Glue ومشاركات البيانات عبر الحسابات باستخدام AWS Lake Formation و Amazon Athena

التاريخ:

بناء بحيرة بيانات على خدمة تخزين أمازون البسيطة (Amazon S3) يوفر مزايا عديدة للمؤسسة. يتيح لك الوصول إلى مصادر البيانات المتنوعة ، وبناء لوحات معلومات الأعمال ، وبناء نماذج الذكاء الاصطناعي والتعلم الآلي (ML) لتوفير تجارب مخصصة للعملاء ، وتسريع تنظيم مجموعات البيانات الجديدة للاستهلاك من خلال اعتماد هندسة البيانات الحديثة or شبكة البيانات هندسة معمارية.

ومع ذلك ، فإن العديد من حالات الاستخدام ، مثل إجراء التقاط بيانات التغيير (CDC) من قاعدة البيانات العلائقية المنبع إلى بحيرة البيانات المستندة إلى Amazon S3 ، تتطلب معالجة البيانات على مستوى قياسي. يتطلب إجراء عملية مثل إدراج سجلات فردية من مجموعة بيانات وتحديثها وحذفها من محرك المعالجة قراءة جميع الكائنات (الملفات) وإجراء التغييرات وإعادة كتابة مجموعات البيانات بأكملها كملفات جديدة. علاوة على ذلك ، غالبًا ما يؤدي إتاحة البيانات في بحيرة البيانات في الوقت الفعلي تقريبًا إلى تجزئة البيانات على العديد من الملفات الصغيرة ، مما يؤدي إلى ضعف أداء الاستعلام وصيانة الضغط.

في 2022، ونحن أعلن أنه يمكنك فرض سياسات التحكم في الوصول الدقيقة باستخدام تكوين بحيرة AWS والاستعلام عن البيانات المخزنة في أي تنسيق ملف مدعوم باستخدام تنسيقات الجدول مثل اباتشي فيضو Apache Hudi والمزيد باستخدام ملفات أمازون أثينا استفسارات. يمكنك الحصول على المرونة في اختيار الجدول وتنسيق الملف الأنسب لحالة الاستخدام الخاصة بك والاستفادة من إدارة البيانات المركزية لتأمين الوصول إلى البيانات عند استخدام Athena.

في هذا المنشور ، نوضح لك كيفية تكوين Lake Formation باستخدام تنسيقات Iceberg Table. نشرح أيضًا كيفية الارتقاء والدمج في بحيرة بيانات S3 باستخدام إطار عمل Iceberg وتطبيق التحكم في الوصول إلى Lake Formation باستخدام Athena.

Iceberg هو تنسيق جدول مفتوح لمجموعات البيانات التحليلية الكبيرة جدًا. يدير Iceberg مجموعات كبيرة من الملفات كجداول ، ويدعم عمليات بحيرة البيانات التحليلية الحديثة مثل إدراج مستوى السجل ، والتحديث ، والحذف ، واستعلامات السفر عبر الزمن. تتيح مواصفات Iceberg تطورًا سلسًا للجدول مثل تطور المخطط والقسم ، كما تم تحسين تصميمه للاستخدام على Amazon S3. يساعد Iceberg أيضًا على ضمان صحة البيانات في ظل سيناريوهات الكتابة المتزامنة.

حل نظرة عامة

لشرح هذا الإعداد ، نقدم البنية التالية ، التي تدمج Amazon S3 لبحيرة البيانات (تنسيق جدول Iceberg) ، و Lake Formation للتحكم في الوصول ، و AWS Glue لـ ETL (الاستخراج ، والتحويل ، والتحميل) ، و Athena للاستعلام عن أحدث بيانات الجرد من جداول Iceberg باستخدام لغة SQL القياسية.

يتكون سير عمل الحل من الخطوات التالية ، بما في ذلك استيعاب البيانات (الخطوات 1-3) ، وإدارة البيانات (الخطوة 4) ، والوصول إلى البيانات (الخطوة 5):

  1. نستخدم خدمة ترحيل قاعدة بيانات AWS (AWS DMS) أو أداة مماثلة للاتصال بمصدر البيانات ونقل البيانات الإضافية (CDC) إلى Amazon S3 بتنسيق CSV.
  2. An غراء AWS تقرأ وظيفة PySpark البيانات المتزايدة من حاوية إدخال S3 وتقوم بإلغاء تكرار السجلات.
  3. تستدعي الوظيفة بعد ذلك عبارات Iceberg's MERGE لدمج البيانات مع حاوية S3 المستهدفة.
  4. نستخدم كتالوج بيانات AWS Glue كتالوج مركزي ، يتم استخدامه بواسطة AWS Glue و Athena. تم دمج برنامج تتبع الارتباطات AWS Glue أعلى حاويات S3 لاكتشاف المخطط تلقائيًا. يسمح لك Lake Formation بإدارة الأذونات والتحكم في الوصول مركزيًا لموارد كتالوج البيانات في بحيرة بيانات S3. يمكنك استخدام التحكم في الوصول الدقيق في Lake Formation لتقييد الوصول إلى البيانات في نتائج الاستعلام.
  5. نستخدم Athena المدمجة مع Lake Formation للاستعلام عن البيانات من جدول Iceberg باستخدام SQL القياسي والتحقق من صحة الوصول على مستوى الجدول والعمود في جداول Iceberg.

بالنسبة لهذا الحل ، نفترض أن ملفات البيانات الأولية متوفرة بالفعل في Amazon S3 ، ونركز على معالجة البيانات باستخدام AWS Glue مع تنسيق جدول Iceberg. نستخدم بيانات عنصر نموذجية لها السمات التالية:

  • op - هذا يمثل العملية على تسجيلة المصدر. يوضح هذا القيم I لتمثيل عمليات الإدراج ، و U لتمثيل التحديثات ، و D لتمثيل عمليات الحذف. تحتاج إلى التأكد من تضمين هذه السمة في بيانات CDC الإضافية الخاصة بك قبل كتابتها إلى Amazon S3. تأكد من التقاط هذه السمة ، بحيث يمكن لمنطق ETL الخاص بك اتخاذ الإجراء المناسب أثناء دمجها.
  • معرف المنتج - هذا هو عمود المفتاح الأساسي في جدول البيانات المصدر.
  • الفئة - يمثل هذا العمود فئة العنصر.
  • اسم المنتج - هذا اسم المنتج.
  • الكمية متاحة - هذه هي الكمية المتوفرة في المخزون. عندما نعرض البيانات الإضافية لـ UPSERT أو MERGE ، فإننا نخفض الكمية المتاحة للمنتج لعرض الوظائف.
  • آخر_تحديث_وقت - هذا هو الوقت الذي تم فيه تحديث تسجيلة المادة في البيانات المصدر.

نوضح تنفيذ الحل بالخطوات التالية:

  1. قم بإنشاء حاوية S3 لبيانات الإدخال والإخراج.
  2. قم بإنشاء جداول الإدخال والإخراج باستخدام أثينا.
  3. أدخل البيانات في جدول Iceberg من أثينا.
  4. استعلم عن جدول Iceberg باستخدام Athena.
  5. تحميل البيانات التزايدية (CDC) لمزيد من المعالجة.
  6. قم بتشغيل مهمة AWS Glue مرة أخرى لمعالجة الملفات المتزايدة.
  7. استعلم عن جدول Iceberg مرة أخرى باستخدام أثينا.
  8. تحديد سياسات تكوين البحيرة.

المتطلبات الأساسية المسبقة

لاستعلامات Athena ، نحتاج إلى تكوين مجموعة عمل Athena بإصدار المحرك 3 لدعم تنسيق جدول Iceberg.

للتحقق من صحة الوصول عبر الحسابات من خلال Lake Formation for Iceberg table ، استخدمنا في هذا المنشور حسابين (أساسي وثانوي).

الآن دعنا نتعمق في خطوات التنفيذ.

قم بإنشاء حاوية S3 لبيانات الإدخال والإخراج

قبل أن نقوم بتشغيل وظيفة AWS Glue ، يتعين علينا تحميل عينة ملفات CSV إلى حاوية الإدخال ومعالجتها باستخدام كود AWS Glue PySpark للإخراج.

لإنشاء حاوية S3 ، أكمل الخطوات التالية:

  1. في وحدة تحكم Amazon S3 ، اختر الدلاء في جزء التنقل.
  2. اختار إنشاء دلو.
  3. حدد اسم المستودع كـiceberg-blog واترك الحقول المتبقية كافتراضي.

أسماء حاويات S3 فريدة بشكل عام. أثناء تنفيذ الحل ، قد تحصل على خطأ يفيد بأن اسم الحاوية موجود بالفعل. تأكد من توفير اسم فريد واستخدم نفس الاسم أثناء تنفيذ باقي خطوات التنفيذ. تنسيق اسم الحاوية كـ<Bucket-Name>-${AWS_ACCOUNT_ID}-${AWS_REGION_CODE}قد تساعدك في الحصول على اسم فريد.

  1. في صفحة تفاصيل الحاوية ، اختر إنشاء مجلد.
  2. قم بإنشاء مجلدين فرعيين. لهذا المنشور ، نحن نخلقiceberg-blog/raw-csv-input و iceberg-blog/iceberg-output.
  3. تحميلLOAD00000001.csvملف في raw-csv-input المجلد.

توفر لقطة الشاشة التالية عينة من مجموعة بيانات الإدخال.

إنشاء جداول الإدخال والإخراج باستخدام أثينا

لإنشاء جداول Iceberg للإدخال والإخراج في AWS Glue Data Catalog ، افتح محرر استعلام Athena وقم بتشغيل الاستعلامات التالية بالتسلسل:

-- Create database for the demo
CREATE DATABASE iceberg_lf_db;

كما أوضحنا لاحقًا في هذا المنشور ، من الضروري تسجيل مواقع البيانات عند دمج عناصر التحكم في الوصول إلى Lake Formation.

-- Create external table in input CSV files. Replace the S3 path with your bucket name
CREATE EXTERNAL TABLE iceberg_lf_db.csv_input(
op string,
product_id bigint,
category string,
product_name string,
quantity_available bigint,
last_update_time string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION 's3://glue-iceberg-demo/raw-csv-input/'
TBLPROPERTIES ( 'areColumnsQuoted'='false', 'classification'='csv', 'columnsOrdered'='true', 'compressionType'='none', 'delimiter'=',', 'typeOfData'='file'); -- Create output Iceberg table with partitioning. Replace the S3 bucket name with your bucket name
CREATE TABLE iceberg_lf_db.iceberg_table_lf (
product_id bigint,
category string,
product_name string,
quantity_available bigint,
last_update_time timestamp)
PARTITIONED BY (category, bucket(16,product_id))
LOCATION 's3://glue-iceberg-demo/iceberg_blog/iceberg-output/'
TBLPROPERTIES ( 'table_type'='ICEBERG', 'format'='parquet', 'write_target_data_file_size_bytes'='536870912'
); -- Validate the input data
SELECT * FROM iceberg_lf_db.csv_input; SELECT * FROM iceberg_lf_db.iceberg_table_lf;

بدلاً من ذلك ، يمكنك استخدام زاحف AWS Glue لإنشاء تعريف الجدول لملفات الإدخال.

أدخل البيانات في جدول Iceberg من أثينا

اختياريًا ، يمكننا إدخال البيانات في جدول Iceberg من خلال Athena باستخدام الكود التالي:

insert into iceberg_lf_demo.iceberg_lf_output_athena (product_id,category,product_name,quantity_available,last_update_time) values (200,'Mobile','Mobile brand 1',25,cast('2023-01-19 09:51:40' as timestamp));
insert into iceberg_lf_demo.iceberg_lf_output_athena (product_id,category,product_name,quantity_available,last_update_time) values (201,'Laptop','Laptop brand 1',20,cast('2023-01-19 09:51:40' as timestamp));
insert into iceberg_lf_demo.iceberg_lf_output_athena (product_id,category,product_name,quantity_available,last_update_time) values (202,'Tablet','Kindle',30,cast('2023-01-19 09:51:41' as timestamp));
insert into iceberg_lf_demo.iceberg_lf_output_athena (product_id,category,product_name,quantity_available,last_update_time) values (203,'Speaker','Alexa',10,cast('2023-01-19 09:51:42' as timestamp));
insert into iceberg_lf_demo.iceberg_lf_output_athena (product_id,category,product_name,quantity_available,last_update_time) values (204,'Speaker','Alexa',50,cast('2023-01-19 09:51:43' as timestamp));

بالنسبة لهذا المنشور ، نقوم بتحميل البيانات باستخدام وظيفة AWS Glue. أكمل الخطوات التالية لإنشاء الوظيفة:

  1. في وحدة تحكم AWS Glue ، اختر المشــاريــع في جزء التنقل.
  2. اختار خلق وظيفة.
  3. أختار مرئي مع أ قماش بيضاء.
  4. اختار إنشاء.
  5. اختار تعديل سيناريو.
  6. استبدل البرنامج النصي بالنص التالي:
import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job from pyspark.sql.functions import *
from awsglue.dynamicframe import DynamicFrame from pyspark.sql.window import Window
from pyspark.sql.functions import rank, max from pyspark.conf import SparkConf args = getResolvedOptions(sys.argv, ["JOB_NAME"])
conf = SparkConf() ## spark.sql.catalog.job_catalog.warehouse can be passed as an ## runtime argument with value as the S3 path
## Please make sure to pass runtime argument –
## iceberg_job_catalog_warehouse with value as the S3 path conf.set("spark.sql.catalog.job_catalog.warehouse", args['iceberg_job_catalog_warehouse'])
conf.set("spark.sql.catalog.job_catalog", "org.apache.iceberg.spark.SparkCatalog")
conf.set("spark.sql.catalog.job_catalog.catalog-impl", "org.apache.iceberg.aws.glue.GlueCatalog")
conf.set("spark.sql.catalog.job_catalog.io-impl", "org.apache.iceberg.aws.s3.S3FileIO")
conf.set("spark.sql.extensions", "org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions")
conf.set("spark.sql.sources.partitionOverwriteMode", "dynamic")
conf.set("spark.sql.iceberg.handle-timestamp-without-timezone","true") sc = SparkContext(conf=conf)
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)
job.init(args["JOB_NAME"], args) ## Read Input Table
## glueContext.create_data_frame.from_catalog can be more ## performant and can be replaced in place of ## create_dynamic_frame.from_catalog. IncrementalInputDyF = glueContext.create_dynamic_frame.from_catalog(database = "iceberg_lf_db", table_name = "csv_input", transformation_ctx = "IncrementalInputDyF")
IncrementalInputDF = IncrementalInputDyF.toDF() if not IncrementalInputDF.rdd.isEmpty():
## Apply De-duplication logic on input data, to pickup latest record based on timestamp and operation
IDWindowDF = Window.partitionBy(IncrementalInputDF.product_id).orderBy(IncrementalInputDF.last_update_time).rangeBetween(-sys.maxsize, sys.maxsize) # Add new columns to capture OP value and what is the latest timestamp
inputDFWithTS= IncrementalInputDF.withColumn("max_op_date",max(IncrementalInputDF.last_update_time).over(IDWindowDF)) # Filter out new records that are inserted, then select latest record from existing records and merge both to get deduplicated output
NewInsertsDF = inputDFWithTS.filter("last_update_time=max_op_date").filter("op='I'")
UpdateDeleteDf = inputDFWithTS.filter("last_update_time=max_op_date").filter("op IN ('U','D')")
finalInputDF = NewInsertsDF.unionAll(UpdateDeleteDf) # Register the deduplicated input as temporary table to use in Iceberg Spark SQL statements
finalInputDF.createOrReplaceTempView("incremental_input_data")
finalInputDF.show() ## Perform merge operation on incremental input data with MERGE INTO. This section of the code uses Spark SQL to showcase the expressive SQL approach of Iceberg to perform a Merge operation
IcebergMergeOutputDF = spark.sql("""
MERGE INTO job_catalog.iceberg_lf_db.iceberg_table_lf t
USING (SELECT op, product_id, category, product_name, quantity_available, to_timestamp(last_update_time) as last_update_time FROM incremental_input_data) s
ON t.product_id = s.product_id
WHEN MATCHED AND s.op = 'D' THEN DELETE
WHEN MATCHED THEN UPDATE SET t.quantity_available = s.quantity_available, t.last_update_time = s.last_update_time
WHEN NOT MATCHED THEN INSERT (product_id, category, product_name, quantity_available, last_update_time) VALUES (s.product_id, s.category, s.product_name, s.quantity_available, s.last_update_time) """) job.commit()

  1. على تفاصيل الوظيفة علامة التبويب ، حدد اسم الوظيفة (iceberg-lf).
  2. في حالة دور IAM، قم بتعيين ملف إدارة الهوية والوصول AWS (IAM) الذي لديه الأذونات المطلوبة لتشغيل مهمة AWS Glue والقراءة والكتابة في حاوية S3.
  3. في حالة نسخة الغراء، اختر الغراء 4.0 (الغراء 3.0 مدعوم أيضًا).
  4. في حالة اللغة ، اختر بيثون 3.
  5. تأكد مرجعية الوظيفة القيمة الافتراضية تفعيل.
  6. في حالة معلمات الوظيفة، أضف ما يلي:
    1. أضف المفتاح--datalake-formatsمع القيمةiceberg.
    2. أضف المفتاح--iceberg_job_catalog_warehouse مع القيمة كمسار S3 الخاص بك (s3://<bucket-name>/<iceberg-warehouse-path>).
  7. اختار حفظ وثم يجري، والتي يجب أن تكتب بيانات الإدخال إلى جدول Iceberg مع عبارة MERGE.

استعلم عن جدول Iceberg باستخدام Athena

بعد أن تقوم بتشغيل مهمة AWS Glue بنجاح ، يمكنك التحقق من صحة المخرجات في Athena باستخدام استعلام SQL التالي:

SELECT * FROM iceberg_lf_db.iceberg_table_lf limit 10;

يجب أن يتطابق إخراج الاستعلام مع الإدخال ، مع اختلاف واحد: لا يحتوي جدول إخراج Iceberg علىopالعمود.

تحميل البيانات التزايدية (CDC) لمزيد من المعالجة

بعد أن نقوم بمعالجة ملف التحميل الأولي الكامل ، فلنقم بتحميل ملف ملف تزايدي.

يتضمن هذا الملف سجلات محدثة على عنصرين.

قم بتشغيل مهمة AWS Glue مرة أخرى لمعالجة الملفات المتزايدة

نظرًا لأن وظيفة AWS Glue بها إشارات مرجعية ممكّنة ، فإن الوظيفة تلتقط الملف التزايدي الجديد وتنفذ عملية MERGE على جدول Iceberg.

لتشغيل الوظيفة مرة أخرى ، أكمل الخطوات التالية:

  1. في وحدة تحكم AWS Glue ، اختر المشــاريــع في جزء التنقل.
  2. حدد الوظيفة واختر يجري.

بالنسبة لهذا المنشور ، نقوم بتشغيل الوظيفة يدويًا ، ولكن يمكنك تكوين مهام AWS Glue للتشغيل كجزء من ملف سير عمل AWS Glue أو عن طريق وظائف خطوة AWS (لمزيد من المعلومات، راجع إدارة وظائف AWS Glue من خلال وظائف الخطوة).

استعلم عن جدول Iceberg باستخدام Athena بعد معالجة البيانات الإضافية

عند اكتمال معالجة البيانات التزايدية ، يمكنك تشغيل نفس عبارة SELECT مرة أخرى والتحقق من تحديث قيمة الكمية للبندين 200 و 201.

تظهر لقطة الشاشة التالية الإخراج.

تحديد سياسات تكوين البحيرة

لحوكمة البيانات ، نستخدم Lake Formation. Lake Formation هي خدمة مُدارة بالكامل تعمل على تبسيط إعداد بحيرة البيانات ، وتدعم إدارة الأمان المركزية ، وتوفر وصولاً للمعاملات أعلى بحيرة البيانات الخاصة بك. علاوة على ذلك ، فإنه يتيح مشاركة البيانات عبر الحسابات والمؤسسات. هناك طريقتان لمشاركة موارد البيانات في Lake Formation: التحكم في الوصول إلى الموارد المسماة (NRAC) والتحكم في الوصول المستند إلى العلامات (TBAC). يستخدم NRAC مدير الوصول إلى موارد AWS (AWS RAM) لمشاركة موارد البيانات عبر الحسابات باستخدام Lake Formation V3. تلك التي يتم استهلاكها عبر روابط الموارد التي تستند إلى مشاركات الموارد التي تم إنشاؤها. تشكيل البحيرة التحكم في الوصول المستند إلى العلامات (LF-TBAC) هي طريقة أخرى لمشاركة موارد البيانات في Lake Formation ، والتي تحدد الأذونات بناءً على السمات. تسمى هذه السمات علامات LF.

في هذا المثال ، نقوم بإنشاء قواعد بيانات في الحساب الأساسي. تتم مشاركة قاعدة بيانات NRAC الخاصة بنا مع مجال بيانات عبر AWS RAM. سيتم التعامل مع الوصول إلى جداول البيانات التي نسجلها في قاعدة البيانات هذه من خلال NRAC.

تكوين ضوابط الوصول في الحساب الأساسي

في الحساب الأساسي ، أكمل الخطوات التالية لإعداد ضوابط الوصول باستخدام Lake Formation:

  1. في وحدة التحكم Lake Formation ، اختر مواقع بحيرة البيانات في جزء التنقل.
  2. اختار تسجيل الموقع.
  3. قم بتحديث مسار موقع Iceberg Amazon S3 الموضح في لقطة الشاشة التالية.

منح الوصول إلى قاعدة البيانات للحساب الثانوي

لمنح الوصول إلى قاعدة البيانات للحساب الخارجي (الثانوي) ، أكمل الخطوات التالية:

  1. في وحدة التحكم Lake Formation ، انتقل إلى قاعدة البيانات الخاصة بك.
  2. على الإجراءات القائمة، اختر منحة.
  3. اختار الحسابات الخارجية وأدخل رقم الحساب الثانوي.
  4. أختار موارد كتالوج البيانات المسماة.
  5. تحقق من اسم قاعدة البيانات.

يجب أن تكون المنحة الأولى على مستوى قاعدة البيانات ، وتكون المنحة الثانية على مستوى الجدول.

  1. في حالة أذونات قاعدة البيانات، حدد أذوناتك (لهذه المشاركة ، نختار وصف).
  2. اختار منحة.

أنت الآن بحاجة إلى منح أذونات على مستوى الجدول.

  1. أختار الحسابات الخارجية وأدخل رقم الحساب الثانوي.
  2. أختار موارد كتالوج البيانات المسماة.
  3. تحقق من اسم الجدول.
  4. في حالة أذونات الجدول، حدد الأذونات التي تريد منحها. لهذا المنشور ، نختار أختار و وصف.
  5. اختار منحة.

إذا رأيت الخطأ التالي ، فيجب عليك إبطالIAMAllowedPrincipalsمن أذونات بحيرة البيانات.

للقيام بذلك ، حدد IAMAllowedPrincipals واختر سحب او إبطال.

اختار سحب او إبطال مرة أخرى للتأكيد.

بعد إبطال أذونات البيانات ، يجب أن تظهر الأذونات كما هو موضح في لقطة الشاشة التالية.

أضف أذونات دور AWS Glue IAM

نظرًا لإلغاء دور IAM الرئيسي ، يجب إضافة دور AWS Glue IAM الذي تم استخدامه في مهمة AWS Glue حصريًا لمنح الوصول كما هو موضح في لقطة الشاشة التالية.

تحتاج إلى تكرار هذه الخطوات لدور AWS Glue IAM على مستوى الجدول.

تحقق من الأذونات الممنوحة لدور AWS Glue IAM في وحدة تحكم Lake Formation.

منح حق الوصول إلى Iceberg table للحساب الخارجي

في الحساب الثانوي ، أكمل الخطوات التالية لمنح حق الوصول إلى جدول Iceberg لحساب خارجي.

  1. في وحدة تحكم AWS RAM ، اختر مشاركات الموارد في جزء التنقل.
  2. اختر دعوة مشاركات المورد المرسلة من الحساب الأساسي.
  3. اختار قبول حصة الموارد.

يجب أن تكون حالة المورد نشطة الآن.

بعد ذلك ، تحتاج إلى إنشاء رابط مورد لجدول Iceberg المشترك والوصول إليه من خلال Athena.

  1. في وحدة التحكم Lake Formation ، اختر طاولات الطعام في جزء التنقل.
  2. حدد جدول Iceberg (مشترك من الحساب الأساسي).
  3. على الإجراءات القائمة، اختر إنشاء ارتباط الموارد.
  4. في حالة اسم ارتباط المورد، أدخل اسمًا (لهذه المشاركة ،iceberg_table_lf_demo).
  5. في حالة قاعدة البيانات، اختر قاعدة البيانات الخاصة بك وتحقق من ملء الجدول وقاعدة البيانات المشتركين تلقائيًا.
  6. اختار إنشاء.
  7. حدد الجدول الخاص بك وعلى الإجراءات القائمة، اختر عرض البيانات.

تتم إعادة توجيهك إلى وحدة تحكم Athena ، حيث يمكنك الاستعلام عن البيانات.

منح حق الوصول المستند إلى العمود في الحساب الأساسي

للوصول المقيد على مستوى العمود ، تحتاج إلى منح حق الوصول على مستوى العمود في جدول Iceberg. أكمل الخطوات التالية:

  1. في وحدة التحكم Lake Formation ، انتقل إلى قاعدة البيانات الخاصة بك.
  2. على الإجراءات القائمة، اختر منحة.
  3. أختار الحسابات الخارجية وأدخل رقم الحساب الثانوي.
  4. أختار موارد كتالوج البيانات المسماة.
  5. تحقق من اسم الجدول.
  6. في حالة أذونات الجدول، اختر الأذونات التي تريد منحها. لهذا المنشور ، نختار أختار.
  7. تحت أذونات البيانات، اختر الوصول المستند إلى العمود.
  8. أختار قم بتضمين الأعمدة واختر فلاتر الإذن (لهذا المنشور ، Category و Quantity_available).
  9. اختار منحة.

يمكن الآن الاستعلام عن البيانات ذات الأعمدة المقيدة من خلال وحدة تحكم أثينا.

تنظيف

لتجنب تكبد تكاليف مستمرة ، أكمل الخطوات التالية لتنظيف مواردك:

  1. في حسابك الثانوي ، قم بتسجيل الدخول إلى وحدة تحكم Lake Formation.
  2. قم بإسقاط جدول مشاركة الموارد.
  3. في حسابك الأساسي ، قم بتسجيل الدخول إلى وحدة تحكم Lake Formation.
  4. إبطال الوصول الذي قمت بتكوينه.
  5. قم بإسقاط جداول وقاعدة بيانات AWS Glue.
  6. احذف مهمة AWS Glue.
  7. احذف حاويات S3 وأي موارد أخرى قمت بإنشائها كجزء من المتطلبات الأساسية لهذه المشاركة.

وفي الختام

يشرح هذا المنشور كيف يمكنك استخدام إطار عمل Iceberg مع AWS Glue و Lake Formation لتحديد عناصر التحكم في الوصول عبر الحسابات والاستعلام عن البيانات باستخدام Athena. يوفر نظرة عامة على Iceberg وميزاته وأساليب التكامل ، ويشرح كيف يمكنك استيعاب البيانات ، ومنح الوصول عبر الحسابات ، والاستعلام عن البيانات من خلال دليل خطوة بخطوة.

نأمل أن يمنحك هذا نقطة انطلاق رائعة لاستخدام Iceberg لبناء منصة بحيرة البيانات الخاصة بك جنبًا إلى جنب مع خدمات تحليلات AWS لتنفيذ الحل الخاص بك.


حول المؤلف

فيكرام سهاديفان مهندس مقيم أول في فريق AWS Data Lab. إنه يتمتع بالجهود التي تركز على تقديم إرشادات معمارية توجيهية ، ومشاركة أفضل الممارسات ، وإزالة العوائق التقنية من خلال التفاعلات الهندسية المشتركة بين العملاء وموارد AWS التقنية التي تسرع البيانات والتحليلات والذكاء الاصطناعي ومبادرات التعلم الآلي.

سوفيندو كومار باترا يمتلك 18 عامًا من الخبرة في البنية التحتية وتصميم قواعد البيانات وهندسة البيانات ، ويشغل حاليًا منصب كبير المهندسين المقيمين في Amazon Web Services. وهو عضو في مجموعة التركيز المتخصصة ، AWS Data Lab ، وتنطوي واجباته الأساسية على العمل مع فرق القيادة التنفيذية لعملاء AWS الاستراتيجيين لتطوير خرائط طريقهم للبيانات والتحليلات والذكاء الاصطناعي / تعلم الآلة. تتعاون Suvendu بشكل وثيق مع العملاء لتنفيذ هندسة البيانات ، ومركز البيانات ، وبحيرة البيانات ، وحوكمة البيانات ، وحلول EDW ، بالإضافة إلى إستراتيجية بيانات المؤسسة وإدارة البيانات.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة