شعار زيفيرنت

تعلن Amazon DataZone عن التكامل مع وضع الوصول المختلط AWS Lake Formation لكتالوج بيانات AWS Glue | خدمات الويب الأمازون

التاريخ:

أعلنا الأسبوع الماضي عن توافر العام من التكامل بين أمازون داتازون و تكوين بحيرة AWS وضع الوصول المختلط. في هذا المنشور، نشارك كيف تساعدك هذه الميزة الجديدة على تبسيط الطريقة التي تستخدم بها Amazon DataZone لتمكين المشاركة الآمنة والمحكومة لبياناتك في غراء AWS كتالوج البيانات. نتعمق أيضًا في كيفية قيام منتجي البيانات بمشاركة جداول AWS Glue الخاصة بهم من خلال Amazon DataZone دون الحاجة إلى تسجيلها في Lake Formation أولاً.

نظرة عامة على تكامل Amazon DataZone مع وضع الوصول المختلط Lake Formation

Amazon DataZone هي خدمة إدارة بيانات مُدارة بالكامل لفهرسة البيانات واكتشافها وتحليلها ومشاركتها وإدارتها بين منتجي البيانات والمستهلكين في مؤسستك. باستخدام Amazon DataZone، يقوم منتجو البيانات بملء كتالوج بيانات الأعمال بأصول البيانات من مصادر البيانات مثل AWS Glue Data Catalog و الأمازون الأحمر. كما أنها تعمل أيضًا على إثراء أصولها بسياق الأعمال لتسهيل فهمها على مستهلكي البيانات. بعد توفر البيانات في الكتالوج، يمكن لمستهلكي البيانات مثل المحللين وعلماء البيانات البحث في هذه البيانات والوصول إليها عن طريق طلب الاشتراكات. عند الموافقة على الطلب، يمكن لـ Amazon DataZone توفير الوصول إلى البيانات تلقائيًا عن طريق إدارة الأذونات في Lake Formation أو Amazon Redshift بحيث يمكن لمستهلك البيانات البدء في الاستعلام عن البيانات باستخدام أدوات مثل أمازون أثينا أو التحول نحو الأحمر الأمازون.

لإدارة الوصول إلى البيانات في AWS Glue Data Catalog، تستخدم Amazon DataZone Lake Formation. في السابق، إذا كنت تريد استخدام Amazon DataZone لإدارة الوصول إلى بياناتك في AWS Glue Data Catalog، كان عليك إدخال بياناتك إلى Lake Formation أولاً. الآن، يعمل تكامل وضع الوصول المختلط Amazon DataZone وLake Formation على تبسيط كيفية البدء في رحلة Amazon DataZone الخاصة بك عن طريق إزالة الحاجة إلى نقل بياناتك إلى Lake Formation أولاً.

تشكيل البحيرة وضع الوصول المختلط يسمح لك ببدء إدارة الأذونات على قواعد بيانات وجداول AWS Glue من خلال Lake Formation، مع الاستمرار في الحفاظ على أي أذونات موجودة إدارة الهوية والوصول AWS (IAM) أذونات على هذه الجداول وقواعد البيانات. يدعم وضع الوصول المختلط Lake Formation مسارين للأذونات لنفس قواعد بيانات وجداول كتالوج البيانات:

  • في المسار الأول، يتيح لك Lake Formation تحديد مديرين محددين (مبادئ الاشتراك) ومنحهم أذونات Lake Formation للوصول إلى قواعد البيانات والجداول عن طريق الاشتراك
  • يسمح المسار الثاني لجميع المديرين الآخرين (التي لم يتم إضافتها كمديرين اختياريين) بالوصول إلى هذه الموارد من خلال سياسات IAM الرئيسية لـ خدمة تخزين أمازون البسيطة (Amazon S3) وإجراءات AWS Glue

من خلال التكامل بين وضع الوصول المختلط Amazon DataZone وLake Formation، إذا كان لديك جداول في AWS Glue Data Catalog تتم إدارتها من خلال السياسات المستندة إلى IAM، فيمكنك نشر هذه الجداول مباشرة إلى Amazon DataZone، دون تسجيلها في Lake Formation. تسجل Amazon DataZone موقع هذه الجداول في Lake Formation باستخدام وضع الوصول المختلط، والذي يسمح بإدارة الأذونات على جداول AWS Glue من خلال Lake Formation، مع الاستمرار في الحفاظ على أي أذونات IAM موجودة.

يمكّنك Amazon DataZone من نشر أي نوع من الأصول في كتالوج بيانات الأعمال. بالنسبة لبعض هذه الأصول، يمكن لـ Amazon DataZone إدارة منح الوصول تلقائيًا. تسمى هذه الأصول الأصول المدارة، وتتضمن جداول كتالوج البيانات المُدارة بواسطة Lake Formation وجداول وطرق عرض Amazon Redshift. قبل هذا التكامل، كان عليك إكمال الخطوات التالية قبل أن تتمكن Amazon DataZone من التعامل مع جدول كتالوج البيانات المنشور كأصل مُدار:

  1. قم بتعريف موقع Amazon S3 المرتبط بجدول كتالوج البيانات.
  2. سجل موقع Amazon S3 مع Lake Formation في وضع الوصول المختلط باستخدام دور مع الأذونات المناسبة.
  3. انشر البيانات التعريفية للجدول في كتالوج بيانات أعمال Amazon DataZone.

يوضح الرسم البياني التالي سير العمل هذا.

من خلال تكامل Amazon DataZone مع وضع الوصول المختلط Lake Formation، يمكنك ببساطة نشر جداول AWS Glue الخاصة بك إلى Amazon DataZone دون الحاجة إلى القلق بشأن تسجيل موقع Amazon S3 أو إضافة مبدأ الاشتراك في Lake Formation عن طريق تفويض هذه الخطوات إلى Amazon DataZone . يمكن لمسؤول حساب AWS تمكين إعداد تسجيل موقع البيانات ضمن DefaultDataLake مخطط على وحدة تحكم Amazon DataZone. الآن، يمكن لمالك البيانات أو الناشر نشر جدول AWS Glue (الذي تتم إدارته من خلال أذونات IAM) إلى Amazon DataZone دون خطوات الإعداد الإضافية. عندما يشترك مستهلك البيانات في هذا الجدول، تقوم Amazon DataZone بتسجيل مواقع Amazon S3 الخاصة بالجدول في وضع الوصول المختلط، وتضيف دور IAM الخاص بمستهلك البيانات كمبدأ اختياري، وتمنح الوصول إلى نفس دور IAM من خلال إدارة الأذونات على الجدول من خلال تكوين البحيرة. وهذا يضمن أن أذونات IAM الموجودة في الجدول يمكن أن تتواجد مع أذونات Lake Formation الممنوحة حديثًا، دون تعطيل أي سير عمل موجود. ويوضح الرسم البياني التالي سير العمل هذا.

حل نظرة عامة

لتوضيح هذه الإمكانية الجديدة، نستخدم نموذجًا لسيناريو العميل حيث يريد الفريق المالي الوصول إلى البيانات المملوكة لفريق المبيعات للتحليل المالي وإعداد التقارير. يمتلك فريق المبيعات مسارًا ينشئ مجموعة بيانات تحتوي على معلومات قيمة حول مبيعات التذاكر والأحداث الشهيرة والأماكن والمواسم. نحن نسميها مجموعة بيانات Ticketit. يقوم فريق المبيعات بتخزين مجموعة البيانات هذه في Amazon S3 ويسجلها في قاعدة بيانات في كتالوج البيانات. تتم إدارة الوصول إلى هذا الجدول حاليًا من خلال الأذونات المستندة إلى IAM. ومع ذلك، يريد فريق المبيعات نشر هذا الجدول على Amazon DataZone لتسهيل مشاركة البيانات بشكل آمن ومنظم مع الفريق المالي.

خطوات تكوين هذا الحل هي كما يلي:

  1. يقوم مسؤول Amazon DataZone بتمكين إعداد تسجيل موقع بحيرة البيانات في Amazon DataZone لتسجيل موقع Amazon S3 تلقائيًا لجداول AWS Glue في وضع الوصول المختلط Lake Formation.
  2. بعد تمكين تكامل وضع الوصول المختلط في Amazon DataZone، يطلب الفريق المالي الاشتراك في أصل بيانات المبيعات. يظهر الأصل كأصل مُدار، مما يعني أن Amazon DataZone يمكنه إدارة الوصول إلى هذا الأصل حتى لو لم يكن موقع Amazon S3 لهذا الأصل مسجلاً في Lake Formation.
  3. يتم إخطار فريق المبيعات بطلب الاشتراك المقدم من الفريق المالي. يقومون بمراجعة طلب الوصول والموافقة عليه. بعد الموافقة على الطلب، تفي Amazon DataZone بطلب الاشتراك عن طريق إدارة الأذونات في Lake Formation. يقوم بتسجيل موقع Amazon S3 للجدول المشترك في الوضع المختلط Lake Formation.
  4. يتمكن الفريق المالي من الوصول إلى مجموعة بيانات المبيعات المطلوبة لتقاريره المالية. يمكنهم الانتقال إلى بيئة DataZone الخاصة بهم والبدء في تشغيل الاستعلامات باستخدام Athena مقابل مجموعة البيانات المشتركة الخاصة بهم.

المتطلبات الأساسية المسبقة

لاتباع الخطوات الواردة في هذا المنشور، تحتاج إلى حساب AWS. إذا لم يكن لديك حساب، يمكنك ذلك اصنع واحدا. بالإضافة إلى ذلك، يجب أن يكون لديك الموارد التالية التي تم تكوينها في حسابك:

  • دلو S3
  • قاعدة بيانات AWS Glue والزاحف
  • أدوار IAM لمختلف الأشخاص والخدمات
  • مجال ومشروع Amazon DataZone
  • ملف تعريف وبيئة بيئة Amazon DataZone
  • مصدر بيانات Amazon DataZone

إذا لم تكن هذه الموارد قد تم تكوينها بالفعل، فيمكنك إنشاؤها عن طريق نشر ما يلي تكوين سحابة AWS كومة:

  1. اختار قم بتشغيل Stack لنشر قالب CloudFormation.
  2. أكمل الخطوات لنشر النموذج وترك جميع الإعدادات كافتراضية.
  3. أختار أقر بأن AWS CloudFormation قد تنشئ موارد IAM، ثم اختر تقدم.

بعد اكتمال نشر CloudFormation، يمكنك تسجيل الدخول إلى بوابة Amazon DataZone وتشغيل مصدر البيانات يدويًا. يؤدي ذلك إلى سحب أي بيانات تعريف جديدة أو معدلة من المصدر وتحديث الأصول المرتبطة في المخزون. تم تكوين مصدر البيانات هذا لنشر أصول البيانات تلقائيًا إلى الكتالوج.

  1. في وحدة تحكم Amazon DataZone، اختر عرض المجالات.

يجب عليك تسجيل الدخول باستخدام نفس الدور المستخدم لنشر CloudFormation والتحقق من وجودك في نفس منطقة AWS.

  1. ابحث عن المجال blog_dz_domain، ثم اختر بوابة البيانات المفتوحة.
  2. اختار تصفح كافة المشاريع واختر مشروع منتج المبيعات.
  3. على البيانات علامة التبويب، اختر مصادر البيانات في جزء التنقل.
  4. حدد موقع مصدر البيانات الذي تريد تشغيله واختره.

يؤدي هذا إلى فتح صفحة تفاصيل مصدر البيانات.

  1. اختر قائمة الخيارات (ثلاث نقاط رأسية) بجوار tickit_datasource واختر يجري.

تتغير حالة مصدر البيانات إلى قيد التشغيل بينما يقوم Amazon DataZone بتحديث البيانات التعريفية للأصول.

تمكين تكامل الوضع المختلط في Amazon DataZone

في هذه الخطوة، يمر مسؤول Amazon DataZone بعملية تمكين تكامل Amazon DataZone مع وضع الوصول المختلط Lake Formation. أكمل الخطوات التالية:

  1. في علامة تبويب متصفح منفصلة، ​​افتح وحدة تحكم Amazon DataZone.

تأكد من أنك في نفس المنطقة التي قمت بنشر قالب CloudFormation فيها.

  1. اختار عرض المجالات.
  2. اختر المجال الذي أنشأته AWS CloudFormation، blog_dz_domain.
  3. قم بالتمرير لأسفل على صفحة تفاصيل المجال واختر المخططات علامة التبويب.

A مخطط يحدد أدوات وخدمات AWS التي يمكن استخدامها مع أصول البيانات المنشورة في Amazon DataZone. ال DefaultDataLake يتم تمكين المخطط كجزء من نشر مكدس CloudFormation. يمكّنك هذا المخطط من إنشاء جداول AWS Glue والاستعلام عنها باستخدام Athena. للتعرف على خطوات تمكين ذلك في عمليات النشر الخاصة بك، راجع قم بتمكين المخططات المضمنة في حساب AWS الذي يمتلك مجال Amazon DataZone.

  1. اختيار DefaultDataLake مخطط.
  2. على تموين علامة التبويب، اختر تعديل.
  3. أختار قم بتمكين Amazon DataZone من تسجيل مواقع S3 باستخدام وضع الوصول المختلط AWS Lake Formation.

لديك خيار استبعاد مواقع Amazon S3 محددة إذا كنت لا تريد أن تقوم Amazon DataZone بتسجيلها تلقائيًا في وضع الوصول المختلط Lake Formation.

  1. اختار حفظ التغييرات.

طلب الدخول

في هذه الخطوة، تقوم بتسجيل الدخول إلى Amazon DataZone بصفتك الفريق المالي، وتبحث عن أصل بيانات المبيعات، وتشترك فيه. أكمل الخطوات التالية:

  1. ارجع إلى علامة تبويب متصفح بوابة بيانات Amazon DataZone.
  2. قم بالتبديل إلى مشروع التمويل الاستهلاكي عن طريق اختيار القائمة المنسدلة الموجودة بجوار اسم المشروع واختياره تمويل المشروع الاستهلاكي.

من هذه الخطوة فصاعدًا، ستأخذ شخصية مستخدم الشؤون المالية الذي يتطلع إلى الاشتراك في أصل البيانات المنشور في الخطوة السابقة.

  1. في شريط البحث، ابحث عن الخيار واختره sales أصول البيانات.
  2. اختار اشتراك.

يظهر الأصل كأصل مُدار. وهذا يعني أن Amazon DataZone يمكنها منح الوصول إلى أصل البيانات هذا لمشروع الفريق المالي من خلال إدارة الأذونات في Lake Formation.

  1. أدخل سبب طلب الوصول ثم اختر اشتراك.

الموافقة على طلب الوصول

يتلقى فريق المبيعات إشعارًا بإرسال طلب وصول من الفريق المالي. للموافقة على الطلب، قم بإكمال الخطوات التالية:

  1. اختر القائمة المنسدلة بجوار اسم المشروع واختر مشروع منتج المبيعات.

أنت الآن تتولى شخصية فريق المبيعات، وهم المالكون والمشرفون على أصول بيانات المبيعات.

  1. اختر رمز الإشعارات في الزاوية العلوية اليمنى من بوابة DataZone.
  2. اختيار تم إنشاء طلب الاشتراك المهمة.
  3. امنح حق الوصول إلى أصل بيانات المبيعات للفريق المالي واختر الموافقة على.

حلل البيانات

تم الآن منح الفريق المالي حق الوصول إلى بيانات المبيعات، وتم نقل مجموعة البيانات هذه إلى بيئة Amazon DataZone الخاصة بهم. يمكنهم الوصول إلى البيئة والاستعلام عن مجموعة بيانات المبيعات باستخدام Athena، بالإضافة إلى أي مجموعات بيانات أخرى يمتلكونها حاليًا. أكمل الخطوات التالية:

  1. في القائمة المنسدلة، اختر تمويل المشروع الاستهلاكي.

في الجزء الأيسر من شاشة النظرة العامة على المشروع، يمكنك العثور على قائمة بالبيئات النشطة المتاحة للاستخدام.

  1. اختر بيئة Amazon DataZone finance_dz_environment.
  2. في جزء التنقل ، أسفل أصول البيانات، اختر اكتتبت.
  3. تحقق من أن البيئة الخاصة بك لديها الآن حق الوصول إلى بيانات المبيعات.

قد يستغرق الأمر بضع دقائق حتى تتم إضافة أصل البيانات تلقائيًا إلى بيئتك.

  1. اختر رمز علامة التبويب الجديدة لـ بيانات الاستعلام.

يتم فتح علامة تبويب جديدة باستخدام محرر استعلام Athena.

  1. في حالة قاعدة البيانات، اختر finance_consumer_db_tickitdb-<suffix>.

ستحتوي قاعدة البيانات هذه على أصول البيانات التي اشتركت فيها.

  1. قم بإنشاء معاينة لجدول المبيعات عن طريق اختيار قائمة الخيارات (ثلاث نقاط رأسية) والاختيار جدول المعاينة.

تنظيف

لتنظيف مواردك ، أكمل الخطوات التالية:

  1. قم بالتبديل مرة أخرى إلى دور المسؤول الذي استخدمته لنشر مكدس CloudFormation.
  2. على وحدة تحكم Amazon DataZone، حذف المشاريع المستخدمة في هذا المنصب. سيؤدي هذا إلى حذف معظم الكائنات المتعلقة بالمشروع مثل أصول البيانات والبيئات.
  3. في وحدة تحكم AWS CloudFormation، احذف المجموعة التي قمت بنشرها في بداية هذا المنشور.
  4. في وحدة تحكم Amazon S3، احذف مجموعات S3 التي تحتوي على مجموعة بيانات التجزئة.
  5. في وحدة تحكم Lake Formation، احذف مسؤولي Lake Formation المسجلين بواسطة Amazon DataZone.
  6. في وحدة تحكم Lake Formation، احذف الجداول وقواعد البيانات التي أنشأتها Amazon DataZone.

وفي الختام

في هذا المنشور، ناقشنا كيف يعمل التكامل بين وضع الوصول المختلط Amazon DataZone وLake Formation على تبسيط عملية بدء استخدام Amazon DataZone للحوكمة الشاملة لبياناتك في AWS Glue Data Catalog. يساعدك هذا التكامل على تجاوز الخطوات اليدوية للالتحاق بـ Lake Formation قبل أن تتمكن من البدء في استخدام Amazon DataZone.

لمزيد من المعلومات حول كيفية بدء استخدام Amazon DataZone، راجع دليل البداية. افحص يوتيوب قائمة التشغيل للحصول على بعض أحدث العروض التوضيحية لـ Amazon DataZone وأوصاف مختصرة للإمكانيات المتاحة. لمزيد من المعلومات حول Amazon DataZone، راجع كيف تساعد Amazon DataZone العملاء في العثور على قيمة في محيطات البيانات.


حول المؤلف

أوتكارش ميتال هو مدير فني أول للمنتجات في Amazon DataZone في AWS. إنه متحمس لبناء منتجات مبتكرة تعمل على تبسيط رحلات التحليلات الشاملة للعملاء. خارج عالم التكنولوجيا، يحب أوتكارش تشغيل الموسيقى، وكانت الطبول هي أحدث مساعيه.

برافين كومار، لاعب كريكيت هندي هو مهندس حلول التحليلات الرئيسي في AWS ويتمتع بخبرة في تصميم وبناء وتنفيذ منصات البيانات والتحليلات الحديثة باستخدام الخدمات التي تركز على السحابة. مجالات اهتماماته هي التكنولوجيا بدون خادم، ومستودعات البيانات السحابية الحديثة، والتدفق، وتطبيقات الذكاء الاصطناعي التوليدية.

بول فيلينا هو أحد كبار مهندسي حلول التحليلات في AWS ويتمتع بخبرة في بناء حلول البيانات والتحليلات الحديثة لتعزيز قيمة الأعمال. وهو يعمل مع العملاء لمساعدتهم على تسخير قوة السحابة. مجالات اهتماماته هي البنية التحتية مثل التعليمات البرمجية، والتقنيات بدون خادم، والترميز في بايثون

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة