شعار زيفيرنت

مراجعة AWS Lake Formation لعام 2023 | خدمات الويب الأمازون

التاريخ:

تكوين بحيرة AWS و غراء AWS يشكل كتالوج البيانات جزءًا لا يتجزأ من حل إدارة البيانات لبحيرات البيانات المبنية عليه خدمة تخزين أمازون البسيطة (Amazon S3) مع خدمات تحليلات AWS المتعددة التي تتكامل معها. في 2022تحدثنا عن التحسينات التي أجريناها على هذه الخدمات. نواصل الاستماع إلى قصص العملاء والعمل بشكل عكسي لدمج أفكارهم في منتجاتنا. في هذا المنشور، يسعدنا تلخيص نتائج عملنا الشاق في عام 2023 لتحسين وتبسيط إدارة البيانات للعملاء.

لقد أعلنا عن ميزاتنا وإمكانياتنا الجديدة خلال AWS re:Invent 2023، كما هي عادتنا كل عام. فيما يلي إعادة: محادثات Invent 2023 التي تعرض إمكانيات Lake Formation وData Catalog:

نقوم بتجميع القدرات الجديدة في أربع فئات:

  • اكتشف وآمن
  • تواصل مع مشاركة البيانات
  • التوسع والتحسين
  • التدقيق والمراقبة

دعونا نتعمق أكثر ونناقش الإمكانات الجديدة التي سيتم تقديمها في عام 2023.

اكتشف وآمن

باستخدام Lake Formation وكتالوج البيانات باعتبارهما اللبنات الأساسية، فإننا أطلقت أمازون داتازون في أكتوبر 2023. DataZone هي خدمة لإدارة البيانات تجعل من السهل عليك فهرسة البيانات المخزنة عبر AWS واكتشافها ومشاركتها وإدارتها، سواء في أماكن العمل أو في مصادر خارجية. تعمل عمليات سير عمل النشر والاشتراك في DataZone على تعزيز التعاون بين الأدوار المختلفة في مؤسستك وتسريع الوقت لاستخلاص رؤى الأعمال من بياناتك. يمكنك تحسين البيانات التعريفية الفنية لكتالوج البيانات باستخدام مساعدين مدعومين بالذكاء الاصطناعي في بيانات تعريف الأعمال الخاصة بـ DataZone، مما يسهل اكتشافها. تقوم DataZone تلقائيًا بإدارة أذونات بياناتك المشتركة في مشاريع DataZone. لمعرفة المزيد حول DataZone، راجع دليل المستخدم. Bienvenue في DataZone!

برامج زحف AWS Glue تصنيف البيانات لتحديد التنسيق والمخطط والخصائص المرتبطة بالبيانات الأولية، وتجميع البيانات في جداول أو أقسام، وكتابة بيانات التعريف في كتالوج البيانات. في عام 2023، أصدرنا العديد من التحديثات لبرامج زحف AWS Glue. أضفنا القدرة على جلب الخاص بك الإصدارات المخصصة من برامج تشغيل JDBC في برامج الزحف لاستخراج مخططات البيانات من مصادر البيانات الخاصة بك وملء كتالوج البيانات. لتحسين عملية استرجاع الأقسام وتحسين أداء الاستعلام، أضفنا ميزة برامج الزحف إلى إضافة فهارس القسم تلقائيًا للجداول المكتشفة حديثا. نحن أيضا الزواحف المتكاملة مع تكوين البحيرة، ودعم الأذونات المركزية للزحف داخل الحساب وعبر الحسابات في مستودعات بيانات S3. هذه بعض التحسينات المطلوبة كثيرًا والتي تعمل على تبسيط عملية اكتشاف البيانات الوصفية باستخدام برامج الزحف. الزواحف، تحية!

لقد شهدنا أيضًا ارتفاعًا هائلاً في استخدام تنسيقات الجدول المفتوح (OTFs) مثل Linux Foundation Delta Lake، اباتشي فيضو اباتشي هودي. لدعم هذه OTFs الشائعة، أضفنا دعمًا للزحف إلى تنسيقات الجداول الثلاثة هذه في كتالوج البيانات. علاوة على ذلك، عملنا مع خدمات تحليلات AWS الأخرى، مثل أمازون EMR، لتمكين أذونات Lake Formation الدقيقة كافة تنسيقات الجدول الثلاثة المفتوحة. نحن نشجعك على الاستكشاف ما هي ميزات Lake Formation المدعومة لجداول OTF. متكامل تمامًا!

مع زيادة مصادر البيانات وأنواعها بمرور الوقت، لا بد أن يكون لديك أنواع بيانات متداخلة في بحيرة البيانات الخاصة بك عاجلاً أم آجلاً. ولجلب إدارة البيانات إلى مجموعات البيانات هذه دون تسطيحها، أضافت Lake Formation دعمًا لضوابط الوصول الدقيقة على أنواع البيانات والأعمدة المتداخلة. أضفنا أيضًا دعمًا لعناصر التحكم في الوصول الدقيقة إلى Lake Formation أثناء التشغيل وظائف Apache Hive على Amazon EMR على EC2 وعلى ستوديو أمازون إي إم آر. مع أمازون EMR بدون خادم، أصبح التحكم الدقيق في الوصول باستخدام Lake Formation الآن متاح في المعاينة. ربط النقاط!

في AWS، نعمل عن كثب مع عملائنا لفهم تجربتهم. لقد أدركنا أن الصعود إلى Lake Formation من إدارة الهوية والوصول AWS يمكن تبسيط الأذونات المستندة إلى (IAM) لـ Amazon S3 وAWS Glue Data Catalog. لقد أدركنا أن حالات الاستخدام الخاصة بك تحتاج إلى مزيد من المرونة في إدارة البيانات. مع ال وضع الوصول المختلط في Lake Formation، قدمنا ​​إضافة انتقائية لأذونات Lake Formation لبعض المستخدمين وقواعد البيانات، دون مقاطعة المستخدمين وأعباء العمل الآخرين. يمكنك تحديد جدول كتالوج في الوضع المختلط ومنح حق الوصول للمستخدمين الجدد مثل محللي البيانات وعلماء البيانات الذين يستخدمون Lake Formation بينما تستمر خطوط أنابيب الإنتاج الخاصة بك للاستخراج والتحويل والتحميل (ETL) في استخدام الأذونات الحالية المستندة إلى IAM. انتصار مزدوج!

دعونا نتحدث عن إدارة الهوية. يمكنك استخدام مبادئ IAM، الأمازون Quicksight المستخدمين والمجموعات، والحسابات الخارجية ومديري IAM في الحسابات الخارجية لمنح الوصول إلى موارد كتالوج البيانات في Lake Formation. ماذا عن هويات شركتك؟ هل تحتاج إلى إنشاء أدوار IAM متعددة والحفاظ عليها وتعيينها لهويات الشركة المختلفة؟ يمكنك رؤية دور IAM الذي وصل إلى الجدول، ولكن كيف يمكنك معرفة المستخدم الذي وصل إليه؟ للإجابة على هذه الأسئلة، تم دمج Lake Formation مع AWS IAM Identity Center وأضاف ميزة نشر الهوية الموثوقة. باستخدام هذا، يمكنك منح أذونات وصول دقيقة للهويات من موفر الهوية الحالي لمؤسستك. آخر خدمات تحليلات AWS كما تدعم هوية المستخدم ليتم نشرها. يمكن للمدققين لديك الآن رؤية ذلك المستخدم john@anycompany.comعلى سبيل المثال، تمكن من الوصول إلى الجدول المُدار بواسطة أذونات Lake Formation باستخدام أمازون أثيناوأمازون إي إم آر و طيف الأمازون للانزياح الأحمر. التكامل سهل!

لا داعي للقلق الآن بشأن نقل البيانات أو نسخ كتالوج البيانات إلى منطقة AWS أخرى لاستخدام خدمات AWS لإدارة البيانات. لقد توسعنا وصنعنا تكوين البحيرة متاح في جميع المناطق في 2023. إت فويلا!

تواصل مع مشاركة البيانات

توفر Lake Formation طريقة مباشرة لمشاركة كائنات كتالوج البيانات مثل قواعد البيانات والجداول مع المستخدمين الداخليين والخارجيين. تعمل هذه الآلية على تمكين المؤسسات من الوصول السريع والآمن إلى البيانات وتسريع عملية اتخاذ القرارات التجارية. دعونا نراجع الميزات والتحسينات الجديدة التي تم إجراؤها في عام 2023 تحت هذا الموضوع.

يعد كتالوج بيانات AWS Glue المكون المركزي والأساسي لإدارة البيانات لكل من Lake Formation وDataZone. في عام 2023، قمنا بتوسيع كتالوج البيانات من خلال الاتحاد إلى التكامل مع Metastores الخارجية لـ Apache Hive و عمليات مشاركة البيانات ذات الانزياح الأحمر. لقد وفرنا أيضا رمز الموصل، والتي يمكنك تخصيصها لتوصيل كتالوج البيانات بوحدات تعريفية إضافية متوافقة مع Apache Hive. تمهد عمليات التكامل هذه الطريق للحصول على المزيد من البيانات التعريفية في كتالوج البيانات، وتسمح بعناصر تحكم دقيقة في الوصول ومشاركة هذه الموارد عبر حسابات AWS دون عناء باستخدام أذونات Lake Formation. أضفنا أيضًا دعمًا للوصول إلى جدول كتالوج البيانات لمنطقة واحدة من المناطق الأخرى باستخدام روابط الموارد عبر المنطقة. يعمل هذا التحسين على تبسيط العديد من حالات الاستخدام لتجنب تكرار البيانات التعريفية.

مع اتحاد AWS CloudTrail Lake الميزة، يمكنك اكتشاف بيانات CloudTrail Lake وتحليلها والانضمام إليها ومشاركتها مع مصادر البيانات الأخرى في كتالوج البيانات. بالنسبة إلى CloudTrail Lake، تتوفر عناصر التحكم الدقيقة في الوصول وإمكانات الاستعلام والتصور من خلال Athena.

لقد قمنا بتوسيع قدرات كتالوج البيانات لدعم الزي الموحد الرؤى عبر بحيرة البيانات الخاصة بك. يمكنك إنشاء عروض باستخدام لهجات SQL واستعلام مختلفة من Athena وRedshift Spectrum وAmazon EMR. يتيح لك هذا الاحتفاظ بالأذونات على مستوى العرض وعدم مشاركة الجداول الفردية. ميزة طرق عرض كتالوج البيانات هي متاح في المعاينةتم الإعلان عنه في إعادة: اختراع 2023.

التوسع والتحسين

نظرًا لأن استعلامات SQL تصبح أكثر تعقيدًا مع تغير البيانات بمرور الوقت أو تحتوي على صلات متعددة، يمكن للمحسن المستند إلى التكلفة (CBO) أن يدفع التحسينات في خطة الاستعلام ويؤدي إلى أداء أسرع، استنادًا إلى إحصائيات البيانات الموجودة في الجداول. وفي عام 2023، أضفنا دعمًا لـ إحصائيات على مستوى العمود للجداول في كتالوج البيانات. يشهد العملاء بالفعل تحسينات في أداء الاستعلام في Athena وRedshift Spectrum، مع تشغيل إحصائيات أعمدة الجدول. Suivez les chiffres!

يزيل التحكم في الوصول المستند إلى العلامات الحاجة إلى تحديث سياساتك في كل مرة تتم فيها إضافة مورد جديد إلى بحيرة البيانات. وبدلاً من ذلك، يقوم مسؤولو بحيرة البيانات بإنشاء علامات تكوين البحيرة (علامات LF) لوضع علامة على كائنات كتالوج البيانات ومنح حق الوصول استنادًا إلى علامات LF هذه للمستخدمين والمجموعات. وفي عام 2023، أضفنا دعمًا لـ تفويض LF-Tag، حيث يمكن لمسؤولي Data Lake منح الأذونات لمشرفي البيانات والمستخدمين الآخرين لإدارة علامات LF دون الحاجة إلى امتيازات المسؤول. LF-Tag الديمقراطية!

يستخدم تنسيق Apache Iceberg بيانات التعريف لتتبع ملفات البيانات التي يتكون منها الجدول. تؤدي التغييرات التي يتم إجراؤها على الجداول، مثل الإدخالات أو التحديثات، إلى إنشاء ملفات بيانات جديدة. ومع تزايد عدد ملفات البيانات الخاصة بالجدول، قد تصبح الاستعلامات التي تستخدم هذا الجدول أقل كفاءة. لتحسين أداء الاستعلام في جدول Iceberg، تحتاج إلى تقليل عدد ملفات البيانات عن طريق ضغط ملفات التقاط التغيير الأصغر في ملفات أكبر. يقوم المستخدمون عادةً بإنشاء البرامج النصية وتشغيلها لتحسين ملفات جدول Iceberg هذه في خوادمهم الخاصة أو من خلال AWS Glue ETL. للتخفيف من هذه الصيانة المعقدة لطاولات Iceberg، اتصل بنا العملاء للحصول على حل أفضل. قدمنا ​​الميزة ل الضغط التلقائي لجداول Apache Iceberg في كتالوج البيانات. بعد تشغيل الضغط التلقائي، يقوم كتالوج البيانات تلقائيًا بإدارة البيانات التعريفية للجدول ويمنحك تخطيط Amazon S3 المحسن دائمًا لجداول Iceberg الخاصة بك. لمعرفة المزيد، تحقق من تحسين جداول جبل الجليد. آلي!

التدقيق والمراقبة

تعد معرفة من يمكنه الوصول إلى البيانات عنصرًا حاسمًا في إدارة البيانات. يحتاج المدققون إلى التحقق من صحة تعيين بيانات التعريف الصحيحة وأذونات البيانات في Lake Formation وكتالوج البيانات. يتمتع مسؤولو Data Lake بحق الوصول الكامل إلى الأذونات وبيانات التعريف، ويمكنهم منح حق الوصول إلى البيانات نفسها. لتزويد المراجعين بخيار البحث ومراجعة أذونات بيانات التعريف دون منحهم حق الوصول لإجراء تغييرات على الأذونات، قدمنا دور المسؤول للقراءة فقط في تكوين البحيرة. يتيح لك هذا الدور تدقيق بيانات تعريف الكتالوج وأذونات Lake Formation وعلامات LF مع منعها من إجراء أي تغييرات عليها.

وفي الختام

لقد كان عام 2023 رائعًا، حيث قمنا بتطوير تحسينات المنتج لمساعدتك على تبسيط وتعزيز إدارة بياناتك باستخدام Lake Formation وكتالوج البيانات. نحن ندعوك لتجربة هذه الميزات الجديدة. فيما يلي قائمة بمنشورات الإطلاق الخاصة بنا للرجوع إليها:

  • ميزات كتالوج البيانات والزاحف:
  • ميزات تكوين البحيرة:

سنواصل الابتكار نيابة عن عملائنا في عام 2024. يرجى مشاركة أفكارك وحالات الاستخدام وتعليقاتك لتحسين منتجاتنا في قسم التعليقات أو من خلال فرق حساب AWS الخاصة بك. نتمنى لكم سنة 2024 سعيدة ومزدهرة. عام سعيد!


عن المؤلفين

آرثي سرينيفاسان هو كبير مهندسي البيانات الضخمة مع AWS Lake Formation. إنها تحب بناء حلول بحيرة البيانات لعملاء وشركاء AWS. عندما لا تكون على لوحة المفاتيح ، تستكشف أحدث اتجاهات العلوم والتكنولوجيا وتقضي وقتًا مع عائلتها.

ليون ستيجتر هو مدير منتج فني أول لدى AWS Lake Formation. ينصب تركيز ليون على مساعدة المطورين على بناء مستودعات بيانات بشكل أسرع، مع اتصال سلس بالأدوات التحليلية، لتحويل البيانات إلى رؤى تغير قواعد اللعبة. يهتم ليون بالبيانات والتقنيات غير الخادمة، ويستمتع باستكشاف مدن مختلفة في مهمته لتذوق كعكة الجبن في كل مكان يذهب إليه.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة