شعار زيفيرنت

الإعلان عن تصفية البيانات لتكامل Amazon Aurora MySQL Zero-ETL مع Amazon Redshift | خدمات الويب الأمازون

التاريخ:

عندما تصبح مؤسستك تعتمد بشكل أكبر على البيانات وتستخدم البيانات كمصدر للميزة التنافسية، ستحتاج إلى إجراء تحليلات على بياناتك لفهم محركات أعمالك الأساسية بشكل أفضل لزيادة المبيعات وتقليل التكاليف وتحسين أعمالك. لتشغيل التحليلات على بياناتك التشغيلية، يمكنك إنشاء حل يتكون من قاعدة بيانات ومستودع بيانات وخط أنابيب للاستخراج والتحويل والتحميل (ETL). ETL هي عملية يستخدمها مهندسو بيانات العملية لدمج البيانات من مصادر مختلفة.

أعلنت AWS أنه لتقليل الجهد المبذول في بناء وصيانة خطوط أنابيب ETL بين قواعد بيانات المعاملات ومستودعات البيانات تكامل Amazon Aurora بدون ETL مع Amazon Redshift at AWS إعادة: اختراع 2022 وهو الآن متاح بشكل عام (GA) لـ الإصدار المتوافق مع Amazon Aurora MySQL 3.05.0.

تعلن AWS الآن عن تصفية البيانات في عمليات التكامل ذات القيمة صفر ETL، مما يتيح لك جلب بيانات انتقائية من مثيل قاعدة البيانات في عمليات التكامل ذات القيمة صفر ETL بين Amazon Aurora MySQL و الأمازون الأحمر. تسمح لك هذه الميزة بتحديد قواعد بيانات وجداول فردية لنسخها إلى مستودع بيانات Redshift الخاص بك لحالات استخدام التحليلات.

في هذا المنشور، نقدم نظرة عامة على حالات الاستخدام حيث يمكنك استخدام هذه الميزة، ونقدم إرشادات خطوة بخطوة حول كيفية البدء في التحليلات التشغيلية في الوقت الفعلي تقريبًا باستخدام هذه الميزة.

حالات استخدام تصفية البيانات

تسمح لك تصفية البيانات باختيار قواعد البيانات والجداول التي سيتم نسخها من Amazon Aurora MySQL إلى Amazon Redshift. يمكنك تطبيق مرشحات متعددة على التكامل صفر ETL، مما يسمح لك بتخصيص النسخ المتماثل وفقًا لاحتياجاتك المحددة. تنطبق تصفية البيانات إما exclude or include قاعدة التصفية، ويمكن استخدام التعبيرات العادية لمطابقة قواعد بيانات وجداول متعددة.

في هذا القسم، نناقش بعض حالات الاستخدام الشائعة لتصفية البيانات.

تحسين أمان البيانات عن طريق استبعاد الجداول التي تحتوي على بيانات PII من النسخ المتماثل

غالبًا ما تحتوي قواعد البيانات التشغيلية على معلومات تعريف شخصية (PII). هذه معلومات حساسة بطبيعتها، ويمكن أن تتضمن معلومات مثل العناوين البريدية أو وثائق التحقق من العميل أو معلومات بطاقة الائتمان.

نظرًا للوائح الامتثال الأمنية الصارمة، قد لا ترغب في استخدام معلومات تحديد الهوية الشخصية (PII) في حالات استخدام التحليلات الخاصة بك. تسمح لك تصفية البيانات بتصفية قواعد البيانات أو الجداول التي تحتوي على بيانات PII، واستبعادها من النسخ المتماثل إلى Amazon Redshift. يؤدي ذلك إلى تحسين أمان البيانات والامتثال لأحمال عمل التحليلات.

يمكنك توفير تكاليف التخزين وإدارة أعباء عمل التحليلات من خلال نسخ الجداول المطلوبة لحالات استخدام محددة

غالبًا ما تحتوي قواعد البيانات التشغيلية على العديد من مجموعات البيانات المختلفة التي لا تعد مفيدة للتحليلات. يتضمن ذلك البيانات التكميلية وبيانات التطبيق المحددة ونسخ متعددة من نفس مجموعة البيانات لتطبيقات مختلفة.

علاوة على ذلك، من الشائع إنشاء حالات استخدام مختلفة في مستودعات Redshift المختلفة. تتطلب هذه البنية توفير مجموعات بيانات مختلفة في نقاط النهاية الفردية.

تسمح لك تصفية البيانات بتكرار مجموعات البيانات المطلوبة لحالات الاستخدام الخاصة بك فقط. يمكن أن يؤدي ذلك إلى توفير التكاليف عن طريق التخلص من الحاجة إلى تخزين البيانات غير المستخدمة.

يمكنك أيضًا تعديل عمليات التكامل الصفرية ETL الحالية لتطبيق النسخ المتماثل للبيانات الأكثر تقييدًا عند الرغبة. إذا قمت بإضافة عامل تصفية بيانات إلى تكامل موجود، فستعيد Aurora تقييم البيانات التي يتم نسخها باستخدام عامل التصفية الجديد بشكل كامل. سيؤدي هذا إلى إزالة البيانات التي تمت تصفيتها حديثًا من نقطة نهاية Redshift المستهدفة.

لمزيد من المعلومات حول الحصص النسبية لعمليات تكامل Aurora Zero-ETL مع Amazon Redshift، راجع الحصص.

ابدأ بالنسخ المتماثل للبيانات الصغيرة وقم بإضافة الجداول بشكل تدريجي كما هو مطلوب

مع تطوير المزيد من حالات استخدام التحليلات على Amazon Redshift، قد ترغب في إضافة المزيد من الجداول إلى نسخة متماثلة فردية خالية من ETL. بدلاً من نسخ جميع الجداول إلى Amazon Redshift لتلبية فرصة استخدامها في المستقبل، تتيح لك تصفية البيانات البدء بمجموعة فرعية من الجداول من قاعدة بيانات Aurora وإضافة المزيد من الجداول بشكل تدريجي إلى عامل التصفية حسب الحاجة. .

بعد تحديث عامل تصفية البيانات على تكامل صفري ETL، ستعيد Aurora تقييم عامل التصفية بالكامل كما لو كان عامل التصفية السابق غير موجود، لذلك لا تتأثر أعباء العمل التي تستخدم الجداول المنسوخة مسبقًا عند إضافة جداول جديدة.

تحسين أداء عبء العمل الفردي عن طريق عمليات النسخ المتماثل لموازنة التحميل

بالنسبة لقواعد بيانات المعاملات الكبيرة، قد تحتاج إلى موازنة التحميل بين النسخ المتماثل وأي معالجة لاحقة لمجموعات Redshift المتعددة للسماح بتقليل متطلبات الحوسبة لنقطة نهاية Redshift فردية والقدرة على تقسيم أحمال العمل إلى نقاط نهاية متعددة. من خلال موازنة أحمال العمل عبر نقاط نهاية Redshift المتعددة، يمكنك إنشاء بنية شبكة بيانات بشكل فعال، حيث يتم تحديد حجم نقاط النهاية بشكل مناسب لأحمال العمل الفردية. يمكن أن يؤدي ذلك إلى تحسين الأداء وخفض التكلفة الإجمالية.

تسمح لك تصفية البيانات بنسخ قواعد بيانات وجداول مختلفة لفصل نقاط نهاية Redshift.

يوضح الشكل التالي كيف يمكنك استخدام مرشحات البيانات في عمليات التكامل ذات القيمة صفر ETL لتقسيم قواعد البيانات المختلفة في Aurora لفصل نقاط نهاية Redshift.

مثال على حالة الاستخدام

النظر في تذكرة قاعدة البيانات. تحتوي قاعدة بيانات TICKIT النموذجية على بيانات من شركة خيالية حيث يمكن للمستخدمين شراء وبيع التذاكر لأحداث مختلفة. يرغب محللو أعمال الشركة في استخدام البيانات المخزنة في قاعدة بيانات Aurora MySQL الخاصة بهم لإنشاء مقاييس مختلفة، ويرغبون في إجراء هذا التحليل في الوقت الفعلي تقريبًا. ولهذا السبب، حددت الشركة مبدأ صفر ETL كحل محتمل.

طوال التحقيق في مجموعات البيانات المطلوبة، لاحظ محللو الشركة أن جدول المستخدمين يحتوي على معلومات شخصية حول معلومات المستخدم الخاصة بعملائهم والتي ليست مفيدة لمتطلبات التحليلات الخاصة بهم. ولذلك، فإنهم يريدون نسخ كافة البيانات باستثناء جدول المستخدمين وسيستخدمون تصفية البيانات ذات القيمة الصفرية ETL للقيام بذلك.

اقامة

ابدأ باتباع الخطوات الواردة في دليل البدء للتحليلات التشغيلية في الوقت الفعلي تقريبًا باستخدام تكامل Amazon Aurora Zero-ETL مع Amazon Redshift لإنشاء قاعدة بيانات Aurora MySQL جديدة، أمازون Redshift Serverless نقطة النهاية، والتكامل صفر ETL. ثم افتح الإصدار 2 من محرر استعلام Redshift وقم بتشغيل الاستعلام التالي لإظهار أن البيانات من جدول المستخدمين قد تم نسخها بنجاح:

select * from aurora_zeroetl.demodb.users;

مرشحات البيانات

يتم تطبيق مرشحات البيانات مباشرة على التكامل صفر-ETL خدمة قاعدة بيانات الأمازون (أمازون آر دي إس). يمكنك تحديد مرشحات متعددة لتكامل واحد، ويتم تعريف كل مرشح على أنه إما Include or Exclude نوع فلتر. تقوم عوامل تصفية البيانات بتطبيق نمط على جداول قاعدة البيانات الحالية والمستقبلية لتحديد عامل التصفية الذي يجب تطبيقه.

تطبيق عامل تصفية البيانات

لتطبيق مرشح لإزالة users الجدول من التكامل صفر-ETL، أكمل الخطوات التالية:

  1. في وحدة تحكم Amazon RDS ، اختر تكامل Zero-ETL في جزء التنقل.
  2. اختر التكامل صفر-ETL لإضافة عامل تصفية إليه.

عامل التصفية الافتراضي هو تضمين جميع قواعد البيانات والجداول التي يمثلها ملف include:*.* منقي.

  1. اختار عدل.
  2. اختار إضافة مرشح في ال مصدر والقسم الخاص به.
  3. في حالة اختر نوع الفلتر، اختر منع.
  4. في حالة تعبير التصفية، أدخل التعبير demodb.users.

ترتيب تعبيرات التصفية مهم. يتم تقييم المرشحات من اليسار إلى اليمين، ومن الأعلى إلى الأسفل، وستتجاوز المرشحات اللاحقة المرشحات السابقة. في هذا المثال، ستقوم Aurora بتقييم ضرورة تضمين كل جدول (عامل التصفية 1) ثم تقييم ما إذا كان demodb.users يجب استبعاد الجدول (مرشح 2). وبالتالي فإن مرشح الاستبعاد يتجاوز التضمين لأنه يأتي بعد مرشح التضمين.

  1. اختار اتبع الدورة.
  2. راجع التغييرات، وتأكد من صحة ترتيب المرشحات، ثم اختر حفظ التغييرات.

سيتم إضافة التكامل وسيكون في تعديل الدولة حتى يتم تطبيق التغييرات. قد يستغرق هذا ما يصل إلى 30 دقيقة. للتحقق من انتهاء تطبيق التغييرات، اختر تكامل ETL الصفري وتحقق من حالته. عندما يظهر كما النشطه، تم تطبيق التغييرات.

التحقق من التغيير

للتحقق من تحديث التكامل صفر-ETL، أكمل الخطوات التالية:

  1. في الإصدار الثاني من محرر استعلام Redshift، اتصل بمجموعة Redshift الخاصة بك.
  2. اختر (انقر بزر الماوس الأيمن) على aurora-zeroetl قاعدة البيانات التي قمت بإنشائها واختيارها تحديث.
  3. وسع demodb و Tables.

users الجدول لم يعد متوفرا لأنه تمت إزالته من النسخة المتماثلة. جميع الجداول الأخرى لا تزال متاحة.

  1. إذا قمت بتشغيل نفس عبارة SELECT من قبل، فسوف تتلقى خطأ يفيد بأن الكائن غير موجود في قاعدة البيانات:
    select * from aurora_zeroetl.demodb.users;

قم بتطبيق عامل تصفية البيانات باستخدام AWS CLI

يدرك محللو أعمال الشركة الآن أنه تتم إضافة المزيد من قواعد البيانات إلى قاعدة بيانات Aurora MySQL ويريدون التأكد فقط من demodb يتم نسخ قاعدة البيانات إلى مجموعة Redshift الخاصة بهم. ولتحقيق هذه الغاية، يريدون تحديث المرشحات على التكامل صفر ETL مع واجهة سطر الأوامر AWS (AWS CLI).

لإضافة عوامل تصفية البيانات إلى تكامل صفري ETL باستخدام AWS CLI، يمكنك الاتصال بـ تعديل التكامل يأمر. بالإضافة إلى معرف التكامل، حدد --data-filter المعلمة مع قائمة مفصولة بفواصل include و exclude المرشحات.

أكمل الخطوات التالية لتغيير عامل التصفية عند تكامل صفر-ETL:

  1. افتح محطة طرفية مع تثبيت AWS CLI.
  2. أدخل الأمر التالي لسرد جميع عمليات التكامل المتاحة:
    aws rds describe-integrations

  3. ابحث عن التكامل الذي تريد تحديثه وانسخ معرف التكامل.

معرف التكامل عبارة عن سلسلة أبجدية رقمية في نهاية ARN للتكامل.

  1. قم بتشغيل الأمر التالي، التحديث مع المعرف المنسوخ من الخطوة السابقة:
    aws rds modify-integration --integration-identifier "<integration identifier>" --data-filter 'exclude: *.*, include: demodb.*, exclude: demodb.users'

عندما تقوم Aurora بتقييم هذا الفلتر، فإنه سيستبعد كل شيء افتراضيًا، ثم يقوم بتضمين فقط demodb قاعدة البيانات، ولكن استبعاد demodb.users الجدول.

يمكن لمرشحات البيانات تنفيذ التعبيرات العادية لقواعد البيانات والجدول. على سبيل المثال، إذا كنت تريد تصفية أي جداول تبدأ بـ user، يمكنك تشغيل ما يلي:

aws rds modify-integration --integration-identifier "<integration identifier>" --data-filter 'exclude: *.*, include: demodb.*, exclude *./^user/'

كما هو الحال مع تغيير عامل التصفية السابق، ستتم إضافة التكامل وسيكون في ملف تعديل الدولة حتى يتم تطبيق التغييرات. قد يستغرق هذا ما يصل إلى 30 دقيقة. عندما يظهر كما النشطه، تم تطبيق التغييرات.

تنظيف

لإزالة عامل التصفية المضاف إلى تكامل صفر-ETL، أكمل الخطوات التالية:

  1. في وحدة تحكم Amazon RDS ، اختر تكامل Zero-ETL في جزء التنقل.
  2. اختر تكامل صفر ETL الخاص بك.
  3. اختار عدل.
  4. اختار حذف بجوار عوامل التصفية التي تريد إزالتها.
  5. يمكنك أيضًا تغيير ملف منع نوع الفلتر ل تضمن.

وبدلاً من ذلك، يمكنك استخدام AWS CLI لتشغيل ما يلي:

aws rds modify-integration --integration-identifier "<integration identifier>" --data-filter 'include: *.*'

  1. اختار اتبع الدورة.
  2. اختار حفظ التغييرات.

سيستغرق عامل تصفية البيانات ما يصل إلى 30 دقيقة لتطبيق التغييرات. بعد قيامك بإزالة عوامل تصفية البيانات، تقوم Aurora بإعادة تقييم عوامل التصفية المتبقية كما لو أن عامل التصفية الذي تمت إزالته لم يكن موجودًا على الإطلاق. يتم نسخ أي بيانات لم تكن تتطابق مع معايير التصفية في السابق ولكنها تتطابق الآن مع معايير التصفية في مستودع بيانات Redshift الهدف.

وفي الختام

في هذا المنشور، أوضحنا لك كيفية إعداد تصفية البيانات على تكامل Aurora Zero-ETL من Amazon Aurora MySQL إلى Amazon Redshift. يتيح لك ذلك تمكين التحليلات في الوقت الفعلي تقريبًا بشأن بيانات المعاملات والتشغيل مع تكرار البيانات المطلوبة فقط.

باستخدام تصفية البيانات، يمكنك تقسيم أحمال العمل إلى نقاط نهاية Redshift منفصلة، ​​والحد من النسخ المتماثل لمجموعات البيانات الخاصة أو السرية، وزيادة أداء أحمال العمل عن طريق نسخ مجموعات البيانات المطلوبة فقط.

لمعرفة المزيد حول تكامل Aurora Zero-ETL مع Amazon Redshift، راجع العمل مع عمليات تكامل Aurora Zero-ETL مع Amazon Redshift و العمل مع عمليات التكامل الصفرية ETL.


عن المؤلفين

جيوتي أجروال هو قائد إدارة المنتج لـ AWS Zero-ETL. وهي تقود استراتيجية المنتج والأعمال، بما في ذلك قيادة المبادرات المتعلقة بالأداء وتجربة العملاء والأمان. وهي تتمتع بخبرة في الحوسبة السحابية وخطوط أنابيب البيانات والتحليلات والذكاء الاصطناعي (AI) وخدمات البيانات بما في ذلك قواعد البيانات ومستودعات البيانات وبحيرات البيانات.


شون بيث
هو مهندس حلول التحليلات في Amazon Web Services. يتمتع بخبرة في دورة حياة التسليم الكاملة لتحديث منصة البيانات باستخدام خدمات AWS، ويعمل مع العملاء للمساعدة في تعزيز قيمة التحليلات على AWS.

جوكول ساونداراجان هو مهندس رئيسي في AWS وحصل على درجة الدكتوراه من جامعة تورنتو وكان يعمل في مجالات التخزين وقواعد البيانات والتحليلات.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة