شعار زيفيرنت

نقدم لكم بيئة Amazon MWAA بأحجام أكبر | خدمات الويب الأمازون

التاريخ:

تدفقات عمل أمازون المدارة لتدفق أباتشي (Amazon MWAA) هي خدمة مُدارة لـ أباتشي تدفق الهواء يعمل على تبسيط عملية إعداد البنية التحتية وتشغيلها لتنسيق خطوط أنابيب البيانات في السحابة. يستخدم العملاء Amazon MWAA لإدارة قابلية التوسع والتوافر والأمان لبيئات Apache Airflow الخاصة بهم. نظرًا لأنهم يصممون خطوط معالجة بيانات أكثر كثافة وتعقيدًا ومتنامية باستمرار، فقد طلب منا العملاء توفير موارد أساسية إضافية لتوفير قدر أكبر من التزامن والسعة لمهامهم وسير عملهم.

ولمعالجة هذه المشكلة، نعلن اليوم عن توفر فئات بيئة أكبر في Amazon MWAA. في هذا المنشور، نتعمق في إمكانيات بيئات XL و2XL الجديدة هذه، والسيناريوهات المناسبة لها تمامًا، وكيف يمكنك إعداد أو ترقية بيئة Amazon MWAA الحالية للاستفادة من الموارد المتزايدة.

التحديات الحالية

عندما تقوم بإنشاء بيئة Amazon MWAA، ستتم إدارة مجموعة من ملفات خدمة الأمازون المرنة للحاويات (Amazon ECS) مع AWS فارجيت يتم تزويد الحاويات بوحدات المعالجة المركزية (CPU) الافتراضية وذاكرة الوصول العشوائي (RAM).

أثناء العمل مع أعباء عمل أكبر وأكثر تعقيدًا وتستهلك موارد كثيرة، أو تشغيل الآلاف منها الرسوم البيانية غير الدورية الموجهة (DAGs) يوميًا، قد تبدأ في استنفاد توفر وحدة المعالجة المركزية على المجدولين والعاملين، أو الوصول إلى حدود الذاكرة لدى العمال. يؤدي تشغيل Apache Airflow على نطاق واسع إلى زيادة العبء نسبيًا على قاعدة بيانات بيانات تعريف Airflow، مما يؤدي أحيانًا إلى حدوث مشكلات في وحدة المعالجة المركزية والذاكرة في القاعدة الأساسية خدمة قاعدة بيانات الأمازون مجموعة (أمازون آر دي إس). قد تؤدي قاعدة بيانات التعريف المتعطشة للموارد إلى انقطاع الاتصالات من العاملين لديك، مما يؤدي إلى فشل المهام قبل الأوان.

لتحسين الأداء ومرونة المهام الخاصة بك، خذ بعين الاعتبار ما يلي أفضل ممارسات Apache Airflow لمؤلف DAGs. وكبديل، يمكنك إنشاء بيئات Amazon MWAA متعددة لتوزيع أعباء العمل. ومع ذلك، فإن هذا يتطلب جهدًا هندسيًا وإداريًا إضافيًا.

فئات البيئة الجديدة

مع إصدار اليوم، يمكنك الآن إنشاء بيئات XL و2XL في Amazon MWAA بالإضافة إلى فئات البيئة الموجودة. لديهم ضعفين وأربعة أضعاف الحوسبة، وثلاثة وستة أضعاف الذاكرة، على التوالي، لفئة مثيل بيئة Amazon MWAA الكبيرة الحالية. تضيف هذه المثيلات الحوسبة وذاكرة الوصول العشوائي (RAM) بشكل خطي لتحسين سعة وأداء جميع مكونات Apache Airflow بشكل مباشر. ويلخص الجدول التالي قدرات البيئة.

. جدولة والعامل وحدة المعالجة المركزية / ذاكرة الوصول العشوائي

خادم الويب

وحدة المعالجة المركزية / ذاكرة الوصول العشوائي

المهام المتزامنة سعة داغ
mw1.xlarge 8 وحدات معالجة مركزية افتراضية / 24 جيجابايت 4 وحدات معالجة مركزية افتراضية / 12 جيجابايت 40 مهمة (افتراضي) حتى 2000
mw1.2xlarge 16 وحدات معالجة مركزية افتراضية / 48 جيجابايت 8 وحدات معالجة مركزية افتراضية / 24 جيجابايت 80 مهمة (افتراضي) حتى 4000

مع تقديم هذه البيئات الأكبر حجمًا، ستستخدم قاعدة بيانات تعريف Amazon Aurora الآن مثيلات أكبر حجمًا ومُحسَّنة للذاكرة مدعومة بواسطة أوس جرافيتون2. مع عائلة معالجات Graviton2، يمكنك الحصول على تحسينات في الحوسبة والتخزين والشبكات وتقليل البصمة الكربونية التي توفرها عائلة معالجات AWS.

التسعير

تظل أبعاد تسعير Amazon MWAA دون تغيير، ولن تدفع إلا مقابل ما تستخدمه:

  • فئة البيئة
  • حالات عاملة إضافية
  • مثيلات جدولة إضافية
  • تم استهلاك تخزين قاعدة البيانات التعريفية

يمكنك الآن الحصول على خيارين إضافيين في الأبعاد الثلاثة الأولى: XL و2XL لفئة البيئة والعمال الإضافيين ومثيلات المجدولة. يظل سعر تخزين قاعدة البيانات الوصفية كما هو. تشير إلى سير العمل المُدار من قبل أمازون لتسعير تدفق الهواء من Apache لمعرفة الأسعار ومزيد من التفاصيل.

راقب أداء Amazon MWAA للتخطيط للتوسع في بيئات أكبر

قبل البدء في استخدام فئات البيئة الجديدة، من المهم أن تفهم ما إذا كنت في سيناريو يتعلق بمشكلات السعة، مثل نفاد الذاكرة في قاعدة بيانات التعريف، أو العمال أو المجدولون الذين يعملون باستخدام وحدة المعالجة المركزية (CPU) بشكل كبير. يعد فهم أداء موارد البيئة الخاصة بك أمرًا أساسيًا لاستكشاف المشكلات المتعلقة بالسعة وإصلاحها. نوصي باتباع الإرشادات الموضحة في تقديم مقاييس استخدام الحاوية وقاعدة البيانات وقائمة الانتظار لبيئة Amazon MWAA لفهم حالة بيئات Amazon MWAA بشكل أفضل، والحصول على رؤى لتحديد الحجم الصحيح لمثيلاتك.

في الاختبار التالي، نقوم بمحاكاة سيناريو التحميل العالي، استخدم مقاييس إمكانية ملاحظة CloudWatch لتحديد المشكلات الشائعة، واتخاذ قرار مستنير للتخطيط للتوسع في بيئات أكبر للتخفيف من حدة المشكلات.

أثناء اختباراتنا، قمنا بتشغيل DAG معقد يقوم بشكل ديناميكي بإنشاء أكثر من 500 مهمة ويستخدم أجهزة استشعار خارجية لانتظار اكتمال المهمة في DAG مختلف. بعد التشغيل على فئة بيئة Amazon MWAA الكبيرة مع إعداد القياس التلقائي بحد أقصى 10 عقد عاملة، لاحظنا المقاييس والقيم التالية في لوحة تحكم CloudWatch.

وصلت العقد العاملة إلى الحد الأقصى لسعة وحدة المعالجة المركزية، مما يتسبب في زيادة عدد المهام الموضوعة في قائمة الانتظار. بلغ استخدام وحدة المعالجة المركزية لقاعدة بيانات التعريف ذروته بأكثر من 65% من السعة، وتم تقليل الذاكرة الخالية لقاعدة البيانات المتوفرة. في هذه الحالة، يمكننا زيادة العقد العاملة لتوسيع نطاقها، ولكن ذلك من شأنه أن يضع حملًا إضافيًا على وحدة المعالجة المركزية لقاعدة بيانات التعريف. قد يؤدي هذا إلى انخفاض في عدد اتصالات قاعدة البيانات العاملة وذاكرة قاعدة البيانات المجانية المتوفرة.

باستخدام فئات البيئة الجديدة، يمكنك التوسع رأسيًا لزيادة الموارد المتاحة عن طريق تحرير البيئة وتحديد فئة أعلى من البيئة، كما هو موضح في لقطة الشاشة التالية.

من قائمة البيئات، نختار البيئة المستخدمة لهذا الاختبار. يختار تعديل للانتقال إلى تكوين الإعدادات المتقدمة الصفحة، وحدد بيئة xlarge أو 2xlarge المناسبة كما هو مطلوب.

بعد حفظ التغيير، سيستغرق إكمال ترقية البيئة من 20 إلى 30 دقيقة. تتم جدولة أي DAG قيد التشغيل تمت مقاطعته أثناء الترقية لإعادة المحاولة، اعتمادًا على الطريقة التي قمت بها بتكوين عمليات إعادة المحاولة لـ DAGs الخاصة بك. يمكنك الآن اختيار استدعائها يدويًا أو انتظار التشغيل المجدول التالي.

بعد أن قمنا بترقية فئة البيئة، قمنا باختبار نفس DAG ولاحظنا أن المقاييس تظهر قيمًا محسنة نظرًا لتوفر المزيد من الموارد الآن. باستخدام بيئة XL هذه، يمكنك تشغيل المزيد من المهام على عدد أقل من العقد العاملة، وبالتالي يستمر عدد المهام الموضوعة في قائمة الانتظار في التناقص. وبدلاً من ذلك، إذا كانت لديك مهام تتطلب المزيد من الذاكرة و/أو وحدة المعالجة المركزية (CPU)، فيمكنك تقليل المهام لكل عامل، مع الاستمرار في تحقيق عدد كبير من المهام لكل عامل بحجم بيئة أكبر. على سبيل المثال، إذا كان لديك بيئة كبيرة حيث وصلت وحدة المعالجة المركزية للعقدة العاملة إلى الحد الأقصى celery.worker_autoscale (تكوين تدفق الهواء الذي يحدد عدد المهام لكل عامل) تم تعيينه على 20,20، ويمكنك زيادته إلى بيئة XL وتعيينه celery.worker_autoscale إلى 20,20 على XL، بدلاً من 40 مهمة افتراضية لكل عامل في بيئة XL ويجب أن ينخفض ​​حمل وحدة المعالجة المركزية بشكل كبير.

قم بإعداد بيئة XL جديدة في Amazon MWAA

اطلع على ابدأ مع Amazon MWAA في حسابك ومنطقة AWS المفضلة باستخدام وحدة تحكم إدارة AWSأو API أو واجهة سطر الأوامر AWS (AWS CLI). إذا كنت تستخدم البنية الأساسية كرمز (IaC)، فيمكنك أتمتة الإعداد باستخدام تكوين سحابة AWSأطلقت حملة مجموعة تطوير سحابة AWS (AWS CDK) أو نصوص Terraform.

تتوفر فئات بيئة Amazon MWAA XL و2XL اليوم في جميع المناطق التي يتوفر بها Amazon MWAA حاليًا.

وفي الختام

نعلن اليوم عن توفر فئتين جديدتين للبيئة في Amazon MWAA. باستخدام فئات البيئة XL و2XL، يمكنك تنسيق كميات أكبر من عمليات سير العمل المعقدة أو كثيفة الاستخدام للموارد. إذا كنت تقوم بتشغيل DAGs مع عدد كبير من التبعيات، أو تشغيل الآلاف من DAGs عبر بيئات متعددة، أو في سيناريو يتطلب منك استخدام العاملين بكثافة للحوسبة، فيمكنك الآن التغلب على مشكلات السعة ذات الصلة عن طريق زيادة موارد البيئة الخاصة بك في عدد قليل خطوات واضحة.

في هذا المنشور، ناقشنا قدرات فئتي البيئة الجديدتين، بما في ذلك التسعير وبعض مشكلات قيود الموارد المشتركة التي يحلونها. لقد قدمنا ​​إرشادات ومثالًا لكيفية مراقبة بيئاتك الحالية للتخطيط للتوسع إلى XL أو 2XL، ووصفنا كيف يمكنك ترقية البيئات الحالية لاستخدام الموارد المتزايدة.

للحصول على تفاصيل إضافية وأمثلة على التعليمات البرمجية على Amazon MWAA ، قم بزيارة دليل مستخدم Amazon MWAA و أمثلة Amazon MWAA GitHub repo.

تُعد Apache و Apache Airflow و Airflow إما علامات تجارية مسجلة أو علامات تجارية لشركة مؤسسة اباتشي للبرمجيات في الولايات المتحدة و / أو دول أخرى.


حول المؤلف

هرنان جارسيا هو مهندس حلول أول في AWS ومقره في هولندا. وهو يعمل في مجال الخدمات المالية، حيث يدعم المؤسسات في اعتماد السحابة الخاصة بها. إنه شغوف بالتقنيات بدون خادم والأمان والامتثال. يستمتع بقضاء الوقت مع العائلة والأصدقاء، وتجربة أطباق جديدة من مطابخ مختلفة.

جيتندرا فيديا هو أحد كبار مهندسي الحلول في AWS، حيث جلب خبرته إلى مجالات الذكاء الاصطناعي/التعلم الآلي، والمجالات بدون خادم، ومجالات تحليل البيانات. إنه متحمس لمساعدة العملاء في تصميم حلول آمنة وقابلة للتطوير وموثوقة وفعالة من حيث التكلفة.

سريهارش أداري هو مهندس حلول أول في AWS، حيث يساعد العملاء على العمل بشكل عكسي بدءًا من نتائج الأعمال لتطوير حلول مبتكرة على AWS. على مر السنين، ساعد العديد من العملاء في تحويلات منصة البيانات عبر قطاعات الصناعة. ويشمل مجال خبرته الأساسي استراتيجية التكنولوجيا، وتحليلات البيانات، وعلوم البيانات. يستمتع في أوقات فراغه بممارسة الرياضة ومشاهدة البرامج التلفزيونية ولعب الطبلة.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة