شعار زيفيرنت

تحسين المراقبة وتصحيح الأخطاء لمهام AWS Glue باستخدام مقاييس إمكانية ملاحظة الوظيفة الجديدة، الجزء 2: المراقبة في الوقت الفعلي باستخدام Grafana | خدمات الويب الأمازون

التاريخ:

تعد مراقبة خطوط البيانات في الوقت الفعلي أمرًا بالغ الأهمية لاكتشاف المشكلات مبكرًا وتقليل الاضطرابات. غراء AWS لقد جعل هذا الأمر أكثر وضوحًا مع إطلاق مقاييس إمكانية ملاحظة مهمة AWS Glue، والتي توفر رؤى قيمة حول مسارات تكامل البيانات الخاصة بك المبنية على AWS Glue. ومع ذلك، قد تحتاج إلى تتبع مؤشرات الأداء الرئيسية عبر وظائف متعددة. في هذه الحالة، تعد لوحة المعلومات التي يمكنها تصور نفس المقاييس مع القدرة على التعمق في المشكلات الفردية حلاً فعالاً للمراقبة على نطاق واسع.

يتناول هذا المنشور كيفية دمج مقاييس إمكانية ملاحظة مهمة AWS Glue مع Grafana باستخدام أمازون تديرها جرافانا. نناقش أنواع المقاييس والمخططات المتاحة لعرض الرؤى الرئيسية بالإضافة إلى حالتي استخدام لمراقبة فئات الأخطاء وإنتاجية مهام AWS Glue الخاصة بك.

حل نظرة عامة

Grafana هي أداة تصور مفتوحة المصدر تتيح لك الاستعلام عن مقاييسك وتصورها والتنبيه عليها وفهمها بغض النظر عن مكان تخزينها. باستخدام Grafana، يمكنك إنشاء لوحات معلومات غنية بصريًا ومبنية على البيانات واستكشافها ومشاركتها. يمكن دمج مقاييس إمكانية ملاحظة مهمة AWS Glue الجديدة بسهولة مع Grafana لأغراض المراقبة في الوقت الفعلي. يتم التقاط المقاييس مثل استخدام العامل، والانحراف، ومعدل الإدخال/الإخراج، والأخطاء وتصورها في لوحات معلومات Grafana سهلة القراءة. يوفر التكامل مع Grafana طريقة مرنة لإنشاء طرق عرض مخصصة لسلامة خطوط الأنابيب المصممة خصيصًا لتلبية احتياجاتك. تفتح مقاييس إمكانية المراقبة إمكانات المراقبة التي لم تكن ممكنة من قبل لـ AWS Glue. يمكن للشركات التي تعتمد على AWS Glue لخطوط تكامل البيانات الهامة أن تتمتع بثقة أكبر في أن خطوط الأنابيب الخاصة بها تعمل بكفاءة.

يتم إصدار مقاييس إمكانية ملاحظة مهمة AWS Glue كـ الأمازون CloudWatch المقاييس. يمكنك توفير وإدارة Amazon Managed Grafana، وتكوين المكون الإضافي CloudWatch للمقاييس المحددة. ويوضح الرسم البياني التالي بنية الحل.

تنفيذ الحل

أكمل الخطوات التالية لإعداد الحل:

  1. قم بإعداد ملف مساحة عمل Amazon Managed Grafana.
  2. قم بتسجيل الدخول إلى مساحة العمل الخاصة بك.
  3. اختار الإدارة.
  4. اختار إضافة مصدر بيانات جديد.
  5. اختار كلاود ووتش.
  6. في حالة المنطقة الافتراضية، حدد منطقة AWS المفضلة لديك.
  7. في حالة مساحات أسماء المقاييس المخصصة، أدخل الغراء.
  8. اختار حفظ واختبار.

تم الآن تسجيل مصدر بيانات CloudWatch.

  1. انسخ معرف مصدر البيانات من عنوان URL https://g-XXXXXXXXXX.grafana-workspace.<region>.amazonaws.com/datasources/edit/<data-source-ID>/.

الخطوة التالية هي إعداد ملف قالب JSON.

  1. قم بتنزيل قالب جرافانا.
  2. استبدل <data-source-id> في ملف JSON باستخدام معرف مصدر بيانات Grafana الخاص بك.

وأخيرًا، قم بتكوين لوحة القيادة.

  1. على وحدة تحكم Grafana، اختر لوحات القيادة.
  2. اختار استيراد على جديد القائمة.
  3. قم بتحميل ملف JSON الخاص بك، ثم اختر استيراد.

تعرض لوحة معلومات Grafana مقاييس إمكانية ملاحظة AWS Glue، كما هو موضح في لقطات الشاشة التالية.

تحتوي لوحة المعلومات النموذجية على المخططات التالية:

  • [الموثوقية] تفصيل أخطاء تشغيل المهمة
  • [الإنتاجية] وحدات البايت للقراءة والكتابة
  • [الإنتاجية] سجلات القراءة والكتابة
  • [استخدام الموارد] استغلال العمال
  • [الأداء الوظيفي] الانحراف
  • [استخدام الموارد] القرص المستخدم (%)
  • [استخدام الموارد] القرص المتاح (جيجابايت)
  • [المنفذ OOM] عدد أخطاء OOM
  • [المنفذ OOM] ذاكرة الكومة المستخدمة (%)
  • [برنامج التشغيل OOM] عدد أخطاء OOM
  • [برنامج التشغيل OOM] ذاكرة الكومة المستخدمة (%)

تحليل أسباب الفشل الوظيفي

دعونا نحاول تحليل أسباب فشل تشغيل الوظيفة iot_data_processing.

أولاً، انظر إلى المخطط الدائري [الموثوقية] وتفصيل أخطاء تشغيل المهمة. يحدد هذا المخطط الدائري الأخطاء الأكثر شيوعًا بسرعة.

ثم قم بالتصفية باسم الوظيفة iot_data_processing لمعرفة الأخطاء الشائعة لهذه الوظيفة.

يمكننا أن نلاحظ أن غالبية (75٪) من حالات الفشل كانت بسبب glue.error.DISK_NO_SPACE_ERROR.

بعد ذلك، انظر إلى المخطط الخطي [استخدام الموارد] القرص المستخدم (%) لفهم مساحة القرص المستخدمة لبرنامج التشغيل أثناء تشغيل المهمة. بالنسبة لهذه المهمة، يوضح الخط الأخضر استخدام قرص برنامج التشغيل، ويوضح الخط الأصفر متوسط ​​استخدام القرص الخاص بالمنفذين.

يمكننا أن نلاحظ أنه كانت هناك ثلاث مرات تم فيها استخدام 100% من القرص في المنفذين.

بعد ذلك، انظر إلى المخطط الخطي [الإنتاجية] لسجلات القراءة والكتابة لمعرفة ما إذا كان حجم البيانات قد تغير وما إذا كان قد أثر على استخدام القرص.

يوضح الرسم البياني أنه تمت قراءة حوالي أربعة مليارات سجل في بداية هذا النطاق؛ ومع ذلك، تمت قراءة حوالي 63 مليار سجل في الذروة. وهذا يعني أن حجم البيانات الواردة قد زاد بشكل كبير، وتسبب في نقص مساحة القرص المحلي في العقد العاملة. في مثل هذه الحالات، يمكنك زيادة عدد العاملين، أو تمكين القياس التلقائي، أو اختيار أنواع أكبر من العمال.

بعد تنفيذ هذه الاقتراحات، يمكننا أن نرى استخدامًا أقل للقرص وتشغيلًا ناجحًا للمهمة.

(اختياري) قم بتكوين الإعداد عبر الحسابات

يمكننا اختياريًا تكوين إعداد عبر الحسابات. تعتمد المقاييس عبر الحسابات على مراقبة CloudWatch عبر الحسابات. في هذا الإعداد، نتوقع البيئة التالية:

  • لا تتم إدارة حسابات AWS في منظمات AWS
  • لديك حسابان: يتم استخدام حساب واحد كحساب مراقبة حيث يوجد Grafana، ويتم استخدام حساب آخر كحساب مصدر حيث يوجد مسار تكامل البيانات المستند إلى AWS Glue

لتكوين إعداد عبر الحسابات لهذه البيئة، أكمل الخطوات التالية لكل حساب.

حساب المراقبة

أكمل الخطوات التالية لتكوين حساب المراقبة الخاص بك:

  1. تسجيل الدخول إلى وحدة تحكم إدارة AWS باستخدام الحساب الذي ستستخدمه للمراقبة.
  2. في وحدة تحكم CloudWatch ، اختر الإعدادات في جزء التنقل.
  3. تحت مراقبة تكوين الحساب، اختر ضبط.
  4. في حالة حدد البيانات، اختر المقاييس.
  5. في حالة قائمة حسابات المصدر، أدخل معرف حساب AWS الخاص بالحساب المصدر الذي سيعرضه حساب المراقبة هذا.
  6. في حالة حدد تسمية لتحديد حسابك المصدر، اختر إسم الحساب.
  7. اختار ضبط.

الآن تم تكوين الحساب بنجاح كحساب مراقبة.

  1. تحت مراقبة تكوين الحساب، اختر الموارد لربط الحسابات.
  2. اختار أي حساب للحصول على عنوان URL لإعداد الحسابات الفردية كحسابات مصدر.
  3. اختار إنسخ الرابط.

ستستخدم عنوان URL المنسوخ من الحساب المصدر في الخطوات التالية.

حساب المصدر

أكمل الخطوات التالية لتكوين حسابك المصدر:

  1. قم بتسجيل الدخول إلى وحدة التحكم باستخدام حسابك المصدر.
  2. أدخل عنوان URL الذي نسخته من حساب المراقبة.

يمكنك رؤية صفحة إعدادات CloudWatch، مع ملء بعض المعلومات.

  1. في حالة حدد البيانات، اختر المقاييس.
  2. لا تقم بتغيير ARN في أدخل تكوين حساب المراقبة ARN.
  3. حدد تسمية لتحديد حسابك المصدر يتم ملء القسم مسبقًا باختيار التسمية من حساب المراقبة. اختياريًا، اختر تعديل لتغييره.
  4. اختار لينك.
  5. أدخل Confirm في المربع واختيار أكد.

الآن تم تكوين حسابك المصدر للارتباط بحساب المراقبة. ستظهر المقاييس المنبعثة في حساب المصدر على لوحة معلومات Grafana في حساب المراقبة.

لمعرفة المزيد ، انظر مراقبة CloudWatch عبر الحسابات.

الاعتبارات

فيما يلي بعض الاعتبارات عند استخدام هذا الحل:

  • تم تعريف تكامل Grafana للمراقبة في الوقت الفعلي. إذا كان لديك فهم أساسي لوظائفك، فسيكون من السهل عليك مراقبة الأداء والأخطاء والمزيد على لوحة معلومات Grafana.
  • يعتمد موقع Amazon Managed Grafana على مركز تحديد AWS IAM. وهذا يعني أنك بحاجة إلى إدارة مستخدمي الدخول الموحد (SSO) بشكل منفصل، وليس فقط إدارة الهوية والوصول AWS (IAM) المستخدمين والأدوار. ويتطلب أيضًا خطوة أخرى لتسجيل الدخول من وحدة تحكم AWS. يعتمد نموذج تسعير Amazon Managed Grafana على ترخيص مستخدم نشط لكل مساحة عمل. المزيد من المستخدمين يمكن أن يسبب المزيد من الرسوم.
  • يتم تصور خطوط الرسم البياني لكل وظيفة. إذا كنت تريد رؤية الخطوط عبر جميع الوظائف، فيمكنك الاختيار الجميع في السيطرة.

وفي الختام

توفر مقاييس إمكانية ملاحظة مهمة AWS Glue قدرة جديدة قوية لمراقبة أداء مسار البيانات في الوقت الفعلي. من خلال دفق المقاييس الرئيسية إلى CloudWatch وتصورها في Grafana، يمكنك الحصول على رؤية أكثر دقة لم تكن ممكنة من قبل. أظهر هذا المنشور مدى سهولة تمكين مقاييس إمكانية المراقبة ودمج البيانات مع Grafana باستخدام Amazon Managed Grafana. لقد استكشفنا المقاييس المختلفة المتاحة وكيفية إنشاء لوحات معلومات Grafana المخصصة لعرض رؤى قابلة للتنفيذ.

أصبحت إمكانية المراقبة الآن جزءًا أساسيًا من تنسيق البيانات القوي على AWS. من خلال القدرة على مراقبة اتجاهات تكامل البيانات في الوقت الفعلي، يمكنك تحسين التكاليف والأداء والموثوقية.


حول المؤلف

نوريتاكا سيكياما هو مهندس رئيسي للبيانات الضخمة في فريق AWS Glue. إنه مسؤول عن إنشاء أدوات برمجية لمساعدة العملاء. في أوقات فراغه ، يستمتع بركوب الدراجات بدراجته الجديدة على الطرق.

شياوكسي ليو هو مهندس تطوير برمجيات في فريق AWS Glue. شغفها هو بناء أنظمة موزعة قابلة للتطوير لإدارة البيانات الضخمة على السحابة بكفاءة، وتركز اهتماماتها على النظام الموزع والبيانات الضخمة والحوسبة السحابية.

أكيرا أجيساكا هو أحد كبار مهندسي تطوير البرمجيات في فريق AWS Glue. يحب البرمجيات مفتوحة المصدر والأنظمة الموزعة. وفي أوقات فراغه، يستمتع بلعب ألعاب الأركيد.

شنودة جرجس هو أحد كبار مهندسي تطوير البرمجيات في فريق AWS Glue. ينصب شغفه على بناء بنية تحتية للبيانات وأنظمة معالجة قابلة للتطوير والموزعة. عندما تتاح له الفرصة، يستمتع شنودة بالقراءة ولعب كرة القدم.

شون ما هو مدير المنتج الرئيسي في فريق AWS Glue. يتمتع بسجل حافل يمتد لـ 18 عامًا في ابتكار وتقديم منتجات المؤسسات التي تطلق العنان لقوة البيانات للمستخدمين. خارج العمل، يستمتع شون بالغوص وكرة القدم الجامعية.

موهيت ساكسينا هو مدير أول لتطوير البرمجيات في فريق AWS Glue. يركز فريقه على بناء أنظمة موزعة لتمكين العملاء من خلال واجهات تفاعلية وسهلة الاستخدام لإدارة وتحويل بيتابايت من البيانات بكفاءة عبر مستودعات البيانات في Amazon S3 وقواعد البيانات ومستودعات البيانات على السحابة.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة