شعار زيفيرنت

تسريع عملية إعداد البيانات لتعلم الآلة في Amazon SageMaker Canvas | خدمات الويب الأمازون

التاريخ:

يعد إعداد البيانات خطوة حاسمة في أي سير عمل للتعلم الآلي (ML)، ولكنه غالبًا ما يتضمن مهام شاقة وتستغرق وقتًا طويلاً. قماش أمازون سيج ميكر يدعم الآن إمكانات إعداد البيانات الشاملة التي تدعمها أمازون سيج ميكر داتا رانجلر. ومن خلال هذا التكامل، يوفر SageMaker Canvas للعملاء مساحة عمل شاملة بدون تعليمات برمجية لإعداد البيانات وإنشاء نماذج تعلم الآلة والأساسات واستخدامها لتسريع الوقت من البيانات إلى رؤى الأعمال. يمكنك الآن اكتشاف البيانات وتجميعها بسهولة من أكثر من 50 مصدرًا للبيانات، واستكشاف البيانات وإعدادها باستخدام أكثر من 300 تحليل وتحويل مدمج في الواجهة المرئية لـ SageMaker Canvas. ستشاهد أيضًا أداءً أسرع لعمليات التحويل والتحليلات، وواجهة لغة طبيعية لاستكشاف البيانات وتحويلها لتعلم الآلة.

في هذا المنشور، نوجهك خلال عملية إعداد البيانات لبناء نموذج شامل في SageMaker Canvas.

حل نظرة عامة

بالنسبة لحالة الاستخدام الخاصة بنا، فإننا نتولى دور متخصص البيانات في شركة خدمات مالية. نحن نستخدم نموذجين من مجموعات البيانات لبناء نموذج تعلم الآلة الذي يتنبأ بما إذا كان المقترض سيتم سداد القرض بالكامل، وهو أمر بالغ الأهمية لإدارة مخاطر الائتمان. تتيح لنا بيئة SageMaker Canvas الخالية من التعليمات البرمجية إمكانية إعداد البيانات بسرعة، وهندسة الميزات، وتدريب نموذج التعلم الآلي، ونشر النموذج في سير عمل شامل، دون الحاجة إلى البرمجة.

المتطلبات الأساسية المسبقة

لمتابعة هذه الإرشادات التفصيلية، تأكد من أنك قمت بتنفيذ المتطلبات الأساسية كما هو مفصل في

  1. قم بتشغيل Amazon SageMaker Canvas. إذا كنت من مستخدمي SageMaker Canvas بالفعل، فتأكد من ذلك تسجيل الخروج وقم بتسجيل الدخول مرة أخرى لتتمكن من استخدام هذه الميزة الجديدة.
  2. لاستيراد البيانات من Snowflake، اتبع الخطوات من قم بإعداد OAuth لـ Snowflake.

إعداد البيانات التفاعلية

مع اكتمال الإعداد، يمكننا الآن إنشاء تدفق بيانات لتمكين إعداد البيانات التفاعلية. يوفر تدفق البيانات تحويلات مدمجة وتصورات في الوقت الفعلي لمجادلة البيانات. أكمل الخطوات التالية:

  1. قم بإنشاء تدفق بيانات جديد باستخدام إحدى الطرق التالية:
    1. اختار داتا رانجلر, تدفق البيانات، ثم اختر إنشاء.
    2. حدد مجموعة بيانات SageMaker Canvas واختر إنشاء تدفق البيانات.
  2. اختار تواريخ الاستيراد وحدد مجدول من القائمة المنسدلة.
  3. يمكنك استيراد البيانات مباشرة من خلال أكثر من 50 موصل بيانات مثل خدمة تخزين أمازون البسيطة (Amazon S3) ، أمازون أثينا, الأمازون الأحمرو ندفة الثلج و Salesforce. في هذه الإرشادات، سنغطي استيراد بياناتك مباشرة من Snowflake.

وبدلاً من ذلك، يمكنك تحميل نفس مجموعة البيانات من جهازك المحلي. يمكنك تنزيل مجموعة البيانات القروض-الجزء-1.csv و القروض-الجزء-2.csv.

  1. من صفحة استيراد البيانات، حدد Snowflake من القائمة واختر إضافة اتصال.

  2. أدخل اسمًا للاتصال، اختر أوث خيار من القائمة المنسدلة لطريقة المصادقة. أدخل معرف حساب okta الخاص بك واختر إضافة اتصال.
  3. ستتم إعادة توجيهك إلى شاشة تسجيل الدخول إلى Okta لإدخال بيانات اعتماد Okta للمصادقة. عند المصادقة الناجحة، سيتم إعادة توجيهك إلى صفحة تدفق البيانات.
  4. استعرض لتحديد موقع مجموعة بيانات القروض من قاعدة بيانات Snowflake

حدد مجموعتي بيانات القرضين عن طريق سحبهما وإسقاطهما من الجانب الأيسر من الشاشة إلى اليمين. سيتم توصيل مجموعتي البيانات، وسيظهر رمز الانضمام مع علامة تعجب حمراء. انقر عليها، ثم حدد لكلا مجموعتي البيانات id مفتاح. اترك نوع الانضمام كـ داخلي. يجب أن تبدو هذه:

  1. اختار احفظ وأغلق.
  2. اختار أنشئ مجموعة بيانات. إعطاء اسم لمجموعة البيانات.
  3. انتقل إلى تدفق البيانات، سترى ما يلي.
  4. لاستكشاف بيانات القرض بسرعة، اختر احصل على رؤى البيانات وحدد loan_status العمود المستهدف و تصنيف نوع المشكلة.

المولد تقرير جودة البيانات والرؤية يوفر الإحصائيات الأساسية والمرئيات وتحليلات أهمية الميزات.

  1. قم بمراجعة التحذيرات المتعلقة بمشكلات جودة البيانات والفئات غير المتوازنة لفهم مجموعة البيانات وتحسينها.

بالنسبة لمجموعة البيانات في حالة الاستخدام هذه، يجب أن تتوقع تحذيرًا ذو أولوية عالية "درجة منخفضة جدًا للنموذج السريع"، وفعالية منخفضة جدًا للنموذج على فئات الأقليات (المحملة والحالية)، مما يشير إلى الحاجة إلى تنظيف البيانات وموازنتها. تشير إلى وثائق قماش لمعرفة المزيد حول تقرير رؤى البيانات.


بفضل ما يزيد عن 300 تحويل مدمج مدعوم من SageMaker Data Wrangler، يمكّنك SageMaker Canvas من معالجة بيانات القروض بسرعة. يمكنك النقر على أضف خطوةوتصفح أو ابحث عن التحويلات الصحيحة. بالنسبة لمجموعة البيانات هذه، استخدم إسقاط في عداد المفقودين و  التعامل مع القيم المتطرفة لتنظيف البيانات، ثم تطبيق ترميز واحد ساخن، و  تحويل النص إلى ناقل لإنشاء ميزات لـ ML.

الدردشة لإعداد البيانات هي قدرة لغة طبيعية جديدة تتيح تحليل البيانات بشكل بديهي من خلال وصف الطلبات باللغة الإنجليزية البسيطة. على سبيل المثال، يمكنك الحصول على إحصائيات وتحليل ارتباط الميزات في بيانات القرض باستخدام العبارات الطبيعية. يفهم SageMaker Canvas الإجراءات ويديرها من خلال تفاعلات المحادثة، مما ينقل عملية إعداد البيانات إلى المستوى التالي.


يمكننا استخدام الدردشة لإعداد البيانات والتحويل المدمج لموازنة بيانات القرض.

  1. أولا قم بإدخال التعليمات التالية: replace “charged off” and “current” in loan_status with “default”

الدردشة لإعداد البيانات ينشئ رمزًا لدمج فئتين من الأقليات في فئة واحدة default فئة.

  1. اختر المدمج سموت وظيفة التحويل لإنشاء بيانات تركيبية للفئة الافتراضية.

الآن لديك عمود هدف متوازن.

  1. بعد تنظيف ومعالجة بيانات القرض، قم بإعادة إنشاء الملف تقرير جودة البيانات والرؤية لمراجعة التحسينات.

اختفى تحذير الأولوية العالية، مما يشير إلى تحسين جودة البيانات. يمكنك إضافة المزيد من التحويلات حسب الحاجة لتحسين جودة البيانات للتدريب النموذجي.

توسيع نطاق معالجة البيانات وأتمتتها

لأتمتة إعداد البيانات، يمكنك تشغيل أو جدولة سير العمل بالكامل كمهمة معالجة Spark موزعة لمعالجة مجموعة البيانات بأكملها أو أي مجموعات بيانات جديدة على نطاق واسع.

  1. ضمن تدفق البيانات، أضف عقدة وجهة Amazon S3.
  2. قم بتشغيل مهمة معالجة SageMaker عن طريق الاختيار خلق وظيفة.
  3. قم بتكوين مهمة المعالجة ثم اختر إنشاء، مما يتيح تشغيل التدفق على مئات الجيجابايت من البيانات دون أخذ العينات.

يمكن دمج تدفقات البيانات في خطوط أنابيب MLOps الشاملة لأتمتة دورة حياة تعلم الآلة. يمكن تغذية تدفقات البيانات في دفاتر ملاحظات SageMaker Studio كخطوة معالجة البيانات في مسار SageMaker، أو لنشر مسار استدلال SageMaker. يتيح ذلك أتمتة التدفق من إعداد البيانات إلى تدريب واستضافة SageMaker.

قم ببناء النموذج ونشره في SageMaker Canvas

بعد إعداد البيانات، يمكننا تصدير مجموعة البيانات النهائية بسلاسة إلى SageMaker Canvas لإنشاء نموذج للتنبؤ بدفعات القروض وتدريبه ونشره.

  1. اختار إنشاء نموذج في العقدة الأخيرة لتدفق البيانات أو في جزء العقد.

يؤدي ذلك إلى تصدير مجموعة البيانات وإطلاق سير عمل إنشاء النموذج الموجه.

  1. قم بتسمية مجموعة البيانات المصدرة ثم اختر تصدير.
  2. اختار إنشاء نموذج من الإخطار.
  3. اسم النموذج، حدد التحليل التنبئي، و اختار إنشاء.

سيؤدي هذا إلى إعادة توجيهك إلى صفحة بناء النموذج.

  1. تابع تجربة بناء نموذج SageMaker Canvas عن طريق اختيار العمود المستهدف ونوع النموذج، ثم اختر بناء سريع or بناء قياسي.

لمعرفة المزيد حول تجربة بناء النماذج، راجع بناء نموذج.

عند اكتمال التدريب، يمكنك استخدام النموذج للتنبؤ بالبيانات الجديدة أو نشرها. تشير إلى انشر نماذج تعلم الآلة المضمنة في Amazon SageMaker Canvas إلى نقاط النهاية في الوقت الفعلي الخاصة بـ Amazon SageMaker لمعرفة المزيد حول نشر نموذج من SageMaker Canvas.

وفي الختام

في هذا المنشور، أظهرنا القدرات الشاملة لـ SageMaker Canvas من خلال تولي دور متخصص البيانات المالية الذي يقوم بإعداد البيانات للتنبؤ بدفع القروض، المدعوم من SageMaker Data Wrangler. وقد أتاح إعداد البيانات التفاعلية إمكانية تنظيف بيانات القروض وتحويلها وتحليلها بسرعة لتصميم ميزات إعلامية. ومن خلال إزالة تعقيدات البرمجة، أتاحت لنا SageMaker Canvas إمكانية التكرار بسرعة لإنشاء مجموعة بيانات تدريب عالية الجودة. يؤدي سير العمل المتسارع هذا مباشرة إلى بناء نموذج ML عالي الأداء وتدريبه ونشره لإحداث تأثير على الأعمال. بفضل إعداده الشامل للبيانات وخبرته الموحدة بدءًا من البيانات وحتى الرؤى، يمكّنك SageMaker Canvas من تحسين نتائج تعلم الآلة. لمزيد من المعلومات حول كيفية تسريع رحلاتك من البيانات إلى رؤى الأعمال، راجع يوم الغمر في SageMaker Canvas و دليل مستخدم AWS.


عن المؤلفين

الدكتور. تشانغشا ما هو متخصص في الذكاء الاصطناعي/تعلم الآلة في AWS. وهي خبيرة تقنية حاصلة على درجة الدكتوراه في علوم الكمبيوتر، ودرجة الماجستير في علم النفس التربوي، ولديها سنوات من الخبرة في علوم البيانات والاستشارات المستقلة في الذكاء الاصطناعي/التعلم الآلي. إنها متحمسة للبحث في الأساليب المنهجية للذكاء الآلي والبشري. خارج العمل، تحب المشي لمسافات طويلة والطهي وصيد الطعام وقضاء الوقت مع الأصدقاء والعائلات.

أججاي جوفيندارام هو مهندس حلول أول في AWS. يعمل مع العملاء الاستراتيجيين الذين يستخدمون الذكاء الاصطناعي / تعلم الآلة لحل مشاكل الأعمال المعقدة. تكمن خبرته في تقديم التوجيه الفني بالإضافة إلى المساعدة في التصميم لعمليات نشر تطبيقات الذكاء الاصطناعي / التعلم الآلي المتواضعة إلى الواسعة النطاق. تتراوح معرفته من هندسة التطبيقات إلى البيانات الضخمة والتحليلات والتعلم الآلي. إنه يستمتع بالاستماع إلى الموسيقى أثناء الراحة ، وتجربة الهواء الطلق ، وقضاء الوقت مع أحبائه.

هوونج نجوين هو مدير المنتج الأول في AWS. وهي تقود عملية إعداد بيانات التعلم الآلي لـ SageMaker Canvas وSageMaker Data Wrangler، مع 15 عامًا من الخبرة في بناء المنتجات التي تركز على العملاء وتعتمد على البيانات.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة