شعار زيفيرنت

استخدم Amazon DocumentDB لبناء حلول التعلم الآلي بدون تعليمات برمجية في Amazon SageMaker Canvas | خدمات الويب الأمازون

التاريخ:

نحن متحمسون للإعلان عن إطلاق Amazon DocumentDB (مع التوافق مع MongoDB) التكامل مع قماش أمازون سيج ميكرمما يسمح لعملاء Amazon DocumentDB ببناء واستخدام حلول الذكاء الاصطناعي والتعلم الآلي (ML) بدون كتابة تعليمات برمجية. Amazon DocumentDB هي قاعدة بيانات مستندات JSON أصلية مُدارة بالكامل، مما يجعلها سهلة وفعالة من حيث التكلفة لتشغيل أعباء عمل المستندات الهامة على أي نطاق تقريبًا دون إدارة البنية التحتية. Amazon SageMaker Canvas عبارة عن مساحة عمل تعلم الآلة بدون تعليمات برمجية تقدم نماذج جاهزة للاستخدام، بما في ذلك النماذج الأساسية، والقدرة على إعداد البيانات وبناء نماذج مخصصة ونشرها.

في هذا المنشور، نناقش كيفية جلب البيانات المخزنة في Amazon DocumentDB إلى SageMaker Canvas واستخدام تلك البيانات لبناء نماذج تعلم الآلة للتحليلات التنبؤية. بدون إنشاء وصيانة خطوط أنابيب البيانات، ستتمكن من تشغيل نماذج ML باستخدام بياناتك غير المنظمة المخزنة في Amazon DocumentDB.

حل نظرة عامة

لنفترض دور محلل الأعمال لشركة توصيل الأغذية. يقوم تطبيق الهاتف المحمول الخاص بك بتخزين معلومات حول المطاعم في Amazon DocumentDB نظرًا لقابلية التوسع وإمكانيات المخطط المرنة. أنت ترغب في جمع رؤى حول هذه البيانات وإنشاء نموذج تعلم الآلة للتنبؤ بكيفية تقييم المطاعم الجديدة، ولكن تجد صعوبة في إجراء التحليلات على البيانات غير المنظمة. تواجه اختناقات لأنك تحتاج إلى الاعتماد على فرق هندسة البيانات وعلوم البيانات لتحقيق هذه الأهداف.

يعمل هذا التكامل الجديد على حل هذه المشكلات عن طريق تسهيل جلب بيانات Amazon DocumentDB إلى SageMaker Canvas والبدء على الفور في إعداد البيانات وتحليلها لتعلم الآلة. بالإضافة إلى ذلك، يزيل SageMaker Canvas الاعتماد على خبرة التعلم الآلي لبناء نماذج عالية الجودة وإنشاء تنبؤات.

نوضح كيفية استخدام بيانات Amazon DocumentDB لإنشاء نماذج تعلم الآلة في SageMaker Canvas في الخطوات التالية:

  1. أنشئ موصل Amazon DocumentDB في SageMaker Canvas.
  2. تحليل البيانات باستخدام الذكاء الاصطناعي التوليدي.
  3. إعداد البيانات للتعلم الآلي.
  4. بناء نموذج وتوليد التنبؤات.

المتطلبات الأساسية المسبقة

لتنفيذ هذا الحل ، أكمل المتطلبات الأساسية التالية:

  1. احصل على وصول مسؤول إلى AWS Cloud باستخدام إدارة الهوية والوصول AWS (انا) المستخدم مع الأذونات المطلوبة لإكمال التكامل.
  2. أكمل إعداد البيئة باستخدام تكوين سحابة AWS من خلال أحد الخيارين التاليين:
    1. انشر قالب CloudFormation في VPC جديد - يعمل هذا الخيار على إنشاء بيئة AWS جديدة تتكون من VPC، والشبكات الفرعية الخاصة، ومجموعات الأمان، وأدوار تنفيذ IAM، أمازون كلاود9, نقاط نهاية VPC المطلوبةو المجال SageMaker. ثم يقوم بعد ذلك بنشر Amazon DocumentDB في VPC الجديد هذا. تحميل قالب أو قم بتشغيل مكدس CloudFormation بسرعة عن طريق الاختيار قم بتشغيل Stack:
      إطلاق حزمة CloudFormation
    2. انشر قالب CloudFormation في VPC موجود - يقوم هذا الخيار بإنشاء نقاط نهاية VPC المطلوبة وأدوار تنفيذ IAM ومجال SageMaker في VPC موجود مع شبكات فرعية خاصة. تحميل قالب أو قم بتشغيل مكدس CloudFormation بسرعة عن طريق الاختيار قم بتشغيل Stack:
      إطلاق حزمة CloudFormation

لاحظ أنه إذا كنت تقوم بإنشاء مجال SageMaker جديد، فيجب عليك تكوين المجال ليكون في VPC خاص دون الوصول إلى الإنترنت لتتمكن من إضافة الموصل إلى Amazon DocumentDB. لمعرفة المزيد، راجع قم بتكوين Amazon SageMaker Canvas في VPC دون الوصول إلى الإنترنت.

  1. اتبع البرنامج التعليمي لتحميل نموذج بيانات المطعم إلى Amazon DocumentDB.
  2. أضف إمكانية الوصول إلى Amazon Bedrock ونموذج Anthropic Claude بداخله. لمزيد من المعلومات، راجع إضافة الوصول إلى النموذج.

قم بإنشاء موصل Amazon DocumentDB في SageMaker Canvas

بعد إنشاء مجال SageMaker الخاص بك، أكمل الخطوات التالية:

  1. في وحدة تحكم Amazon DocumentDB، اختر التعلم الآلي بدون كود في جزء التنقل.
  2. تحت اختر المجال والملف الشخصي¸ اختر مجال SageMaker وملف تعريف المستخدم الخاص بك.
  3. اختار إطلاق Canvas لتشغيل SageMaker Canvas في علامة تبويب جديدة.

عند انتهاء تحميل SageMaker Canvas، ستصل إلى ملف تدفق البيانات علامة التبويب.

  1. اختار إنشاء لإنشاء تدفق بيانات جديد.
  2. أدخل اسمًا لتدفق البيانات الخاص بك واختر إنشاء.
  3. أضف اتصال Amazon DocumentDB جديدًا عن طريق الاختيار تواريخ الاستيراد، ثم اختر مجدول For نوع مجموعة البيانات.
  4. على تواريخ الاستيراد صفحة ، لـ مصدر البيانات، اختر DocumentDB و إضافة اتصال.
  5. أدخل اسم اتصال مثل العرض التوضيحي واختر مجموعة Amazon DocumentDB التي تريدها.

لاحظ أن SageMaker Canvas سيقوم بملء القائمة المنسدلة مسبقًا بمجموعات في نفس VPC مثل مجال SageMaker الخاص بك.

  1. أدخل اسم المستخدم وكلمة المرور واسم قاعدة البيانات.
  2. وأخيرا، حدد تفضيل القراءة الخاص بك.

لحماية أداء المثيلات الأساسية، يتم تعيين SageMaker Canvas افتراضيًا على ثانوي، مما يعني أنه سيتم قراءته فقط من الحالات الثانوية. عندما يكون تفضيل القراءة هو يفضل ثانوي، يقرأ SageMaker Canvas من المثيلات الثانوية المتاحة، ولكنه سيقرأ من المثيل الأساسي في حالة عدم توفر مثيل ثانوي. لمزيد من المعلومات حول كيفية تكوين اتصال Amazon DocumentDB، راجع الاتصال بقاعدة البيانات المخزنة في AWS.

  1. اختار أضف الاتصال.

إذا نجح الاتصال، فسترى المجموعات في قاعدة بيانات Amazon DocumentDB الخاصة بك معروضة على شكل جداول.

  1. اسحب الجدول الذي تختاره إلى اللوحة القماشية الفارغة. في هذه التدوينة، نضيف بيانات مطعمنا.

يتم عرض أول 100 صف كمعاينة.

  1. لبدء تحليل وإعداد بياناتك، اختر تواريخ الاستيراد.
  2. أدخل اسم مجموعة البيانات واختر تواريخ الاستيراد.

تحليل البيانات باستخدام الذكاء الاصطناعي التوليدي

بعد ذلك، نريد الحصول على بعض الأفكار حول بياناتنا والبحث عن الأنماط. يوفر SageMaker Canvas واجهة لغة طبيعية لتحليل البيانات وإعدادها. عندما البيانات بعد تحميل علامات التبويب، يمكنك البدء في الدردشة مع بياناتك من خلال الخطوات التالية:

  1. اختار الدردشة لإعداد البيانات.
  2. اجمع رؤى حول بياناتك عن طريق طرح أسئلة مثل العينات الموضحة في لقطات الشاشة التالية.

لمعرفة المزيد حول كيفية استخدام اللغة الطبيعية لاستكشاف البيانات وإعدادها، راجع استخدم اللغة الطبيعية لاستكشاف البيانات وإعدادها باستخدام القدرة الجديدة لـ Amazon SageMaker Canvas.

دعونا نتعرف بشكل أعمق على جودة بياناتنا باستخدام تقرير جودة البيانات والرؤى من SageMaker Canvas، الذي يقوم تلقائيًا بتقييم جودة البيانات واكتشاف العيوب.

  1. على تحليل علامة التبويب، اختر تقرير الرؤى وجودة البيانات.
  2. اختار rating كعمود الهدف و تراجع كنوع المشكلة، ثم اختر إنشاء.

سيؤدي هذا إلى محاكاة التدريب النموذجي وتقديم رؤى حول كيفية تحسين بياناتنا للتعلم الآلي. يتم إنشاء التقرير الكامل في بضع دقائق.

يوضح تقريرنا أن 2.47% من الصفوف في هدفنا تحتوي على قيم مفقودة، وسنعالج ذلك في الخطوة التالية. بالإضافة إلى ذلك، يظهر التحليل أن address line 2, nameو type_of_food تتمتع الميزات بأكبر قدر من قوة التنبؤ في بياناتنا. يشير هذا إلى أن معلومات المطعم الأساسية مثل الموقع والمأكولات قد يكون لها تأثير كبير على التقييمات.

إعداد البيانات للتعلم الآلي

يوفر SageMaker Canvas أكثر من 300 عملية تحويل مدمجة لإعداد بياناتك المستوردة. لمزيد من المعلومات حول ميزات التحويل في SageMaker Canvas، راجع تحضير البيانات مع عمليات التحويل المتقدمة. دعونا نضيف بعض التحويلات لجعل بياناتنا جاهزة لتدريب نموذج تعلم الآلة.

  1. انتقل مرة أخرى إلى تدفق البيانات الصفحة عن طريق اختيار اسم تدفق البيانات الخاص بك في أعلى الصفحة.
  2. اختر علامة الجمع الموجودة بجانب أنواع البيانات واختر أضف التحويل.
  3. اختار أضف خطوة.
  4. دعنا نعيد تسمية ملف address line 2 العمود ل cities.
    1. اختار إدارة الأعمدة.
    2. اختار إعادة تسمية العمود For تحول.
    3. اختار address line 2 For عمود الإدخال، أدخل cities For اسم جديد، و اختار أضف.
  5. بالإضافة إلى ذلك، دعونا نسقط بعض الأعمدة غير الضرورية.
    1. إضافة تحويل جديد.
    2. في حالة تحول، اختر عمود الإسقاط.
    3. في حالة أعمدة لإسقاطها، اختر URL و restaurant_id.
    4. اختار أضف.
      [
  6. الأهداف و rating يحتوي عمود الميزة على بعض القيم المفقودة، لذلك دعونا نملأ تلك الصفوف بمتوسط ​​قيمة هذا العمود.
    1. إضافة تحويل جديد.
    2. في حالة تحول، اختر نسب.
    3. في حالة نوع العمود، اختر رقمية.
    4. في حالة أعمدة الإدخال، اختر ال rating العمود.
    5. في حالة فرض الإستراتيجية، اختر تعني.
    6. في حالة عمود الإخراج، أدخل rating_avg_filled.
    7. اختار أضف.
  7. يمكننا إسقاط rating العمود لأن لدينا عمودًا جديدًا بقيم مملوءة.
  8. لأن type_of_food هو قاطع بطبيعته، ونحن نريد تشفيره عدديا. دعونا نقوم بتشفير هذه الميزة باستخدام تقنية التشفير الساخن الواحد.
    1. إضافة تحويل جديد.
    2. في حالة تحول، اختر تشفير واحد ساخن.
    3. بالنسبة لأعمدة الإدخال، اختر type_of_food.
    4. في حالة إستراتيجية معالجة غير صحيحةأختر احتفظ.
    5. في حالة أسلوب الإخراجأختر الأعمدة.
    6. في حالة عمود الإخراج، أدخل encoded.
    7. اختار أضف.

بناء نموذج وتوليد التنبؤات

الآن بعد أن قمنا بتحويل بياناتنا، دعونا ندرب نموذجًا رقميًا للتعلم الآلي للتنبؤ بتقييمات المطاعم.

  1. اختار إنشاء نموذج.
  2. في حالة اسم مجموعة البيانات، أدخل اسمًا لتصدير مجموعة البيانات.
  3. اختار تصدير وانتظر حتى يتم تصدير البيانات المحولة.
  4. اختيار إنشاء نموذج الرابط في الزاوية اليسرى السفلية من الصفحة.

يمكنك أيضًا تحديد مجموعة البيانات من ميزة Data Wrangler الموجودة على يسار الصفحة.

  1. أدخل اسم النموذج.
  2. اختار التحليل التنبئي، ثم اختر إنشاء.
  3. اختار rating_avg_filled كعمود الهدف.

يقوم SageMaker Canvas تلقائيًا بتحديد نوع النموذج المناسب.

  1. اختار معاينة النموذج للتأكد من عدم وجود مشاكل في جودة البيانات.
  2. اختار بناء سريع لبناء النموذج.

سيستغرق إنشاء النموذج حوالي 2-15 دقيقة حتى يكتمل.

يمكنك عرض حالة النموذج بعد انتهاء النموذج من التدريب. يحتوي نموذجنا على RSME يبلغ 0.422، مما يعني أن النموذج غالبًا ما يتنبأ بتقييم المطعم ضمن +/- 0.422 من القيمة الفعلية، وهو تقدير تقريبي قوي لمقياس التقييم من 1 إلى 6.

  1. وأخيرًا، يمكنك إنشاء نماذج للتنبؤات من خلال الانتقال إلى الصفحة تنبؤ علامة التبويب.

تنظيف

لتجنب تكبد رسوم مستقبلية، احذف الموارد التي قمت بإنشائها أثناء متابعة هذا المنشور. يفرض عليك SageMaker Canvas رسومًا مقابل مدة الجلسة، ونوصي بتسجيل الخروج من SageMaker Canvas عندما لا تستخدمه. تشير إلى تسجيل الخروج من Amazon SageMaker Canvas لمزيد من التفاصيل.

وفي الختام

في هذا المنشور، ناقشنا كيف يمكنك استخدام SageMaker Canvas للذكاء الاصطناعي التوليدي وتعلم الآلة مع البيانات المخزنة في Amazon DocumentDB. في مثالنا، أظهرنا كيف يمكن للمحلل أن يبني بسرعة نموذج تعلم الآلة عالي الجودة باستخدام عينة من مجموعة بيانات المطعم.

لقد أظهرنا خطوات تنفيذ الحل، بدءًا من استيراد البيانات من Amazon DocumentDB وحتى إنشاء نموذج تعلم الآلة في SageMaker Canvas. تم إكمال العملية بأكملها من خلال واجهة مرئية دون كتابة سطر واحد من التعليمات البرمجية.

لبدء رحلة ML ذات الرمز المنخفض / بدون رمز ، ارجع إلى قماش أمازون سيج ميكر.


عن المؤلفين

أديليك كوكر هو مهندس حلول عالمي مع AWS. إنه يعمل مع العملاء على مستوى العالم لتقديم التوجيه والمساعدة الفنية في نشر أعباء عمل الإنتاج على نطاق واسع على AWS. في أوقات فراغه ، يستمتع بالتعلم والقراءة والألعاب ومشاهدة الأحداث الرياضية.

جوروراج إس بياري هو أحد كبار مهندسي الحلول المتخصصة في DocumentDB في AWS. إنه يستمتع بمساعدة العملاء على اعتماد قواعد بيانات أمازون المخصصة لهذا الغرض. إنه يساعد العملاء على تصميم وتقييم وتحسين نطاق الإنترنت وأحمال العمل عالية الأداء التي تدعمها NoSQL و/أو قواعد البيانات العلائقية.

تيم بوساتيري هو مدير أول للمنتجات في AWS حيث يعمل على Amazon SageMaker Canvas. هدفه هو مساعدة العملاء على استخلاص القيمة بسرعة من الذكاء الاصطناعي/التعلم الآلي. خارج العمل، يحب التواجد في الهواء الطلق، والعزف على الجيتار، ومشاهدة الموسيقى الحية، وقضاء الوقت مع العائلة والأصدقاء.

براتيك داس هو مدير المنتج في AWS. إنه يستمتع بالعمل مع العملاء الذين يتطلعون إلى بناء أعباء عمل مرنة وأسس بيانات قوية في السحابة. وهو يجلب الخبرة في العمل مع المؤسسات في مبادرات التحديث والتحليل وتحويل البيانات.

فارما جوتوموكالا هو كبير مهندسي حلول قواعد البيانات المتخصصة في AWS ومقره في دالاس فورت وورث. تعمل Varma مع العملاء على استراتيجية قاعدة البيانات الخاصة بهم وتصمم أعباء العمل الخاصة بهم باستخدام قواعد بيانات AWS المصممة لهذا الغرض. قبل انضمامه إلى AWS، عمل على نطاق واسع مع قواعد البيانات العلائقية وقواعد بيانات NOSQL ولغات برمجة متعددة على مدار الـ 22 عامًا الماضية.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة