شعار زيفيرنت

تقديم المرئيات المضمنة الجديدة من Amazon SageMaker Data Wrangler

التاريخ:

يعد فحص جودة البيانات وتنظيف البيانات يدويًا عملية مؤلمة وتستغرق وقتًا طويلاً ويمكن أن تستغرق جزءًا كبيرًا من وقت عالم البيانات في المشروع. وفقًا لمسح عام 2020 لعلماء البيانات الذي أجرته Anaconda ، يقضي علماء البيانات حوالي 66٪ من وقتهم في مهام إعداد وتحليل البيانات ، بما في ذلك التحميل (19٪) والتنظيف (26٪) وتصور البيانات (21٪). الأمازون SageMaker تقدم مجموعة من أدوات إعداد البيانات لتلبية احتياجات العملاء المختلفة وتفضيلاتهم. للمستخدمين الذين يفضلون واجهة تفاعلية قائمة على واجهة المستخدم الرسومية ، SageMaker البيانات رانجلر يوفر أكثر من 300 تصورات وتحليلات وتحويلات مضمنة لمعالجة البيانات المدعومة من Spark بكفاءة دون كتابة سطر واحد من التعليمات البرمجية.

يعد تصور البيانات في التعلم الآلي (ML) عملية تكرارية وتتطلب تصورًا مستمرًا لمجموعة البيانات من أجل الاكتشاف والتحقيق والتحقق من الصحة. يستلزم وضع البيانات في المنظور رؤية كل عمود من الأعمدة لفهم أخطاء البيانات المحتملة ، والقيم المفقودة ، وأنواع البيانات الخاطئة ، والبيانات المضللة / غير الصحيحة ، والبيانات الخارجية ، والمزيد.

في هذا المنشور ، سنوضح لك كيف أمازون سيج ميكر داتا رانجلر يقوم تلقائيًا بإنشاء تصورات رئيسية لتوزيع البيانات ، ويكشف عن مشكلات جودة البيانات ، ويظهر رؤى البيانات مثل القيم المتطرفة لكل ميزة دون كتابة سطر واحد من التعليمات البرمجية. يساعد في تحسين تجربة شبكة البيانات من خلال تحذيرات الجودة التلقائية (على سبيل المثال ، القيم المفقودة أو القيم غير الصالحة). المرئيات التي يتم إنشاؤها تلقائيًا تفاعلية أيضًا. على سبيل المثال ، يمكنك إظهار جدول لأهم خمسة عناصر متكررة مرتبة حسب النسبة المئوية ، وتحوم فوق الشريط للتبديل بين العدد والنسبة المئوية.

المتطلبات الأساسية المسبقة

Amazon SageMaker Data Wrangler هي ميزة SageMaker متوفرة في SageMaker Studio. يمكنك متابعة عملية إعداد الاستوديو لتدوير بيئة الاستوديو وأجهزة الكمبيوتر المحمولة. على الرغم من أنه يمكنك الاختيار من بين عدد قليل من طرق المصادقة ، فإن أبسط طريقة لإنشاء مجال Studio هي اتباع تعليمات البدء السريع. يستخدم البدء السريع نفس الإعدادات الافتراضية مثل إعداد الاستوديو القياسي. يمكنك أيضًا اختيار على متن الطائرة باستخدام مركز هوية AWS لإدارة الهوية والوصول (IAM). (خلفًا لـ AWS Single Sign-On) للمصادقة (انظر على متن الطائرة إلى مجال Amazon SageMaker باستخدام مركز هوية IAM).

تجول الحل

بدء الخاص بك استوديو SageMaker بيئة جديدة وخلق تدفق البيانات رانجلر. يمكنك إما استيراد مجموعة البيانات الخاصة بك أو استخدام عينة مجموعة بيانات (جبار) كما هو موضح في الصورة التالية. هذان العقدان ( مصدر العقدة و البيانات type node) قابلة للنقر - عند النقر نقرًا مزدوجًا فوق هاتين العقدتين ، سيعرض Data Wrangler الجدول.

في حالتنا ، دعنا ننقر بزر الماوس الأيمن على ملف أنواع البيانات أيقونة و أضف تحويل:

يجب أن تشاهد الآن تصورات أعلى كل عمود. الرجاء السماح لبعض الوقت لتحميل الرسوم البيانية. يعتمد وقت الاستجابة على حجم مجموعة البيانات (بالنسبة لمجموعة بيانات Titanic ، يجب أن يستغرق الأمر من ثانيتين إلى ثانيتين في المثيل الافتراضي).

قم بالتمرير إلى الشريط العلوي الأفقي بالمرور فوق تلميح الأداة. الآن بعد أن تم تحميل المخططات ، يمكنك رؤية توزيع البيانات والقيم غير الصالحة والقيم المفقودة. القيم المتطرفة والقيم المفقودة هي خصائص البيانات الخاطئة ، ومن الضروري تحديدها لأنها قد تؤثر على نتائجك. هذا يعني أنه نظرًا لأن بياناتك جاءت من عينة غير تمثيلية ، فقد لا تكون نتائجك قابلة للتعميم على مواقف خارج دراستك. يمكن رؤية تصنيف القيم على الرسوم البيانية في الأسفل حيث صالح يتم تمثيل القيم باللون الأبيض ، غير صالحة القيم باللون الأزرق ، و مفقود القيم باللون البنفسجي. يمكنك أيضًا إلقاء نظرة على ملف القيم المتطرفة يصور بالنقاط الزرقاء على يسار أو يمين الرسم البياني.

تأتي جميع التصورات في شكل رسوم بيانية. بالنسبة للبيانات غير الفئوية ، يتم تحديد مجموعة دلو لكل حاوية. بالنسبة للبيانات الفئوية ، يتم التعامل مع كل قيمة فريدة على أنها سلة مهملات. في أعلى الرسم البياني ، يوجد مخطط شريطي يوضح لك القيم غير الصالحة والمفقودة. يمكننا عرض نسبة القيم الصالحة للأنواع الرقمية والفئوية والثنائية والنصية والوقت والوقت ، بالإضافة إلى نسبة القيم المفقودة بناءً على إجمالي الخلايا الفارغة والفارغة ، وأخيراً نسبة القيم غير الصالحة. لنلقِ نظرة على بعض الأمثلة لفهم كيف يمكنك رؤيتها باستخدام عينة مجموعة بيانات تيتانيك المحملة مسبقًا من داتا رانجلر.

مثال 1 - يمكننا النظر إلى 20٪ من القيم المفقودة لـ العمر ميزة / عمود. من الأهمية بمكان التعامل مع البيانات المفقودة في مجال البحث المتعلق بالبيانات / ML ، إما عن طريق إزالتها أو احتسابها (معالجة القيم المفقودة مع بعض التقدير).


يمكنك معالجة القيم المفقودة باستخدام معالجة القيم المفقودة مجموعة التحويل. استخدم ال نسب مفقود تحويل لتوليد القيم المحتسبة حيث تم العثور على القيم المفقودة في عمود الإدخال. التكوين يعتمد على نوع البيانات الخاصة بك.

في هذا المثال ، العمر يحتوي العمود على نوع بيانات رقمي. لإسناد الاستراتيجية ، يمكننا اختيار نسب تعني أو ال الوسيط التقريبي على القيم الموجودة في مجموعة البيانات الخاصة بك.

الآن بعد أن أضفنا التحويل ، يمكننا أن نرى أن العمر لم يعد العمود يحتوي على قيم مفقودة.

مثال 2 - يمكننا النظر إلى 27٪ من القيم غير الصالحة لـ تذكرة الميزة / العمود الذي هو من STRING يكتب. يمكن أن تنتج البيانات غير الصالحة تقديرات متحيزة ، والتي يمكن أن تقلل من دقة النموذج وتؤدي إلى استنتاجات خاطئة. دعنا نستكشف بعض التحويلات التي يمكننا استخدامها للتعامل مع البيانات غير الصالحة في تذكرة العمود.

بالنظر إلى لقطة الشاشة ، نرى أن بعض المدخلات مكتوبة بتنسيق يحتوي على أبجديات قبل الأرقام "الكمبيوتر 17318"وغيرها مجرد أرقام مثل"11769".

يمكننا اختيار تطبيق تحويل للبحث عن أنماط معينة وتعديلها داخل سلاسل مثل "جهاز كمبيوتر" واستبدالها. بعد ذلك ، يمكننا إلقاء سلسلة عمود لنوع جديد مثل طويل لسهولة الاستخدام.

هذا لا يزال يترك لنا 19 ٪ من القيم المفقودة في تذكرة خاصية. على غرار المثال 1 ، يمكننا الآن أن ننسب القيم المفقودة باستخدام الوسيط المتوسط ​​أو التقريبي. الخاصية تذكرة يجب ألا تحتوي على قيم غير صالحة أو مفقودة وفقًا للصورة أدناه.

للتأكد من أنك لا تتحمل أي رسوم بعد اتباع هذا البرنامج التعليمي ، تأكد من أنك قم بإيقاف تشغيل تطبيق Data Wrangler.

وفي الختام 

في هذا المنشور ، قدمنا ​​الجديد أمازون ساجيميكر داتا رانجلر القطعة التي ستساعد في إزالة رفع ثقيل غير متمايز للمستخدمين النهائيين أثناء إعداد البيانات مع تصورات تظهر تلقائيًا ورؤى توصيف البيانات لكل ميزة. تسهل هذه الأداة تصور البيانات (على سبيل المثال ، المدرج التكراري الفئوي / غير الفئوي) ، واكتشاف مشكلات جودة البيانات (على سبيل المثال ، القيم المفقودة والقيم غير الصالحة) ، وإحصاءات البيانات السطحية (على سبيل المثال ، القيم المتطرفة والعنصر N العلوي).

يمكنك البدء في استخدام هذه الإمكانية اليوم في جميع المناطق التي يتوفر فيها SageMaker Studio. محاولة إعطائها، و دعنا نعرف ما رأيك. نتطلع دائمًا إلى تعليقاتك ، إما من خلال جهات اتصال دعم AWS المعتادة ، أو عبر منتدى AWS لـ SageMaker.


حول المؤلف

العشاء دعاء هو مهندس حلول أول مقره في منطقة خليج سان فرانسيسكو. إنها تساعد عملاء AWS Enterprise على النمو من خلال فهم أهدافهم وتحدياتهم ، وتوجههم حول كيفية تصميم تطبيقاتهم بطريقة سحابية أصلية مع التأكد من أنها مرنة وقابلة للتطوير. إنها شغوفة بتقنيات التعلم الآلي والاستدامة البيئية.

بارث باتيل مهندس حلول في AWS في منطقة خليج سان فرانسيسكو. يوجه Parth العملاء لتسريع رحلتهم إلى السحابة ويساعدهم على تبني سحابة AWS بنجاح. يركز على ML وتحديث التطبيقات.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة