شعار زيفيرنت

9 خطايا قاتلة لاختيار مجموعة بيانات تعلم الآلة

التاريخ:

9 خطايا قاتلة لاختيار مجموعة بيانات تعلم الآلة

تجنب الألم الذي لا نهاية له في تصحيح أخطاء النموذج من خلال التركيز على مجموعات البيانات مقدمًا.


By سانديب أوتامشانداني ، دكتوراه.، كل من منشئ المنتج / البرنامج (نائب رئيس Engg) والرائد في تشغيل مبادرات البيانات / الذكاء الاصطناعي على مستوى المؤسسة (CDO)

لنبدأ بحقيقة واضحة: يمكن أن تكون نماذج ML جيدة فقط مثل مجموعات البيانات التي تم استخدامها في بنائها! في حين أن هناك الكثير من التركيز على بناء نموذج ML واختيار الخوارزمية ، فإن الفرق غالبًا لا تولي اهتمامًا كافيًا لاختيار مجموعة البيانات!



صورة Unsplash

 

من واقع خبرتي ، فإن استثمار الوقت مقدمًا في اختيار مجموعة البيانات يوفر ساعات لا نهاية لها لاحقًا أثناء تصحيح أخطاء النموذج وطرح الإنتاج.

تسع خطايا مميتة من اختيار مجموعة بيانات ML

1. عدم التعامل مع القيم المتطرفة في مجموعات البيانات بشكل صحيح

 
استنادًا إلى نموذج ML الذي يتم بناؤه ، يمكن أن تكون القيم المتطرفة إما ضوضاء يجب تجاهلها أو من المهم أخذها في الاعتبار. القيم المتطرفة الناشئة عن أخطاء الجمع هي تلك التي يجب تجاهلها. تختلف خوارزميات التعلم الآلي في حساسيتها للقيم المتطرفة - AdaBoost أكثر حساسية للقيم المتطرفة مقارنة بـ XgBoost التي تعتبر أكثر حساسية من شجرة القرار التي تعتبر ببساطة تصنيفًا متطرفًا. تتطلب المعالجة الصحيحة للقيم المتطرفة فهم ما إذا كان يمكن تجاهلها وكذلك اختيار الخوارزمية المناسبة بناءً على الحساسية.

2. استخدام التسوية بدلاً من التوحيد القياسي لقياس قيم السمات

 
لجلب الميزات إلى نفس المقياس ، استخدم التسوية (MinMaxScaler) عندما يتم توزيع البيانات بشكل موحد والتوحيد القياسي (StandardScaler) عندما تكون الميزة تقريبًا Gaussian. قبل استخدام مجموعة بيانات ، تحقق من خصائص IID، ثابتة (لا تتغير بمرور الوقت) ، وتضمن التوزيع نفسه أثناء التدريب والاختبار. غالبًا ما يتم تفويت الموسمية وهو ما يعد انتهاكًا كلاسيكيًا للثبات.

3. عدم التحقق من التكرارات في مجموعة بيانات التدريب

 
في كثير من الأحيان ، كنا متحمسين للأرقام عالية الدقة حقًا. غالبًا ما يكشف التحقق المزدوج أن العديد من الأمثلة في مجموعة الاختبار هي نسخ مكررة من الأمثلة الموجودة في مجموعة التدريب. في مثل هذه السيناريوهات ، تكون قياسات تعميم النموذج غير حتمية (أو لا معنى لها). أحد الجوانب ذات الصلة هو التوزيع العشوائي لمجموعة التدريب - بدون العشوائية ، قد ينتهي بنا الأمر مع جميع بيانات الخريف في التدريب والبيانات الصيفية في الاختبار. يمكن أن يؤدي ذلك إلى رسوم بيانية لعصر الخسارة تتطلب تصحيح أخطاء غير ضروري.

4. عدم التحقق من تحيز مجموعة البيانات المتأصل

 
لا تلتقط مجموعات البيانات الحقيقة المطلقة من وجهة نظر إحصائية. فهم يلتقطون فقط السمات التي يطلبها مالكو التطبيق في ذلك الوقت لحالة الاستخدام الخاصة بهم. من المهم تحليل مجموعات البيانات للتحيز والبيانات المسقطة. يعتبر فهم سياق مجموعة البيانات فوق الحرج. غالبًا ما تحتوي مجموعات البيانات على نمط خطأ واحد أو أكثر. إذا كانت هذه الأخطاء عشوائية ، فهي أقل ضررًا لتدريب النموذج. ولكن إذا كان هناك خطأ مثل أن صفًا أو عمودًا معينًا مفقودًا بشكل منهجي ، فقد يؤدي إلى تحيز في مجموعة البيانات. على سبيل المثال ، تفاصيل الجهاز الخاصة بنقرات العملاء مفقودة لمستخدمي Andriod بسبب خطأ ، ستكون مجموعة البيانات منحازة لنشاط مستخدم iPhone.

5. لا توجد اختبارات وحدة للتحقق من صحة بيانات الإدخال

 
في مشاريع تطوير البرمجيات التقليدية ، من أفضل الممارسات كتابة اختبارات الوحدة للتحقق من صحة تبعيات الكود. في مشاريع التعلم الآلي ، يجب تطبيق أفضل الممارسات المماثلة للاختبار والتحقق والمراقبة بشكل مستمر لجميع مجموعات البيانات المدخلة. وهذا يشمل التأكد من أن مجموعات الاختبار تسفر عن نتائج ذات مغزى إحصائيًا وتمثل مجموعة البيانات ككل.

6. افتراضات غير صحيحة حول معنى سمة البيانات

 
عادة ما تكون سمات البيانات لا توثق أبداد. قبل عصر البيانات الضخمة ، كان يتم تنسيق البيانات قبل إضافتها إلى مستودع البيانات المركزي. هذا هو المعروف باسم مخطط على الكتابة. اليوم ، النهج مع بحيرات البيانات هو تجميع البيانات أولاً ثم استنتاج معنى البيانات في وقت الاستهلاك. هذا هو المعروف باسم مخطط على القراءةالقضية ذات الصلة هي وجود تعريفات متعددة لمقياس عمل معين ، أي الافتقار إلى توحيد مقاييس الأعمال. يمكن أن يكون هناك العديد من مصادر الحقيقة وتعريفات الأعمال المرتبطة حتى بأبسط المقاييس. على سبيل المثال ، يمكن أن يكون لمقياس أساسي مثل "عدد العملاء الجدد" تعريفات مختلفة اعتمادًا على ما إذا كان يتم حسابه عن طريق المبيعات والتمويل والتسويق وفرق دعم العملاء.

7. تغييرات غير منسقة في مصدر البيانات

 
غالبًا ما تكون تغييرات المخطط عند المصدر غير منسقة مع فرق المعالجة النهائية. يمكن أن تتراوح التغييرات من تغييرات المخطط (كسر خطوط الأنابيب الحالية) إلى صعوبة اكتشاف التغييرات الأساسية لسمات البيانات (قبيحة جدًا عندما يبدأ نموذجك بشكل غير متوقع في التعثر!). أيضًا ، عندما تتغير مقاييس العمل ، يكون هناك نقص في إصدار التعريفات.

8. استخدام بيانات غير تمثيلية

 
البيانات لها تاريخ انتهاء الصلاحية. قد لا تمثل سجلات سلوك العملاء من 10 سنوات ماضية. بالإضافة إلى ذلك ، ضمان البيانات IID (مستقل وموزع بشكل مماثل) للتدريب النموذجي ، وكذلك مراعاة موسمية البيانات. أيضًا ، مجموعات البيانات تتطور باستمرار. لا يعد تحليل توزيع البيانات نشاطًا لمرة واحدة مطلوبًا فقط في وقت إنشاء النموذج. بدلاً من ذلك ، هناك حاجة إلى مراقبة مجموعات البيانات باستمرار بحثًا عن الانجرافات ، خاصة للتدريب عبر الإنترنت. في كثير من الأحيان ، نظرًا للطبيعة المنعزلة للبيانات ، تتم إدارة مجموعات البيانات المختلفة وفهرستها بواسطة فرق مختلفة. يتم استخدام الكثير من المعرفة القبلية لتحديد مجموعات البيانات. بدون العناية الواجبة الصحيحة ، تقفز الفرق إلى استخدام أول مجموعة بيانات متاحة. غالبًا ما يرتكبون الخطأ الكلاسيكي بافتراض أن جميع مجموعات البيانات موثوقة بنفس القدر. يتم تحديث بعضها وإدارتها من قبل فرق المصدر عن كثب بينما يتم التخلي عن مجموعات البيانات الأخرى أو عدم تحديثها بانتظام أو وجود خطوط أنابيب ETL غير مستقرة.

9. اختيار عينة عشوائية ضمن مجموعة كبيرة من البيانات

 
بالنظر إلى مجموعات البيانات الكبيرة جدًا ، عادةً ما يكون أخذ العينات عشوائيًا. في كثير من الأحيان ، تقرر الفرق استخدام جميع البيانات للتدريببينما تساعد المزيد من البيانات في بناء نموذج دقيق ، تكون البيانات أحيانًا ضخمة بمليارات السجلات. يستغرق التدريب على مجموعة بيانات أكبر وقتًا وموارد. يستغرق كل تكرار تدريب وقتًا أطول مما يؤدي إلى إبطاء إكمال المشروع بشكل عام. هناك حاجة لاستخدام عينات البيانات بشكل فعال. إيلاء اهتمام خاص لتقنيات الاستفادة من مثل أخذ العينات أهمية.

باختصار ، تأكد من تضمين قائمة التحقق هذه في تحديد مجموعة البيانات الخاصة بك. بينما تضيف هذه الخطوات إلى الجهد وربما تبطئ في البداية ، فإنها تدفع لأنفسها عدة مرات لاحقًا في دورة حياة ML!

 
لحماية مخاطر ML المدرجة في هذه المدونة ، اتباع ليتم إعلامك بالمدونة القادمة "The AI ​​Checklist". لاستراتيجيات إدارة البيانات + الذكاء الاصطناعي في الإنتاج ، قم بالدفع كشف البيانات

 
السيرة الذاتية: سانديب أوتامشانداني ، دكتوراه.: Data + AI / ML - كلاهما مُنشئ منتج / برنامج (نائب رئيس Engg) وقائد في تشغيل مبادرات البيانات / الذكاء الاصطناعي على مستوى المؤسسة (CDO) | مؤلف كتاب أورايلي | مؤسس - DataForHumanity (غير هادفة للربح)

أصلي. تم إعادة النشر بإذن.

هذا الموضوع ذو علاقة بـ:

كوينسمارت. Beste Bitcoin-Börse في أوروبا
المصدر: https://www.kdnuggets.com/2021/06/9-deadly-sins-ml-dataset-selection.html

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة