شعار زيفيرنت

نهج أفضل (كثيرًا) لتقييم نموذج التعلم الآلي الخاص بك

التاريخ:

نهج أفضل (كثيرًا) لتقييم نموذج التعلم الآلي الخاص بك

الوسوم (تاج): تعلم آلة

يبدو أن استخدام مقياس أو اثنين من مقاييس الأداء كافٍ للادعاء بأن نموذج ML الخاص بك جيد - ومن المحتمل أنه ليس كذلك.


By أوليفييه بليز، رئيس قسم علوم القرار في Moov AI

من الجنون مدى صعوبة قيام علماء البيانات مثلي بتقييم نماذج ML باستخدام مقاييس الأداء الكلاسيكية بشكل صحيح.

حتى مع الوصول إلى ملفات مقاييس متعددة وطرق تسجيل النتائج، لا يزال من الصعب فهم المقاييس الصحيحة للمشكلات التي أواجهها - وربما العديد من المشكلات الأخرى. هذا هو بالضبط سبب استخدامي Snitch AI في معظم تقييمات جودة نموذج ML. ملاحظة: لقد كنت عضوًا نشطًا في تطوير Snitch AI على مدار العامين الماضيين.

 
أداة التحقق من نموذج التعلم الآلي | واش منظمة العفو الدولية
قم بتمكين فريق علوم البيانات لديك لتقديم ذكاء اصطناعي قوي وجدير بالثقة. كشف الشذوذ قبل أن تؤثر على عملك.
 

اسمحوا لي أن أوضح سبب أهمية اختيار المقياس الصحيح بمثال: إنشاء نموذج يمكنه التنبؤ بإفلاس الشركة باستخدام بيانات مركزية في مستودع التعلم الآلي التابع لجامعة كاليفورنيا في إيرفين. تسمى مجموعة البيانات توقع الإفلاس التايواني (مرخصة بموجب CC BY 4.0) وتستفيد من بيانات الإفلاس من مجلة Taiwan Economic Journal من 1999 إلى 2009.

المشكلة: مجموعة بيانات غير متوازنة

 
المشكلة الأولى التي ستواجهها هي عدم التوازن في مجموعة البيانات. إنها أخبار جيدة وأخبار سيئة. النبأ السار هو أن 3.3٪ فقط من الشركات أفلست! على الجانب الآخر ، فإن الأخبار السيئة هي أن عدم التوازن في مجموعة البيانات يجعل من الصعب التنبؤ بـ "الفئة النادرة" (3.3٪) ، حيث يمكن لنماذجنا الكسولة أن تتنبأ بالمصير الصحيح لـ 96.7٪ من الشركات من خلال التنبؤ ببساطة لا حالات إفلاس.


نهج أفضل (كثيرًا) لتقييم نموذج التعلم الآلي الخاص بك
الهدف تقييم عدم التوازن من قبل المؤلف

 

يمكنك أن ترى أن هذه أيضًا مشكلة في تقييم الأداء لأن معظم المقاييس منحازة نحو الفئة الأكبر ، مما يجعلها خاطئة في النهاية. لماذا ا؟ إن التنبؤ بعدم وجود حالات إفلاس يجعل نموذجنا دقيقًا بنسبة 96.7٪ نظريًا. فيما يلي مثال على النموذج الأول الذي تم إنشاؤه وتقييمه في Snitch AI. تحسب الأداة مقاييس أداء متعددة ذات صلة بشكل افتراضي. كما ترى أدناه ، حصل نموذجنا الأول على دقة تصل إلى 96٪. ومع ذلك ، عندما تنظر إلى درجة F1 ، مقياس أفضل للفصول غير المتوازنة، بالكاد أحصل على 26٪ ...


نهج أفضل (كثيرًا) لتقييم نموذج التعلم الآلي الخاص بك
صورة لتحليل الجودة الأولي بواسطة المؤلف

 

وذلك ما يعطي؟

الحل لمجموعات البيانات غير المتوازنة

 
عند التعامل مع البيانات غير المتوازنة ، من الممارسات الجيدة محاولة جعل مجموعة بيانات التدريب أكثر توازناً كخطوة ثانية. يمكنك تحقيق ذلك إما عن طريق أخذ عينة أقل من فئة الأغلبية (عدم الإفلاس) ، أو إزالة الملاحظات العشوائية ، أو الإفراط في أخذ عينة من فئة الأقلية (الإفلاس).

لأخذ العينات الزائدة ، يمكنك إما نسخ الملاحظات العشوائية أو إنشاء ملاحظات تركيبية باستخدام خوارزميات مجربة مثل الأقليات الاصطناعية الإفراط في أخذ العينات. يعمل SMOTE عن طريق تحديد الأمثلة القريبة ، ورسم خط بين الأمثلة ، ورسم عينة جديدة في نقطة على طول هذا الخط.

كما ترى ، هناك العديد من التقنيات التي يمكنني استخدامها لتحسين نموذجي.

مع Snitch ، يمكنني رؤية تاريخ نظيف لتجاربي المختلفة:


نهج أفضل (كثيرًا) لتقييم نموذج التعلم الآلي الخاص بك
صورة لتحليل الجودة المتعددة بواسطة المؤلف

 

فيما يلي بعض الاستنتاجات التي تعلمتها من التجارب أعلاه:

  • تعمل تقنيات Undersampling والإفراط في أخذ العينات على تحسين درجة F1 بشكل كبير. هذا أمر جيد!
  • ومع ذلك ، فإن مكاسب الأداء هذه تأتي على حساب الجودة الشاملة لنماذجنا.
  • يعد نموذجنا 4 (التدرج اللوني مع أخذ عينات أقل) هو أفضل نموذج ، حيث أنه يعمل تقريبًا مثل النموذج 2 ، ولكنه يتمتع بجودة أفضل بشكل عام.

انتظر! ما هذه "نقاط الجودة"؟

 
يستخدم Snitch حوالي عشرة تحليلاً آليًا للجودة لإنشاء نقاط الجودة هذه.

ينتج عن تحليل الجودة:

  • درجة مساهمة الميزة: إلى تحقق مما إذا كانت تنبؤات نموذجك متحيزة أو موزعة بشكل عادل بين متغيرات الإدخال.
  • درجة متانة الضوضاء العشوائية: للتحقق مما إذا كان نموذجك قويًا لإدخال البيانات الصاخبة.
  • درجة متانة الضوضاء الشديدة: للتحقق مما إذا كان نموذجك قويًا لإدخال البيانات المشوشة لسيناريو أسوأ الحالات.


نهج أفضل (كثيرًا) لتقييم نموذج التعلم الآلي الخاص بك
صورة من منهجية تحليل الجودة Snitch AI، 2021. أعيدت بإذن

تقييم الأداء صعب

 
لا شيء جيد يأتي بسهولة ، وتقييم الأداء لا يختلف. على الرغم من صعوبة الحصول على تقييم الأداء بشكل صحيح ، إلا أنه يجب أن يؤخذ على محمل الجد أثناء تطوير النماذج الخاصة بك. ليس لأن لديك دقة جيدة أن نموذجك جيد.

الحقيقة هي أن الدقة قد لا تكون حتى مقياسًا مناسبًا للأداء. في حالتنا ، كانت نتيجة F1 أفضل بالتأكيد لأن مجموعة البيانات الخاصة بنا كانت غير متوازنة. الدرس هنا بسيط. تأكد من التحقق من أن المقاييس التي حددتها تقيس بشكل صحيح ما تحاول تحقيقه.

على الرغم من أهمية مقاييس الأداء (تتعلق بقياس مدى جودة توقع نموذجك للنتيجة بعد كل شيء) ، إلا أن هذه المقاييس لا تتحقق من صحة تحيزات البيانات أو القوة الكلية لنموذجك. من الممارسات الجيدة هنا اختبار الخصائص الأخرى على وجه التحديد مثل التحيزات والقوة.

لقد رأينا أن بعض النماذج يمكن أن تؤدي بشكل أفضل من النماذج الأخرى من الناحية النظرية ولكنها في الواقع ذات جودة رديئة. لقد رأينا أيضًا نماذج تعمل بشكل سيئ ولكنها ذات جودة أفضل. في نهاية اليوم ، الهدف هو أن تكون قادرًا على مقارنة هذه الإشارات لتحديد أفضل طريقة.

تذكر أن النهج الأفضل لا يجب أن يركز فقط على تقدير أداء نموذجك ، بل يتطلب بالفعل اختبارًا متعمقًا للتأكد من أن نظامك قوي أيضًا حتى يعمل بالفعل على بيانات جديدة في الإنتاج ... هذا هو المكان الذي يحتاج فيه السحر إلى يحدث!

 
 
أوليفييه بليز مؤسس مشارك ورئيس قسم علوم القرار في Moov AI. وهو أيضًا عضو في لجنة مجلس المعايير الكندية التي تحدد معايير ISO لحلول الذكاء الاصطناعي حيث يقود مبادرات بشأن إرشادات تقييم الجودة لأنظمة الذكاء الاصطناعي.

أصلي. تم إعادة النشر بإذن.

المصدر: https://www.kdnuggets.com/2022/01/much-better-approach-evaluate-machine-learning-model.html

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة