شعار زيفيرنت

لماذا تموت نماذج التعلم الآلي في صمت؟

التاريخ:

By ثوواراكش مورالي، عالم البيانات في Stax، Inc.

يختلف معنى الحياة من إنسان لآخر ومن يوم لآخر ومن ساعة لأخرى.
- فيكتور إي فرانكل ، بحث الإنسان عن المعنى

لم يكن فرانكل محقًا فقط بشأن معنى الحياة. كان قوله صحيحًا عن نماذج التعلم الآلي في الإنتاج أيضًا.

تعمل نماذج ML بشكل جيد عند نشرها في الإنتاج. ومع ذلك ، فإن أداؤهم يتدهور على طول الطريق. إنها جودة التنبؤات تتلاشى وسرعان ما تصبح أقل قيمة.

هذا هو الاختلاف الأساسي بين نشر البرنامج ونشر التعلم الآلي. يقوم البرنامج بتنفيذ المهام بنفس الطريقة في كل مرة. حتى بعد عقود من إنشائها ، تظل مفيدة ما لم تتجاوزها التقنيات الجديدة أو يصبح الغرض الذي تم إنشاؤه لأول مرة قديمًا.

تحاول معظم الشركات وتفشل في استخدام التعلم الآلي في عملياتها التجارية دون معرفة هذا الاختلاف. لقد استقالوا قريبًا قبل الاستفادة من القيم التي يمكن أن تقدمها هذه التكنولوجيا.


لماذا تموت نماذج التعلم الآلي في صمت؟
يستخدم عدد أقل من الشركات التعلم الآلي والذكاء الاصطناعي لدعم عملياتها التجارية. - صورة المعلن / كاتب التعليق.

 

وفقًا لمكتب الإحصاء الأمريكي مسح من بين 583,000 شركة أمريكية في عام 2018 ، يستخدم 2.8٪ فقط التعلم الآلي للاستفادة من المزايا لعملياتهم. حول 8.9٪ ممن شملهم الاستطلاع يستخدمون شكلاً من أشكال الذكاء الاصطناعي مثل التعرف على الصوت.

لماذا يتدهور أداء نموذج ML في الإنتاج؟

 
 
لقد أمضيت أسابيع إن لم يكن شهورًا في تدريب نموذج التعلم الآلي ، وأخيراً ، انتقل إلى الإنتاج. الآن ، يجب أن ترى فوائد عملك الشاق.

لكن بدلاً من ذلك ، لاحظت أن أداء النموذج يتدهور ببطء بمرور الوقت. ما الذي يمكن أن يسبب هذا؟

إذا لم تتم مراقبتها باستمرار وتقييمها بشكل كافٍ لتدهور الجودة التنبئي ، يمكن أن يؤدي انحراف المفهوم إلى القضاء على نموذج التعلم الآلي قبل تاريخ التقاعد المتوقع.

ما هو مفهوم الانجراف؟

 
 
يحدث انحراف المفهوم عندما تكون هناك تغييرات في توزيع أمثلة مجموعة التدريب.

على المستوى الأساسي ، يتسبب مفهوم الانجراف في ظهور نقاط البيانات التي كانت تعتبر في يوم من الأيام مثالاً لمفهوم واحد ليتم اعتبارها مفهومًا آخر تمامًا بمرور الوقت.

على سبيل المثال ، تتعرض نماذج الكشف عن الاحتيال لخطر انحراف المفهوم عندما يتغير مفهوم الاحتيال باستمرار.

يمكن أن يتسبب هذا في تدهور أداء النموذج ، خاصة على مدى فترات طويلة حيث يستمر انحراف المفهوم دون أن يتم اكتشافه بواسطة أنظمة المراقبة الخاصة بك.

ما الذي يسبب مفهوم الانجراف؟

 
 
السبب الرئيسي لحدوث الانجراف هو أن توزيع البيانات الأساسي في تطبيق ما يتغير باستمرار.

عندما تتغير التوزيعات ، لم تعد نماذج التعلم الآلي القديمة قادرة على تقديم تنبؤات دقيقة ويجب إعادة تعريفها أو إعادة تدريبها بالكامل للتكيف مع هذه التغييرات.

على الرغم من أن هذا يبدو وكأنه شيء لا ترغب أبدًا في حدوثه في أحد التطبيقات ، إلا أن الهدف من تحديث العديد من نماذج التعلم الآلي بشكل متكرر قدر الإمكان.

هذا لأن البيانات الجديدة التي تم جمعها من بيئة الإنتاج تحتوي على معلومات قيمة يمكن أن تساعد في تحسين دقة التنبؤات التي تم إجراؤها بواسطة نموذجك.

يمكن أن يتغير توزيع بيانات الإدخال إما لأسباب خارجية أو بسبب التنبؤات نفسها. يتأثر سلوك الشراء لدى العملاء ، على سبيل المثال ، باتجاهات الاقتصاد الكلي. ومع ذلك ، فإن سلوكهم على النظام الأساسي الخاص بك يمكن أن يكون أيضًا نتيجة مباشرة لنظام التوصيات الخاص بك.

كيف نتعامل مع مفهوم الانجراف للنماذج في الإنتاج؟

 
 
على الرغم من أن مفهوم الانجراف يبدو مخيفًا للغاية ، إلا أن هناك طرقًا لمعالجته. إنها مشكلة منتشرة يواجهها جميع مطوري التعلم الآلي عاجلاً أم آجلاً.

ينحرف المفهوم بمرور الوقت ، وتتغير البيانات عما تم استخدامه لتدريب نموذجك. إذا لم يكن لديك طريقة لمراقبة هذا الانجراف ، فستتراجع دقتك ببطء حتى في النهاية ، لن يثق أحد في توقعاتك بعد الآن.

راقب مدخلات ومخرجات النموذج بمرور الوقت.

 
 
من خلال مراقبة توزيع بيانات المدخلات والمخرجات ، يمكننا تحديد ما إذا كان تسرب الأداء يمثل مشكلة بيانات أو مشكلة نموذجية.

إذا كانت مشكلة تتعلق بالبيانات ، فيمكنك النظر في التغييرات التي تسببت في هذا التحول. قد تكون طريقة جمع البيانات أو تحولًا حقيقيًا في الاتجاه.

إذا كانت مشكلة تتعلق بالنموذج ، فيجب أن تنظر في ميزة النموذج الخاص بك التي قد تسبب هذا التغيير في التوزيع. يمكن أن يحدث هذا بسبب أشياء مثل تسلل التحيز إلى النموذج أو حتى التغييرات البيئية التي تتسبب في عدم تطابق مجموعة التدريب مع البيانات الفعلية.

تتبع جودة التنبؤ بالنموذج بمرور الوقت

 
 
تعد مراقبة مقاييس الأداء المختلفة بمرور الوقت أمرًا بالغ الأهمية لأنه يمكننا معرفة أي انحراف من خلال النظر إليها عن كثب. تتضمن بعض مقاييس أداء النموذج المهمة الدقة والتذكر وقياس F و ROC.

دقة هي مدى دقة التنبؤ عندما يتم تقسيم الإيجابيات الحقيقية على جميع التوقعات التي تم إجراؤها. إذا نظرت إلى الدقة بمرور الوقت ، فهذا يشير إلى مدى انجراف نموذجنا من توزيع البيانات الفعلي إلى ما يتوقعه الآن.

تذكر يخبرنا ما إذا كنا نلتقط ما يكفي من الأمثلة الإيجابية.

إذا انخفض الاسترجاع بمرور الوقت ، فهذا يشير إلى أن نموذجنا قد ابتعد عن الإيجابيات الحقيقية إلى السلبيات الكاذبة ، والتي لا تناسب قرارات العمل.

قياس F يجمع بين الدقة والاستدعاء في رقم واحد باستخدام الوسط التوافقي لقيمها. إذا كان قياس F يتغير جنبًا إلى جنب مع الدقة ، فهذا يشير أيضًا إلى انجراف النموذج.

ROC يمنحنا القدرة على النظر إلى واحدة إيجابية حقيقية مقابل جميع التوقعات الأخرى التي تم إجراؤها ، مما يساعد على تحديد أي مشاكل تحيز في المصنف أو تغييرات في الميزات التي تسبب إيجابيات خاطئة. يمكن اعتباره امتدادًا للدقة والاستدعاء ، ولكن يحتوي على مزيد من المعلومات.

أعد تدريب نماذجك بانتظام باستخدام بيانات جديدة للحفاظ على الدقة والجدارة بالثقة.

 
 
بينما يسمح تتبع مصفوفات الأداء بتحديد انحرافات المفهوم في أقرب وقت ممكن ، تحاول إعادة التدريب المنتظم بشكل استباقي القضاء على مثل هذا الموقف.

قد يستغرق الأمر الكثير من الوقت والموارد لإعادة تدريب نماذجك باستمرار ، ولكنه استثمار يؤتي ثماره على المدى الطويل.

يعتمد تكرار إعادة التدريب إلى حد كبير على المجال. في التجارة الإلكترونية ، ربما تكون إعادة تدريب النماذج كل أسبوع منطقية. ولكن بالنسبة لأنظمة الكشف عن الاحتيال حيث يتغير سلوك المستخدمين المحتالين باستمرار ، فقد تحتاج إلى إعادة تدريب نموذجك يوميًا.

استخدم مجموعة من النماذج.

 
 
هذه كلها استراتيجيات ممتازة لمنع أو معالجة انحراف التعلم الآلي في الإنتاج. ومع ذلك ، هناك طريقة أخرى لمعالجة هذه المشكلة وهي استخدام نماذج المجموعات.

تستخدم نماذج المجموعات خوارزميات متعددة في وقت واحد وتجمع تنبؤاتها في تنبؤ نهائي واحد يمكن أن يكون أكثر دقة من أي خوارزمية فردية.

يمكن أن تكون هذه طريقة رائعة لزيادة الدقة ومنع حدوث أي انحراف بمرور الوقت.

الأفكار النهائية

 
 
تتسبب الانجرافات المفاهيمية في أن تؤدي نماذج التعلم الآلي في الإنتاج أداءً مختلفًا عما تفعله أثناء التدريب. هذه مشكلة كبيرة يمكن أن تؤدي إلى تجارب مستخدم سيئة أو حتى تتسبب في فشل النماذج إذا لم يتم توقع الانجراف بشكل صحيح.

الطريقة الأكثر شيوعًا التي تحدث بها انحرافات المفاهيم في الإنتاج هي عندما تتغير بياناتك بمرور الوقت (على سبيل المثال ، تتم إضافة ميزات جديدة ، وإزالة بعض الميزات الموجودة). من الضروري مراقبة بياناتك واكتشاف الانجراف في أسرع وقت ممكن.

يجب عليك أيضًا استخدام تقنيات مثل إعادة التدريب المنتظم أو التجميع لمنع الانجراف في المقام الأول.

يجب عليك معالجة انحراف التعلم الآلي قبل أن يبدأ المستخدمون في الإبلاغ عن التجارب السيئة مع منتجك. إذا حدث هذا ، فسيؤدي سريعًا إلى فقدان الثقة وتكاليف باهظة لإصلاح الأشياء لاحقًا. كن سباقا!

 
السيرة الذاتية: ثوواراكش مورالي (تضمين التغريدة) هو عالم بيانات في Stax، Inc. ، وكاتب بارز في Medium for Analytics. يشارك Murallie ما يستكشفه في علم البيانات كل يوم.

أصلي. تم إعادة النشر بإذن.

المصدر: https://www.kdnuggets.com/2022/01/machine-learning-models-die-silence.html

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة