شعار زيفيرنت

أنماط التصميم في التعلم الآلي

التاريخ:

أنماط التصميم في التعلم الآلي

هل يمكننا تجريد أفضل الممارسات لأنماط تصميم حقيقية حتى الآن؟


By أغوستون توروك، مدير علوم البيانات ، AGT الدولية

وفقا ل تعريف، نمط التصميم هو حل قابل لإعادة الاستخدام لمشكلة شائعة الحدوث. في هندسة البرمجيات ، يعود المفهوم إلى 1987 عندما بدأ Beck و Cunningham بتطبيقها على البرمجة. بحلول عام 2000 ، كانت أنماط التصميم - وخاصة مبادئ تصميم SOLID لـ OOP - تعتبر معرفة عامة للمبرمجين. تقدم سريعًا لمدة 15 عامًا ونصل إلى عصر برنامج 2.0: تبدأ نماذج التعلم الآلي في استبدال الوظائف الكلاسيكية في المزيد والمزيد من أماكن الكود. اليوم ، ننظر إلى البرامج على أنها اندماج بين الكود التقليدي ونماذج التعلم الآلي والبيانات الأساسية. يتطلب هذا الاندماج تكاملًا سلسًا لهذه المكونات ، والذي غالبًا ما يكون بعيدًا عن التافه نظرًا للتاريخ والتطور المتباينين ​​في كثير من الأحيان للحقول.


اليوم ، ننظر إلى البرامج على أنها اندماج بين الكود التقليدي ونماذج التعلم الآلي والبيانات الأساسية.


ومع ذلك ، لم يتم تمديد أنماط التصميم حتى الآن للتعامل مع تحديات هذا العصر الجديد. في Software 2.0 ، لا تظهر التحديات الشائعة على مستوى الكود فقط ولكن على مستوى تعريف المشكلة ، وتمثيل البيانات ، وطرق التدريب ، والقياس ، والجوانب الأخلاقية لتصميم الأنظمة التي تدعم الذكاء الاصطناعي. هذا يخلق أرضية خصبة لممارسة التعلم الآلي مضادات الأنماط. لسوء الحظ ، حتى المدونات والمؤتمرات اليوم تعرض أحيانًا مناهضة للأنماط: ممارسات يعتقد أنها تحسن الأمور ولكنها في الواقع تزيد الأمور سوءًا. نظرًا لأن مضادات الأنماط تتطلب أيضًا مهارات ، فغالبًا ما لا يتم التعرف عليها على هذا النحو من قبل ممارسيها. لذلك في ما يلي ، سأقدم مثالين لتحديات ML الشائعة ولكن بدلاً من البدء بنمط التصميم ، سأقدم أولاً مضادات الحلول الخاصة بهم.

يُظهر النموذج أداءً سيئًا في مقاييس التقييم

 
في السيناريو الشائع ، بعد جمع البيانات وتنظيفها وإعدادها ، يدرب المهندس نموذجًا أولًا ويكتشف أنه يظهر أداءً سيئًا في بيانات الاختبار. يتمثل أحد المضادات الشائعة في استبدال النموذج الأول بنموذج أكثر تعقيدًا (على سبيل المثال ، الأشجار المعززة بالتدرج اللوني في كثير من الأحيان) وتحسين الأداء من خلال هذا. قد يتبع أحد أشكال هذا المضاد هذه الخطوة من خلال الجمع بين عدة نماذج من خلال حساب متوسط ​​النموذج على سبيل المثال.



الاقتباس الشهير لدونالد كنوث "التحسين المبكر هو أصل كل الشرور" عمره 50 عامًا تقريبًا ولا يزال صحيحًا. صورة بإذن من tddcomics.

 

تكمن مشكلة هذه الأساليب في أنها تنظر فقط إلى جزء من المشكلة ، أي النموذج ، وتختار حلها عن طريق زيادة تعقيد النموذج. تجبرنا هذه الخطوات على قبول المخاطر العالية للتجهيز المفرط وتداول القابلية للتفسير للحصول على قوة تنبؤية إضافية. في حين أن هناك ممارسات فعالة للتخفيف من الآثار الجانبية لهذا الاختيار (مثل LIME) ، لا يمكننا القضاء عليها تمامًا.

نمط التصميم هو تحليل الخطأ. يعني هذا عمليًا النظر إلى المكان الذي ارتكب فيه نموذجنا الأخطاء ، إما عن طريق تقييم النموذج المناسب لمجموعات اختبار مختلفة أو حتى من خلال النظر في الحالات الفردية التي كان نموذجنا فيها خاطئًا. على الرغم من أننا سمعنا جميعًا مقولة "إدخال قمامة ، إخراج قمامة" ، لا يزال عدد قليل جدًا من الأشخاص يقدرون مدى صحة هذا حتى في حالة عدم الاتساق في البيانات. ربما تأتي الملصقات من مقيمين مختلفين ، ولكل منهم تفسيره الخاص والمختلف قليلاً لإرشادات وضع العلامات. ربما تغيرت طريقة جمع البيانات بمرور الوقت. يعد تأثير تحليل الأخطاء قويًا بشكل خاص لمشاكل البيانات الصغيرة. ومع ذلك ، يجب أن نضع في اعتبارنا أيضًا أنه في نسبة كبيرة من مواقف البيانات الضخمة نتعامل أيضًا مع الأحداث الطويلة (على سبيل المثال تحديد المواهب النادرة من اختبار القبول).

تأتي القوة الحقيقية لتحليل الخطأ من حقيقة أننا لا نتاجر إما بإمكانية التفسير أو مخاطر التخصيص من خلال تطبيقه ، في الواقع يؤدي تطبيقه فقط إلى معرفة نقدية حول توزيع البيانات. علاوة على ذلك ، يمكّننا تحليل الأخطاء من اختيار الحلول التي تتمحور حول النموذج (على سبيل المثال نموذج أكثر تعقيدًا) وحلول تتمحور حول البيانات (مثل خطوات التنظيف الإضافية).

تدهور الأداء بمرور الوقت على نموذج تم نشره

 
يخضع النموذج لعملية تحقق واسعة النطاق ويتم نشره في الإنتاج. المستخدمون سعداء ويقدمون ردود فعل إيجابية. ثم بعد شهر / ربع / سنة ، تأتي التقارير التي تحكي عن عيوب في التنبؤ. عادة ما يكون هذا مظهرًا من مظاهر انحراف المفهوم ، وقد تغير الارتباط الذي تعلمه نموذجك بين المدخلات والمخرجات بمرور الوقت. هناك أماكن يكون فيها مفهوم الانجراف معروفًا (دلالات الكلمات ، وكاشفات البريد العشوائي) ولكن يمكن أن يحدث الانجراف "المفهوم" في أي مجال. على سبيل المثال ، تحدت أنظمة الأقنعة والتباعد الاجتماعي العديد من نماذج الرؤية الحاسوبية التي تم نشرها سابقًا أيضًا.



تفترض أنظمة ML دون إعادة التدريب أي تغيير في العلاقة المتعلمة بين المدخلات والمخرجات. صورة بإذن من tddcomics.

 

يتمثل أحد العوامل المضادة الشائعة في إرجاع هذه الأمثلة إلى الضوضاء وتوقع استقرار الوضع بمرور الوقت. هذا لا يعني فقط الافتقار إلى الإجراءات ولكن الإسناد الخاطئ أيضًا ، والذي يجب تثبيطه بشكل عام في الأعمال التجارية التي تعتمد على البيانات. هناك طريقة أفضل قليلاً هي الرد على التقارير بإعادة التدريب السريع ونشر نموذج جديد. هذا هو مضاد حتى في الحالة التي يفترض فيها الفريق أنهم يتبعون مبادئ تطوير البرمجيات الرشيقة وبالتالي يختارون أن يكونوا سريعًا في رد الفعل تجاه التغيير. تكمن المشكلة في أن هذا الحل يعالج الأعراض وليس الخلل في تصميم النظام.

تعد أنماط التصميم تقييمًا مستمرًا للأداء ، مما يعني أنك تتوقع حدوث الانجرافات ، ومن ثم تصميم النظام لملاحظة ذلك في أسرع وقت ممكن. هذا نهج مختلف تمامًا لأن التركيز ليس على سرعة رد الفعل ولكن على سرعة كشف. هذا يضع النظام بأكمله في مسار أكثر تحكمًا مما يعطي مساحة أكبر لتحديد أولويات أي تفاعل. يعني التقييم المستمر إنشاء عمليات وأدوات لتوليد الحقيقة الأساسية باستمرار لجزء بسيط من البيانات الجديدة. في معظم الحالات ، يتضمن ذلك التسمية اليدوية ، وغالبًا ما تستخدم خدمات التعهيد الجماعي. ومع ذلك ، في بعض الحالات ، يمكننا استخدام نماذج وأجهزة أخرى أكثر تعقيدًا ولكن في إعداد النشر غير مجدية لإنشاء تسميات الحقيقة الأساسية. على سبيل المثال ، في تطوير السيارات ذاتية القيادة ، يمكن استخدام المدخلات من أحد أجهزة الاستشعار (مثل LiDAR) لتوليد الحقيقة الأساسية لمستشعر آخر (مثل الكاميرا).

مبادئ التصميم الصلبة للتعلم الآلي

 
السبب في أنني أكتب عن أنماط التصميم هو أن هذا المجال قد وصل إلى مستوى النضج حيث لا ينبغي لنا فقط مشاركة أفضل ممارساتنا ولكن يجب أن نكون قادرين على تجريدها إلى أنماط تصميم حقيقية. لحسن الحظ ، بدأ هذا العمل من قبل مجموعات متعددة بالفعل. في الواقع ، تم نشر كتابين مؤخرًا حول هذا الموضوع [1[،]2]. لقد استمتعت بقراءتها ولكن لا يزال لدي شعور بأنه على الرغم من أننا نسير في الاتجاه الصحيح ، إلا أننا ما زلنا على بعد خطوات قليلة من صياغة مبادئ تصميم SOLID لممارسي ML. أعتقد أنه في حين أن المعرفة الأساسية متاحة بالفعل وتستخدم لبناء المنتجات التي تدعم الذكاء الاصطناعي اليوم ، فإن العمل على أنماط التصميم والأنماط المضادة يعد خطوة مهمة نحو عصر البرمجيات 2.0.



أنماط التصميم هي أساس براعة التعلم الآلي. صورة بإذن من tddcomics.

 
السيرة الذاتية: أغوستون توروك هو مدير علوم البيانات في AGT International.

أصلي. تم إعادة النشر بإذن.

هذا الموضوع ذو علاقة بـ:


أفلاطون. Web3 مُعاد تصوره. تضخيم ذكاء البيانات.
انقر هنا للوصول.

المصدر: https://www.kdnuggets.com/2021/07/design-patterns-machine-learning.html

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة

الدردشة معنا

أهلاً! كيف يمكنني مساعدك؟