شعار زيفيرنت

ماذا فعل COVID لجميع موديلاتنا؟

التاريخ:

ماذا فعل COVID لجميع موديلاتنا؟

مقابلة مع دين أبوت وجون إلدر حول إدارة التغيير والتعقيد وقابلية التفسير وخطر استيلاء الذكاء الاصطناعي على البشرية.


By هيذر فيسون، KNIME

ماذا فعل COVID لجميع موديلاتنا؟

بعد قمة KNIME Fall، الديناصورات عادت إلى المنزل ... حسنًا ، أغلقت أجهزة الكمبيوتر المحمولة الخاصة بهم. عميد أبوت و  جون إلدر، خبراء علوم البيانات منذ فترة طويلة ، تمت دعوتهم إلى قمة الخريف من قبل مايكل للانضمام إليه في مناقشة مستقبل علم البيانات: محادثة مع ديناصورات الصناعة. وكانت النتيجة محادثة مثيرة حول تحديات علوم البيانات والاتجاهات الجديدة. منذ إطفاء أضواء الاستوديو ، روزاريا قام بتقطير وتوسيع بعض النقاط البارزة حول إدارة التغيير والتعقيد وقابلية التفسير والمزيد في عالم علم البيانات. دعونا نرى إلى أين أتت بنا.

ما هي تجربتك مع إدارة التغيير في الذكاء الاصطناعي ، عندما يتعين تحديث تغييرات ونماذج الواقع؟ ماذا فعل COVID لجميع موديلاتنا؟

 
[عميد] تفترض خوارزميات التعلم الآلي (ML) الاتساق بين الماضي والمستقبل. عندما تتغير الأشياء ، تفشل النماذج. لقد غير فيروس كورونا عاداتنا ، وبالتالي بياناتنا. تكافح نماذج ما قبل COVID للتعامل مع الوضع الجديد.

[يوحنا] مثال بسيط سيكون طبقة حركة المرور على خرائط Google. بعد عمليات الإغلاق التي ضربت دولة تلو الأخرى في عام 2020 ، كانت تقديرات حركة المرور على خرائط Google غير دقيقة للغاية لفترة من الوقت. لقد تم بناؤه على بيانات تدريب مستقرة إلى حد ما ولكن الآن تم التخلص من هذا النظام تمامًا.

كيف تعرف متى تغير العالم ولم تعد النماذج تعمل؟

 
[عميد] إليك خدعة صغيرة أستخدمها: أقوم بتقسيم بياناتي حسب الوقت وتسمية السجلات على أنها "قبل" و "بعد". ثم أقوم ببناء نموذج تصنيف للتمييز بين "بعد" مقابل "قبل" من نفس المدخلات التي يستخدمها النموذج. إذا كان التمييز ممكنًا ، فإن "ما بعد" يختلف عن "السابق" ، فقد تغير العالم ، وتغيرت البيانات ، ويجب إعادة تدريب النماذج.

ما مدى تعقيد إعادة تدريب النماذج في المشاريع ، خاصة بعد سنوات من التخصيص؟

 
[يوحنا] نماذج التدريب عادة ما تكون أسهل خطوة على الإطلاق! الغالبية العظمى من المشاريع الناجحة خلاف ذلك يموت في مرحلة التنفيذ. أعظم الوقت  يتم إنفاقه في مرحلة تنقية البيانات وإعدادها. والأكثر مشاكل تم تفويتها أو إجراؤها في مرحلة فهم الأعمال / تعريف المشروع. لذا ، إذا فهمت ما هو الخلل واستطعت الحصول على بيانات جديدة ووضع إطار عمل للتنفيذ ، فإن إنشاء نموذج جديد ، بالمقارنة ، واضح جدًا.

استنادًا إلى خبرتك التي امتدت لعقود ، ما مدى تعقيد تجميع تطبيق فعال لعلوم البيانات؟

 
[يوحنا] يمكن أن تختلف بالطبع ، من خلال التعقيد. تحصل معظم مشاريعنا على نماذج أولية عاملة على الأقل في غضون بضعة أشهر. لكن بالنسبة للجميع ، لا يمكنني التأكيد بما فيه الكفاية على أهمية ردود الفعل: عليك التحدث إلى الناس أكثر مما تريد. واستمع! نتعلم أشياء جديدة حول مشكلة العمل أو البيانات أو القيود في كل مرة. لسنا جميعًا نحن الأشخاص الكميون ماهرون في التحدث مع البشر ، لذلك غالبًا ما يتطلب الأمر فريقًا. لكن يجب أن يتعلم الفريق بأكمله من أصحاب المصلحة التحدث بنفس اللغة.

[عميد] من المهم التحدث إلى نظرائنا التجاريين. يخشى الناس التغيير ولا يريدون تغيير الوضع الحالي. إحدى المشكلات الرئيسية هي مشكلة نفسية حقًا. غالبًا ما يُنظر إلى المحللين على أنهم مصدر إزعاج. لذلك ، يتعين علينا بناء الثقة بين النظير التجاري ومهوسو التحليلات. يجب أن تتضمن بداية المشروع دائمًا الخطوة التالية: مزامنة خبراء المجال / مديري المشروع والمحللين وفريق تكنولوجيا المعلومات والبنية التحتية (DevOps) حتى يكون الجميع واضحًا بشأن أهداف المشروع وكيفية تنفيذه. يحتل المحللون المرتبة 11 في قائمة العشرة الأوائل من الأشخاص الذين يتعين عليهم رؤيتهم كل يوم! دعونا نتجنب تجسيد غطرسة عالم البيانات: "لا يمكن للعمل التجاري فهمنا / تقنياتنا ، لكننا نعرف ما هو الأفضل". لكن ما لا نفهمه هو أن خبراء المجالات هم في الواقع خبراء في المجال الذي نعمل فيه! تعتبر ترجمة افتراضات ومناهج علوم البيانات إلى لغة يفهمها خبراء المجال أمرًا أساسيًا!

الاتجاه الأخير الآن هو التعلم العميق ، ويبدو أنه يمكنه حل كل شيء. تلقيت سؤالًا من أحد الطلاب مؤخرًا ، يسأل "لماذا نحتاج إلى تعلم خوارزميات ML الأخرى إذا كان التعلم العميق هو أحدث ما توصلت إليه التكنولوجيا لحل مشاكل علوم البيانات"؟

 
[عميد] امتص التعلم العميق الكثير من الأكسجين من الغرفة. إنه شعور يشبه إلى حد كبير أوائل التسعينيات عندما صعدت الشبكات العصبية بتفاؤل مماثل! التعلم العميق عبارة عن مجموعة من التقنيات القوية بالتأكيد ، ولكن من الصعب تنفيذها وتحسينها. XGBoost ، مجموعات الأشجار ، هي أيضًا قوية ولكنها حاليًا أكثر انتشارًا. الغالبية العظمى من المشاكل التي نحتاج إلى حلها باستخدام التحليلات المتقدمة لا تتطلب في الواقع حلولًا معقدة ، لذا ابدأ بسيطًا ؛ التعلم العميق هو مبالغة في هذه المواقف. من الأفضل استخدام مبدأ ماكينة الحلاقة في أوكام: إذا كان هناك نموذجان يؤديان نفس الشيء ، فقم بتبني أبسطها.

عن التعقيد. الاتجاه الآخر ، عكس التعلم العميق ، هو تفسير ML. هنا ، أنت تبسط النموذج بشكل كبير (بشكل مفرط؟) حتى تتمكن من شرحه. هل التفسير مهم؟

 
[يوحنا] كثيرا ما أجد نفسي أحارب التفسير. إنه أمر رائع بالتأكيد ، ولكنه غالبًا ما يأتي بتكلفة عالية جدًا لأهم خصائص النموذج: الدقة الموثوقة. لكن العديد من أصحاب المصلحة يعتقدون أن القابلية للتفسير ضرورية ، لذلك تصبح حاجزًا أمام القبول. وبالتالي ، من الضروري اكتشاف نوع التفسير المطلوب. ربما هو مجرد معرفة ما هي أهم المتغيرات؟ هذا ممكن مع العديد من النماذج غير الخطية. ربما ، كما هو الحال مع شرح لمقدمي طلبات الائتمان لماذا تم رفضهم ، يحتاج المرء فقط إلى تفسير المخرجات لحالة واحدة في كل مرة؟ يمكننا بناء تقريب خطي لنقطة معينة. أو يمكننا إنشاء بيانات من نموذج الصندوق الأسود الخاص بنا وبناء نموذج "قابل للتفسير" لأي تعقيد يناسب تلك البيانات.

أخيرًا ، أظهر البحث أنه إذا أتيحت للمستخدمين فرصة اللعب بنموذج - أي لإثارة قيم تجريبية للمدخلات ورؤية مخرجاتها ، وربما تصورها - فإنهم يحصلون على نفس المشاعر الدافئة لقابلية التفسير. بشكل عام ، الثقة - في الأشخاص والتكنولوجيا وراء النموذج - ضرورية للقبول ، ويتم تعزيز ذلك من خلال الاتصال المنتظم وإدراج المستخدمين النهائيين للنموذج في مراحل البناء وقرارات عملية النمذجة.

[عميد] بالمناسبة ، تمتلك منصة KNIME Analytics ميزة رائعة لتقدير أهمية متغيرات الإدخال في غابة عشوائية! ال المتعلم العشوائي للغابات تُخرج العقدة إحصائيات المتغيرات المرشحة والمتغيرات الفاصلة. تذكر أنه عند استخدام عقدة Random Forest Learner.

هناك زيادة في طلبات تفسيرات ما يفعله النموذج. على سبيل المثال ، بالنسبة لبعض فئات الأمان ، يطالب الاتحاد الأوروبي بالتحقق من أن النموذج لا يفعل ما لا يفترض أن يفعله. إذا كان علينا شرح كل شيء ، فربما لا يكون التعلم الآلي هو السبيل للذهاب. لا مزيد من التعلم الآلي؟

 
[عميد]  ربما يكون الحصول على شرح كامل صعبًا للغاية ، ولكن يمكننا تحقيق تقدم من خلال إجراء بحث شبكي على مدخلات النموذج لإنشاء شيء مثل بطاقة النتيجة التي تصف ما يفعله النموذج. هذا شيء مثل اختبار الانحدار في الأجهزة والبرامج QA. إذا كان الدليل الرسمي على ما تفعله النماذج غير ممكن ، فلنختبر ونختبر ونختبر! يمكن أن يساعد تبديل الإدخال وخلط الهدف في تحقيق تمثيل تقريبي لسلوك النموذج.

[يوحنا] بالحديث عن فهم ما يفعله النموذج ، أود أن أثير مشكلة التكاثر في العلم. يُعتقد أن نسبة كبيرة من المقالات الصحفية في جميع المجالات - 65 إلى 90٪ - غير قابلة للتكرار. هذه أزمة حقيقية في العلم. تحاول الأوراق الطبية إخبارك بكيفية إعادة إنتاج نتائجها. لا يبدو أن أوراق ML لا تهتم حتى الآن بإمكانية التكاثر. أظهرت دراسة حديثة أن 15٪ فقط من أوراق الذكاء الاصطناعي تتشارك في التعليمات البرمجية الخاصة بها.

لنتحدث عن تحيز تعلم الآلة. هل من الممكن بناء نماذج لا تميز؟

 
[يوحنا] (أن تكون الطالب الذي يذاكر كثيرا للحظة ، هذه الكلمة للأسف زائد. إن "التمييز" في كلمة ML العالمية هو هدفك الأساسي: التمييز بين فئتين.) ولكن بالنسبة لسؤالك الحقيقي ، فإنه يعتمد على البيانات (وعلى ما إذا كان المحلل ذكيًا بما يكفي لضبط نقاط الضعف في البيانات ): ستسحب النماذج من البيانات المعلومات الواردة فيها. الكمبيوتر لا يعرف شيئًا عن العالم باستثناء ما هو موجود في البيانات الموجودة أمامه. لذلك يتعين على المحلل تنسيق البيانات - وتحمل المسؤولية عن تلك الحالات التي تعكس الواقع. إذا كانت أنواع معينة من الأشخاص ، على سبيل المثال ، غير ممثلة تمثيلاً ناقصًا ، فإن النموذج سيولي اهتمامًا أقل لهم ولن يكون دقيقًا معهم في المستقبل. أسأل ، "ما الذي يجب أن تمر به البيانات للوصول إلى هنا؟" (للحصول على مجموعة البيانات هذه) للتفكير في كيفية انسحاب الحالات الأخرى على طول الطريق خلال العملية (أي تحيز الناجين). يمكن لعالم البيانات الماهر البحث عن مثل هذه المشكلات والتفكير في طرق لتعديلها / تصحيحها.

[عميد] التحيز ليس في الخوارزميات. التحيز في البيانات. إذا كانت البيانات متحيزة ، فنحن نعمل بنظرة متحيزة للعالم. الرياضيات هي مجرد رياضيات ، فهي ليست متحيزة.

هل سيهيمن الذكاء الاصطناعي على البشرية ؟!

 
[يوحنا] أعتقد أن الذكاء الاصطناعي هو مجرد هندسة جيدة. هل سيتجاوز الذكاء الاصطناعي الذكاء البشري؟ من واقع خبرتي ، يعتقد أي شخص دون سن الأربعين نعم ، هذا أمر حتمي ، ومعظم الأشخاص الذين تزيد أعمارهم عن 40 عامًا (مثلي ، من الواضح): لا! نماذج الذكاء الاصطناعي سريعة ومخلصة وطاعة. مثل كلب الراعي الألماني الجيد ، سيذهب نموذج الذكاء الاصطناعي ويحصل على تلك الكرة ، لكنه لا يعرف شيئًا عن العالم بخلاف البيانات التي تم عرضها. ليس له منطق سليم. إنه مساعد رائع لمهام محددة ، لكنه في الواقع خافت تمامًا.

[عميد] في هذه الملاحظة ، أود أن أبلغ عن اقتباسين قدمهما مارفن مينسكي في عامي 1961 و 1970 ، منذ فجر الذكاء الاصطناعي ، وأعتقد أنهما يصفان مستقبل الذكاء الاصطناعي جيدًا.

"خلال حياتنا ، قد تتفوق علينا بعض الآلات في الذكاء العام" 1961

"في غضون ثلاث إلى ثماني سنوات ، سيكون لدينا آلة تتمتع بذكاء الإنسان" 1970

هذه الأفكار موجودة منذ فترة طويلة. إليك أحد الأسباب التي تجعل الذكاء الاصطناعي لا يحل جميع المشكلات: نحن نحكم على سلوكه بناءً على رقم واحد ، رقم واحد فقط! (خطأ في النموذج). على سبيل المثال ، التنبؤات بأسعار الأسهم على مدى السنوات الخمس المقبلة ، التي تم التنبؤ بها من خلال بناء النماذج باستخدام جذر متوسط ​​الخطأ التربيعي كمقياس للخطأ ، لا يمكن أن ترسم الصورة الكاملة لما تفعله البيانات بالفعل وتعيق النموذج بشدة وقدرته على الكشف عن الأنماط بمرونة. نعلم جميعًا أن RMSE هو مقياس خشن جدًا. ستستمر خوارزميات التعلم العميق في التحسن ، لكننا نحتاج أيضًا إلى التحسن في الحكم على مدى جودة النموذج حقًا. لذا لا! لا أعتقد أن الذكاء الاصطناعي سيهيمن على البشرية.

لقد وصلنا إلى نهاية هذه المقابلة. نود أن نشكر دين وجون على وقتهم وحبوبهم المعرفية. دعونا نأمل أن نلتقي مرة أخرى قريبا!

حول دين أبوت وجون إلدر

ماذا فعل COVID لجميع موديلاتنا عميد أبوت هو المؤسس المشارك ورئيس علماء البيانات في SmarterHQ. إنه خبير ومبتكر معترف به دوليًا في علوم البيانات والتحليلات التنبؤية ، ولديه ثلاثة عقود من الخبرة في حل المشكلات في تحليلات العملاء متعددة القنوات ، واكتشاف الاحتيال ، ونمذجة المخاطر ، واستخراج النصوص وتحليل المسح. يتم تضمينه بشكل متكرر في قوائم علماء البيانات الرائدين وعلماء البيانات ، وهو متحدث رئيسي شهير ومدرب ورشة عمل في المؤتمرات في جميع أنحاء العالم ، ويعمل أيضًا في المجالس الاستشارية لبرنامج UC / Irvine التنبئي التحليلات وبرامج شهادة UCSD لعلوم البيانات. وهو مؤلف التحليلات التنبؤية التطبيقية (Wiley ، 2014) ومؤلف مشارك لكتاب The IBM SPSS Modeler Cookbook (Packt Publishing ، 2013).


ماذا فعل COVID لجميع موديلاتنا جون إلدر أسس Elder Research ، أكبر شركة استشارية في مجال علوم البيانات وأكثرها خبرة في أمريكا في عام 1995. مع مكاتب في شارلوتسفيل فيرجينيا ، بالتيمور إم دي ، رالي ، نورث كارولاينا ، واشنطن العاصمة ، ولندن ، تمكنوا من حل مئات التحديات للعملاء التجاريين والحكوميين من خلال استخراج المعرفة القابلة للتنفيذ من جميع أنواع البيانات. شارك الدكتور إلدر في تأليف ثلاثة كتب - عن التنقيب العملي عن البيانات ، والمجموعات ، والتنقيب عن النصوص - فاز اثنان منها بجوائز "كتاب العام". ابتكر جون أدوات التنقيب عن البيانات ، وكان مكتشفًا لأساليب المجموعات ، وترأس المؤتمرات الدولية ، وهو ورشة عمل شهيرة ومتحدث رئيسي.


 
السيرة الذاتية: هيذر فيسون هو محرر المدونة في KNIME. في البداية في Event Team ، كانت خلفيتها في الواقع في الترجمة والتدقيق اللغوي ، لذلك من خلال الانتقال إلى المدونة في عام 2019 ، عادت إلى شغفها الحقيقي بالعمل مع النصوص. ملاحظة: إنها مهتمة دائمًا بسماع أفكارك حول المقالات الجديدة.

أصلي. تم إعادة النشر بإذن.

هذا الموضوع ذو علاقة بـ:

كوينسمارت. Beste Bitcoin-Börse في أوروبا
المصدر: https://www.kdnuggets.com/2021/04/covid-do-all-our-models.html

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة

الدردشة معنا

أهلاً! كيف يمكنني مساعدك؟