जेफिरनेट लोगो

हमारे सभी मॉडलों के लिए COVID ने क्या किया?

दिनांक:

हमारे सभी मॉडलों के लिए COVID ने क्या किया?

डीन एबॉट और जॉन एल्डर के साथ एक साक्षात्कार जिसमें परिवर्तन प्रबंधन, जटिलता, व्याख्या और मानवता पर एआई के जोखिम को लेकर।


By हीदर फाइसन, समय

हमारे सभी मॉडलों के लिए COVID ने क्या किया?

के बाद KNIME पतन शिखर सम्मेलन, डायनासोर घर वापस चले गए ... अच्छी तरह से, अपने लैपटॉप बंद कर दिया। डीन एबॉट और जॉन एल्डर, लंबी अवधि के डेटा विज्ञान विशेषज्ञों द्वारा, फॉल समिट के लिए आमंत्रित किया गया था माइकल की चर्चा में शामिल होने के लिए डेटा साइंस का भविष्य: उद्योग डायनासोर के साथ एक फायरसाइड चैट। परिणाम डेटा विज्ञान चुनौतियों और नए रुझानों के बारे में एक शानदार बातचीत थी। स्टूडियो लाइट बंद करने के बाद से, Rosaria डेटा विज्ञान की दुनिया में परिवर्तन प्रबंधन, जटिलता, व्याख्या, और अधिक के बारे में कुछ हाइलाइट्स को आसुत और विस्तारित किया है। आइए देखें कि यह हमें कहां ले आया।

एआई में परिवर्तन प्रबंधन के साथ आपका अनुभव क्या है, जब वास्तविकता में बदलाव और मॉडल को अपडेट करना है? हमारे सभी मॉडलों के लिए COVID ने क्या किया?

 
[डीन] मशीन लर्निंग (एमएल) एल्गोरिदम अतीत और भविष्य के बीच स्थिरता मानते हैं। जब चीजें बदलती हैं, तो मॉडल विफल हो जाते हैं। COVID ने हमारी आदतें बदल दी हैं, और इसलिए हमारा डेटा। नई स्थिति से निपटने के लिए प्री-कोविद मॉडल संघर्ष करते हैं।

[जॉन] एक सरल उदाहरण Google मानचित्र पर ट्रैफ़िक परत होगी। 2020 में देश भर में लॉकडाउन हिट होने के बाद, Google मैप्स ट्रैफ़िक अनुमान कुछ समय के लिए बहुत गलत थे। यह काफी स्थिर प्रशिक्षण डेटा पर बनाया गया था, लेकिन अब यह प्रणाली पूरी तरह से बेकार हो गई थी।

जब दुनिया बदल गई है और मॉडल अब काम नहीं कर रहे हैं तो आप कैसे समझेंगे?

 
[डीन] यहां एक छोटी सी चाल है जिसका मैं उपयोग करता हूं: मैं अपने डेटा को समय से और रिकॉर्ड को "पहले" और "बाद" के रूप में लेबल करता हूं। मैं तब मॉडल उपयोग करता है उसी इनपुट से "पहले" बनाम "बाद" बनाम भेदभाव करने के लिए एक वर्गीकरण मॉडल का निर्माण करता हूं। यदि भेदभाव संभव है, तो "बाद" "पहले" से अलग है, दुनिया बदल गई है, डेटा बदल गया है, और मॉडल को फिर से देखना होगा।

परियोजनाओं के मॉडल को फिर से बनाना कितना जटिल है, खासकर अनुकूलन के वर्षों के बाद?

 
[जॉन] प्रशिक्षण मॉडल आमतौर पर सभी का सबसे आसान चरण है! अन्यथा सफल परियोजनाओं के विशाल बहुमत मरना कार्यान्वयन के चरण में। महानतम पहर डेटा सफाई और तैयारी के चरण में खर्च किया जाता है। और सबसे ज्यादा समस्याओं व्यापार समझ / परियोजना परिभाषा चरण में याद किया जाता है या बनाया जाता है। इसलिए यदि आप समझते हैं कि दोष क्या है और नया डेटा प्राप्त कर सकता है और कार्यान्वयन फ्रेमवर्क है, तो एक नया मॉडल बनाना, तुलना करके, बहुत सीधा है।

आपके दशकों के अनुभव के आधार पर, वास्तव में कार्यशील डेटा साइंस एप्लिकेशन को एक साथ रखना कितना जटिल है?

 
[जॉन] यह जटिलता से, ज़ाहिर है, अलग-अलग हो सकता है। हमारी अधिकांश परियोजनाओं को कम से कम कुछ महीनों में कामकाजी प्रोटोटाइप मिलते हैं। लेकिन सभी के लिए, मैं प्रतिक्रिया के महत्व पर पर्याप्त जोर नहीं दे सकता: आपको लोगों से अधिक बार बात करनी है जितना आप चाहते हैं। और सुनो! हम हर बार व्यापार की समस्या, डेटा या बाधाओं के बारे में नई चीजें सीखते हैं। हम सभी मात्रात्मक लोग मनुष्यों के साथ बोलने में कुशल नहीं हैं, इसलिए यह अक्सर एक टीम लेता है। लेकिन हितधारकों की पूरी टीम को एक ही भाषा बोलना सीखना होगा।

[डीन] हमारे व्यापार समकक्ष से बात करना महत्वपूर्ण है। लोग परिवर्तन से डरते हैं और वर्तमान स्थिति को बदलना नहीं चाहते हैं। एक प्रमुख समस्या वास्तव में मनोवैज्ञानिक है। विश्लेषकों को अक्सर झुंझलाहट के रूप में देखा जाता है। इसलिए, हमें व्यापार समकक्ष और एनालिटिक्स गीक्स के बीच विश्वास का निर्माण करना होगा। एक परियोजना की शुरुआत में हमेशा निम्नलिखित चरण शामिल होने चाहिए: डोमेन विशेषज्ञों / परियोजना प्रबंधकों, विश्लेषकों और आईटी और बुनियादी ढांचे (DevOps) टीम को सिंक करें ताकि परियोजना के उद्देश्यों पर सभी को स्पष्ट हो और इसे कैसे निष्पादित किया जाएगा। विश्लेषक उन शीर्ष 11 लोगों की सूची में 10 वें स्थान पर हैं जिन्हें उन्हें हर दिन देखना है! आइए डेटा साइंटिस्ट के अहंकार को अपनाने से बचें: "व्यवसाय हमें / हमारी तकनीकों को समझ नहीं सकता है, लेकिन हम जानते हैं कि सबसे अच्छा काम क्या है"। हालांकि, हम जो नहीं समझते हैं, क्या डोमेन विशेषज्ञ वास्तव में उस डोमेन के विशेषज्ञ हैं जो हम काम कर रहे हैं! डोमेन विशेषज्ञों द्वारा समझी जाने वाली भाषा में डेटा विज्ञान मान्यताओं और दृष्टिकोणों का अनुवाद महत्वपूर्ण है!

नवीनतम प्रवृत्ति अब गहरी सीख रही है, जाहिर है कि यह सब कुछ हल कर सकती है। मुझे हाल ही में एक छात्र से एक सवाल मिला, "हमें डेटा विज्ञान की समस्याओं को हल करने के लिए गहन सीखने की कला है" तो हमें अन्य एमएल एल्गोरिदम सीखने की आवश्यकता क्यों है?

 
[डीन] डीप लर्निंग ने कमरे के बाहर बहुत सारे ऑक्सीजन को चूसा। 1990 के दशक की शुरुआत में ऐसा लगता है जब तंत्रिका नेटवर्क समान आशावाद के साथ चढ़े थे! डीप लर्निंग सुनिश्चित करने के लिए शक्तिशाली तकनीकों का एक सेट है, लेकिन उन्हें लागू करना और अनुकूलन करना कठिन है। XGBoost, पेड़ के Ensembles, भी शक्तिशाली हैं, लेकिन वर्तमान में अधिक मुख्यधारा है। उन्नत एनालिटिक्स का उपयोग करके हमें जिन समस्याओं का समाधान करना है, उनमें से अधिकांश को वास्तव में जटिल समाधान की आवश्यकता नहीं है, इसलिए सरल शुरू करें; इन परिस्थितियों में गहरी शिक्षा अधिभूत है। ओक्टम के रेजर सिद्धांत का उपयोग करना सबसे अच्छा है: यदि दो मॉडल समान प्रदर्शन करते हैं, तो सबसे सरल अपनाएं।

जटिलता के बारे में। अन्य प्रवृत्ति, गहरी शिक्षा के विपरीत, एमएल व्याख्या है। यहाँ, आप बहुत (अत्यधिक)? क्या व्याख्या करना महत्वपूर्ण है?

 
[जॉन] मैं अक्सर खुद को व्याख्यात्मकता से लड़ता हुआ पाता हूं। यह अच्छा है, निश्चित है, लेकिन अक्सर सबसे महत्वपूर्ण मॉडल संपत्ति की उच्च लागत पर आता है: विश्वसनीय सटीकता। लेकिन कई हितधारकों का मानना ​​है कि व्याख्यात्मकता आवश्यक है, इसलिए यह स्वीकृति के लिए एक बाधा बन जाती है। इस प्रकार, यह पता लगाना आवश्यक है कि किस तरह की व्याख्या की आवश्यकता है। शायद यह सिर्फ यह जानना है कि सबसे महत्वपूर्ण चर क्या हैं? यह कई nonlinear मॉडल के साथ उल्लेखनीय है। हो सकता है, के रूप में क्रेडिट आवेदकों को समझाने के साथ कि वे क्यों ठुकरा दिए गए थे, एक समय में एक मामले के लिए आउटपुट की व्याख्या करने की आवश्यकता है? हम दिए गए बिंदु के लिए एक रैखिक सन्निकटन का निर्माण कर सकते हैं। या, हम अपने ब्लैक बॉक्स मॉडल से डेटा उत्पन्न कर सकते हैं और उस डेटा को फिट करने के लिए किसी भी जटिलता के "व्याख्यात्मक" मॉडल का निर्माण कर सकते हैं।

अंत में, अनुसंधान से पता चला है कि यदि उपयोगकर्ताओं के पास एक मॉडल के साथ खेलने का मौका है - अर्थात, इसे इनपुट के परीक्षण मूल्यों के साथ प्रहार करने और इसके आउटपुट को देखने के लिए, और शायद इसकी कल्पना करें - उन्हें व्याख्या की समान गर्म भावनाएं मिलती हैं। कुल मिलाकर, भरोसा - मॉडल के पीछे लोगों और प्रौद्योगिकी में - स्वीकृति के लिए आवश्यक है, और यह नियमित संचार और मॉडल के अंतिम उपयोगकर्ताओं को निर्माण प्रक्रिया और मॉडलिंग प्रक्रिया के निर्णयों को शामिल करके बढ़ाया जाता है।

[डीन] वैसे, KNIME Analytics प्लेटफ़ॉर्म में एक यादृच्छिक वन में इनपुट चर के महत्व को निर्धारित करने की एक बड़ी विशेषता है!  रैंडम फॉरेस्ट लर्नर नोड उम्मीदवार और विभाजन चर के आंकड़ों का उत्पादन करता है। याद रखें कि, जब आप रैंडम फ़ॉरेस्ट लर्नर नोड का उपयोग करते हैं।

एक मॉडल क्या करता है, इसके स्पष्टीकरण के लिए अनुरोधों में वृद्धि हुई है। उदाहरण के लिए, कुछ सुरक्षा वर्गों के लिए, यूरोपीय संघ सत्यापन की मांग कर रहा है कि मॉडल वह नहीं करता है जो वह करने वाला नहीं है। अगर हमें यह सब समझाना है, तो शायद मशीन लर्निंग जाने का रास्ता नहीं है। कोई और मशीन लर्निंग?

 
[डीन]  हो सकता है कि पूर्ण व्याख्यात्मकता प्राप्त करना बहुत कठिन हो, लेकिन हम मॉडल इनपुट पर एक ग्रिड खोज करके प्रगति प्राप्त कर सकते हैं कि मॉडल क्या करता है, यह वर्णन करते हुए स्कोर कार्ड जैसा कुछ बनाया जा सकता है। यह हार्डवेयर और सॉफ्टवेयर QA में प्रतिगमन परीक्षण जैसा कुछ है। यदि एक औपचारिक सबूत कि मॉडल क्या कर रहे हैं संभव नहीं है, तो चलो परीक्षण करें और परीक्षण करें और परीक्षण करें! इनपुट फेरबदल और लक्ष्य फेरबदल मॉडल व्यवहार का एक मोटा प्रतिनिधित्व प्राप्त करने में मदद कर सकते हैं।

[जॉन] एक मॉडल क्या करता है, यह समझने के बारे में बात करते हुए, मैं विज्ञान में प्रतिलिपि प्रस्तुत करने की समस्या को उठाना चाहूंगा। सभी क्षेत्रों में जर्नल लेखों का विशाल अनुपात - 65 से 90% - माना जाता है कि यह अप्राप्य है। यह विज्ञान का सही संकट है। मेडिकल पेपर आपको यह बताने की कोशिश करते हैं कि उनके परिणामों को कैसे पुन: पेश किया जाए। एमएल कागज अभी तक प्रतिलिपि प्रस्तुत करने योग्यता के बारे में परवाह नहीं करते हैं। हाल के एक अध्ययन से पता चला है कि केवल 15% एआई पेपर अपने कोड को साझा करते हैं।

बात करते हैं मशीन लर्निंग बायस की। क्या ऐसे मॉडल बनाना संभव है जो भेदभाव नहीं करते हैं?

 
[जॉन] (एक सेकंड के लिए एक बेवकूफ बनने के लिए, यह शब्द दुर्भाग्य से है अतिभारित। एमएल वर्ल्ड शब्द में "भेदभाव" करना आपका बहुत लक्ष्य है: दो वर्गों के बीच अंतर करना।) लेकिन आपके वास्तविक प्रश्न के लिए, यह डेटा पर निर्भर करता है (और क्या विश्लेषक डेटा में कमजोरियों को समायोजित करने के लिए पर्याप्त चतुर है) ): मॉडल डेटा में से परिलक्षित जानकारी से बाहर खींच लेंगे। कंप्यूटर को दुनिया के बारे में कुछ नहीं पता है सिवाय इसके कि उसके सामने डेटा में क्या है। इसलिए विश्लेषक को आंकड़ों पर अंकुश लगाना होगा - वास्तविकता को दर्शाते हुए उन मामलों की जिम्मेदारी लें। उदाहरण के लिए, यदि कुछ प्रकार के लोगों का प्रतिनिधित्व किया जाता है, तो मॉडल उन पर कम ध्यान देगा और आगे बढ़ने पर उतना सटीक नहीं होगा। मैं पूछता हूं, "यहां पहुंचने के लिए डेटा को क्या करना पड़ा?" (इस डेटासेट में प्राप्त करने के लिए) यह सोचने के लिए कि प्रक्रिया के माध्यम से रास्ते में अन्य मामले कैसे गिर सकते हैं (जो उत्तरजीवी पूर्वाग्रह है)। एक कुशल डेटा वैज्ञानिक ऐसी समस्याओं की तलाश कर सकता है और उनके लिए समायोजन / सही करने के तरीकों के बारे में सोच सकता है।

[डीन] पूर्वाग्रह एल्गोरिदम में नहीं है। पूर्वाग्रह आंकड़ों में है। यदि डेटा पक्षपाती है, तो हम दुनिया के पक्षपाती दृष्टिकोण के साथ काम कर रहे हैं। गणित सिर्फ गणित है, यह पक्षपातपूर्ण नहीं है।

क्या AI मानवता पर कब्जा करेगा?

 
[जॉन] मेरा मानना ​​है कि AI सिर्फ अच्छी इंजीनियरिंग है। क्या एआई मानव बुद्धि से अधिक होगा? मेरे अनुभव में 40 वर्ष से कम उम्र के किसी भी व्यक्ति का मानना ​​है कि यह अपरिहार्य है, और अधिकांश 40 से अधिक (मेरे जैसे, जाहिर है): नहीं! एआई मॉडल तेज, वफादार और आज्ञाकारी हैं। एक अच्छे जर्मन शेफर्ड कुत्ते की तरह, एक AI मॉडल जाएगा और उस गेंद को प्राप्त करेगा, लेकिन यह दुनिया के बारे में कुछ भी नहीं जानता है कि इसे दिखाए गए डेटा के अलावा। इसका कोई सामान्य ज्ञान नहीं है। यह विशिष्ट कार्यों के लिए एक महान सहायक है, लेकिन वास्तव में काफी मंद है।

[डीन] उस नोट पर, मैं 1961 और 1970 में, मार्विन मिंस्की द्वारा एअर इंडिया की सुबह से किए गए दो उद्धरणों की रिपोर्ट करना चाहूंगा, जो मुझे लगता है कि एआई के भविष्य का अच्छी तरह से वर्णन करता है।

"हमारे जीवनकाल के भीतर कुछ मशीनें सामान्य बुद्धि में हमसे आगे निकल सकती हैं" (1961)

"तीन से आठ वर्षों में हमारे पास इंसान की बुद्धिमत्ता वाली मशीन होगी" (1970)

ये विचार लंबे समय से हैं। यहाँ एक कारण है कि AI सभी समस्याओं का समाधान नहीं करेगा: हम केवल एक संख्या, एक संख्या के आधार पर इसके व्यवहार को देखते हैं! (मॉडल त्रुटि।) उदाहरण के लिए, अगले पांच वर्षों में स्टॉक की कीमतों की भविष्यवाणी, रूट मेट स्क्वायर त्रुटि का उपयोग करते हुए मॉडल का निर्माण करते हुए त्रुटि मीट्रिक के रूप में, संभवत: डेटा वास्तव में क्या कर रहे हैं और मॉडल को गंभीर रूप से बाधित करने की पूरी तस्वीर चित्रित नहीं कर सकता है। और लचीले ढंग से पैटर्न को उजागर करने की इसकी क्षमता। हम सभी जानते हैं कि आरएमएसई एक उपाय के लिए बहुत अधिक है। डीप लर्निंग एल्गोरिदम लगातार बेहतर होते रहेंगे, लेकिन हमें यह भी परखने की जरूरत है कि एक मॉडल वास्तव में कितना अच्छा है। तो, नहीं! मुझे नहीं लगता कि एआई मानवता को संभालेगा।

हम इस साक्षात्कार के अंत तक पहुँच चुके हैं। हम डीन और जॉन को उनके समय और ज्ञान की गोलियों के लिए धन्यवाद देना चाहते हैं। चलो आशा है कि हम जल्द ही फिर से मिलेंगे!

डीन एबॉट और जॉन एल्डर के बारे में

हमारे सभी मॉडलों के लिए COVID ने क्या किया डीन एबॉट SmarterHQ में सह-संस्थापक और मुख्य डेटा वैज्ञानिक है। वह एक अंतरराष्ट्रीय स्तर पर मान्यता प्राप्त विशेषज्ञ और डेटा साइंस और प्रेडिक्टिव एनालिटिक्स में प्रर्वतक है, जिसमें ओमेक्नीनेल ग्राहक विश्लेषिकी, धोखाधड़ी का पता लगाने, जोखिम मॉडलिंग, पाठ खनन और सर्वेक्षण विश्लेषण में तीन दशकों के अनुभव के साथ समस्याओं का समाधान है। अग्रणी डेटा वैज्ञानिकों और डेटा वैज्ञानिकों की सूची में अक्सर शामिल है, वह दुनिया भर के सम्मेलनों में एक लोकप्रिय मुख्य वक्ता और कार्यशाला प्रशिक्षक हैं, जो यूसी / इरविन प्रेडिटिव एनालिटिक्स और यूसीएसडी डेटा साइंस सर्टिफिकेट कार्यक्रमों के लिए सलाहकार बोर्डों पर भी सेवा कर रहे हैं। वह एप्लाइड प्रिडिक्टिव एनालिटिक्स (विले, 2014) के लेखक और आईबीएम एसपीएसएस मॉडलर रसोई की किताब (पैक प्रकाशन, 2013) के सह-लेखक हैं।


हमारे सभी मॉडलों के लिए COVID ने क्या किया जॉन एल्डर 1995 में अमेरिका के सबसे बड़े और सबसे अनुभवी डेटा साइंस कंसल्टेंसी, एल्डर रिसर्च की स्थापना की। चार्लोट्सविले VA, बाल्टीमोर एमडी, रैले, नेकां, वाशिंगटन डीसी और लंदन में कार्यालयों के साथ, उन्होंने वाणिज्यिक और सरकारी ग्राहकों के लिए सैकड़ों चुनौतियों को हल किया है, जो कार्रवाई योग्य ज्ञान को निकालते हैं। सभी प्रकार के डेटा से। डॉ। एल्डर ने तीन पुस्तकों - व्यावहारिक डेटा माइनिंग, एनसेम्बल, और टेक्स्ट माइनिंग पर सह-लेखक किया - जिनमें से दो ने "वर्ष की पुस्तक" पुरस्कार जीते। जॉन ने डेटा माइनिंग टूल्स बनाए हैं, पहनावा के तरीकों का खोजकर्ता था, अंतर्राष्ट्रीय सम्मेलनों की अध्यक्षता करता था, और एक लोकप्रिय कार्यशाला और मुख्य वक्ता होता है।


 
जैव: हीदर फाइसन KNIME पर ब्लॉग संपादक है। शुरुआत में इवेंट टीम में, उसकी पृष्ठभूमि वास्तव में अनुवाद और प्रूफरीडिंग में है, इसलिए 2019 में ब्लॉग पर जाकर वह ग्रंथों के साथ काम करने के अपने वास्तविक जुनून में लौट आया है। PS वह हमेशा नए लेखों के लिए आपके विचारों को सुनने के लिए इच्छुक रहती है।

मूल। अनुमति के साथ पुनर्प्रकाशित।

संबंधित:



शीर्ष आलेख पिछले 30 दिन

सबसे लोकप्रिय
  1. क्या आप अभी भी 2021 में बिग डेटा प्रोसेस करने के लिए पंडों का उपयोग कर रहे हैं? यहां दो बेहतर विकल्प हैं
  2. कैसे गणित के डर को दूर करने और डेटा विज्ञान के लिए गणित जानें
  3. डेटा विज्ञान के लिए शीर्ष YouTube चैनल
  4. अधिक डेटा विज्ञान धोखा देती है
  5. फ्रीलांस डेटा साइंटिस्ट बनने में सफलता कैसे प्राप्त करें
सर्वाधिक साझा
  1. कैसे गणित के डर को दूर करने और डेटा विज्ञान के लिए गणित जानें
  2. डेटा विज्ञान के लिए शीर्ष YouTube चैनल
  3. क्या आप अभी भी 2021 में बिग डेटा प्रोसेस करने के लिए पंडों का उपयोग कर रहे हैं? यहां दो बेहतर विकल्प हैं
  4. फ्रीलांस डेटा साइंटिस्ट बनने में सफलता कैसे प्राप्त करें
  5. 3 गणितीय कानून डेटा वैज्ञानिकों को पता होना चाहिए

Coinsmart। यूरोपा में बेस्टे बिटकॉइन-बोरसे
स्रोत: https://www.kdnuggets.com/2021/04/covid-do-all-our-models.html

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी

हमारे साथ चैट करें

नमस्ते! मैं आपकी कैसे मदद कर सकता हूँ?