जेफिरनेट लोगो

डेटा विज्ञान (रिपोर्टिंग और बीआई पेशेवरों के लिए) में संक्रमण के लिए 11 आसान-से-आसान कदम!

दिनांक:


अवलोकन

  • क्या आप डेटा साइंस में भूमिका तलाश रहे हैं? रिपोर्टिंग, एमआईएस या बिजनेस इंटेलिजेंस क्षेत्रों से आने में आपको काफी आसानी होगी
  • डेटा विज्ञान में परिवर्तन के लिए यहां 11 व्यापक लेकिन आसानी से प्राप्त होने वाले चरण दिए गए हैं

परिचय

एक पेशेवर क्षेत्र के रूप में डेटा विज्ञान के तेजी से बढ़ने ने सभी पृष्ठभूमि के लोगों को आकर्षित किया है। इंजीनियर, कंप्यूटर वैज्ञानिक, विपणन और वित्त स्नातक, विश्लेषक, मानव संसाधन कर्मी - हर कोई डेटा विज्ञान पाई का एक टुकड़ा चाहता है।

एनालिटिक्स विद्या पहले ही प्रकाशित कर चुकी है व्यापक शिक्षण पथ शुरुआती लोगों के लिए डेटा विज्ञान में प्रवेश करना। तो मैं विशेष रूप से बिजनेस इंटेलिजेंस/एमआईएस/रिपोर्टिंग में काम करने वाले पेशेवरों पर ध्यान क्यों केंद्रित कर रहा हूं? मुझे समझाने दो।

मैं नियमित रूप से प्रतिभाशाली बिजनेस इंटेलिजेंस (बीआई) पेशेवरों से मिलता हूं जो अपनी पहली डेटा विज्ञान भूमिका प्राप्त करना चाहते हैं। वे अक्सर अपने लिए अवसरों की कथित कमी से निराश होते हैं। उनमें से बहुतों को लगता है कि उनकी भूमिका दोहराव वाली है, या उन्हें बस वही करने की ज़रूरत है जो उनसे कहा गया है।

वे वास्तव में इस तथ्य को भूल जाते हैं कि वे किसी भी अन्य पेशेवर की तुलना में डेटा विज्ञान के अवसरों के अधिक करीब हैं।

ध्यान दें: यदि आप ऐसे व्यक्ति हैं जो डेटा विज्ञान क्षेत्र में कुछ नया तलाश रहे हैं, तो इस विस्तृत जानकारी के अलावा और कुछ न देखें आरोही प्रो कार्यक्रम जो डेटा विज्ञान ज्ञान को व्यावहारिक व्यावहारिक उद्योग-प्रासंगिक समस्याओं के साथ जोड़ता है।

बिजनेस इंटेलिजेंस (बीआई) प्रोफेशनल के लिए डेटा साइंस में बदलाव आसान क्यों है:

बिजनेस इंटेलिजेंस (बीआई) पेशेवर निम्नलिखित कारणों से डेटा विज्ञान में बदलाव की कोशिश करने वाले लगभग किसी भी व्यक्ति पर भारी लाभ रखते हैं:

  • बीआई पेशेवरों के पास पहले से ही विभिन्न परियोजनाओं में डेटा वैज्ञानिकों तक पहुंच है
  • डेटा को प्रबंधित और प्रबंधित करने की मौजूदा जानकारी (कभी-कभी बड़े पैमाने पर)
  • बीआई पेशेवरों के पास व्यावसायिक संदर्भ होता है और वे व्यवसाय के साथ मिलकर काम करते हैं।
  • उनके पास बुनियादी डेटा अन्वेषण चरणों का अनुभव है क्योंकि अक्सर व्यवसाय उनके द्वारा उपयोग की जाने वाली रिपोर्ट के अतिरिक्त इनकी मांग करता है।

दूसरे शब्दों में, ये लोग डेटा विज्ञान परियोजना के "पहले भाग" में काम करते हैं। यह अधिकांश महत्वाकांक्षी डेटा वैज्ञानिकों की तुलना में पहले से ही अधिक उद्योग अनुभव है!

यदि आप एक ऐसे परिवर्तनकर्ता हैं जो बीआई/एमआईएस/रिपोर्टिंग भूमिका से डेटा विज्ञान में कूदना चाहते हैं, तो यह लेख आपके लिए है। आप इन 11 चरणों को एक सीखने का मार्ग मान सकते हैं जिसका आप अनुसरण कर सकते हैं। वास्तव में, मैं आपको अपनी वर्तमान बीआई भूमिका में इन चरणों को लागू करने के लिए दृढ़ता से प्रोत्साहित करूंगा। आप जहां हैं वहीं से शुरू करें और तब तक अभ्यास करें जब तक आप डेटा विज्ञान में सफल न हो जाएं!

पुनश्च शेष लेख के लिए - बिजनेस इंटेलिजेंस, एमआईएस, रिपोर्टिंग, डैशबोर्डिंग का परस्पर उपयोग किया गया है। इन भूमिकाओं और पदनामों में बहुत कम अंतर और बहुत अधिक ओवरलैप है।

तो क्या आप मेरे साथ इस यात्रा पर जाने के लिए तैयार हैं? आइए इस यात्रा को चरण दर चरण आगे बढ़ाएं।

1) जासूसी विश्लेषण करना शुरू करें और रिपोर्ट से अंतर्दृष्टि उत्पन्न करें

आइए रिपोर्टिंग के तीन उदाहरणों को देखकर शुरुआत करें जो एक बीआई (एमआईएस / रिपोर्टिंग / बिजनेस इंटेलिजेंस) पेशेवर दिन-प्रतिदिन के आधार पर करता है।

उदाहरण 1:

दैनिक बिक्री रिपोर्ट

इस बीआई पेशेवर ने एक रिपोर्ट तैयार की है जिसमें व्यवसाय की गुणवत्ता के साथ-साथ शहर और क्षेत्र स्तर पर बिजनेस सोर्सिंग के बारे में विवरण शामिल है।

उदाहरण 2:

आरएजी विश्लेषण के साथ बिक्री रिपोर्ट

यहां, बीआई प्रोफेशनल ने "अस्वीकृति स्कोर" कॉलम के लिए आरएजी (रेड-एम्बर-ग्रीन) विश्लेषण को जोड़कर वही रिपोर्ट तैयार की है। कम अस्वीकृति स्कोर का मतलब व्यवसाय की उच्च गुणवत्ता है।

उदाहरण 3:

आरएजी विश्लेषण के साथ बिक्री रिपोर्टरिपोर्ट के साथ मुख्य जानकारी

इस उदाहरण में, बीआई पेशेवर ने रिपोर्ट के बारे में अंतर्दृष्टि जोड़कर चीजों को दूसरे स्तर पर ले लिया है। आप देख सकते हैं कि उन्होंने रिपोर्ट से लिए गए शीर्ष 2 निष्कर्ष लिखे हैं। मैंने आपकी रिपोर्ट में व्याख्यात्मकता जोड़ने के लिए यहां एक सरल उदाहरण लिया है। आप जिस प्रकार की जानकारी साझा कर रहे हैं उसके आधार पर आप अधिक विज़ुअल/चार्ट जोड़ सकते हैं।

उपरोक्त में से कौन सा उदाहरण व्यावसायिक उपयोगकर्ताओं के लिए अधिक सार्थक है?

उपरोक्त तीन उदाहरणों को देखते हुए, मैं व्यवसाय में अधिक मूल्य जोड़ने के लिए "उदाहरण 3" की ओर रुख करूंगा क्योंकि:

  1. यह रिपोर्ट में अधिक व्याख्यात्मकता जोड़ता है
  2. यह कार्य करने योग्य क्षेत्रों पर भी प्रकाश डालता है
  3. यदि आप निष्कर्षों को देखें, तो उनमें से एक निष्कर्ष क्षेत्रीय स्तर पर रिपोर्ट को एकत्रित करने के बाद का है

ये वास्तव में व्यावसायिक उपयोगकर्ताओं को बहुत मदद करते हैं। जब आप वरिष्ठ स्तर के अधिकारियों के साथ काम करते हैं, तो आप पाएंगे कि उनमें से अधिकांश को काम करने के लिए कार्रवाई योग्य वस्तुओं की आवश्यकता है। वे रिपोर्ट की व्याख्या करने और गहन विश्लेषण करने पर ध्यान केंद्रित करने में समय बर्बाद नहीं करना चाहेंगे।

ऐसी ही रिपोर्ट तैयार करने के लिए एक बीआई प्रोफेशनल का होना जरूरी है जिज्ञासा, विवरण पर ध्यान दें, किसी एक उपकरण पर नियंत्रण रखें (एक्सेल / SQL / QlikView / Tableau), साथ में व्यवसाय के बारे में ज्ञान.

यह कौशल केवल बीआई में काम करने वाले लोगों तक ही सीमित नहीं है! एक अच्छा डेटा विज्ञान पेशेवर बनने के लिए भी यह बहुत महत्वपूर्ण है। ज्यादातर मामलों में, डेटा साइंटिस्ट का 60-70% काम व्यावसायिक समझ, डेटा अन्वेषण और मौजूदा समस्या के बारे में अंतर्दृष्टि उत्पन्न करना होता है।

एक बीआई पेशेवर के पास बहुत बड़ा काम होता है लाभ यहाँ की तुलना में अन्य पेशेवर जो कर रहे हैं संक्रमण में डेटा विज्ञान. आप आज ही अभ्यास शुरू कर सकते हैं और यह कौशल सेट आपको अपनी वर्तमान भूमिका में भी अच्छा प्रदर्शन करने में मदद करेगा। यह एक जीत-जीत है!

चुनौतियां और समाधान:

  1. अंतर्दृष्टि और व्यवसाय के बीच संबंध स्थापित करने में सक्षम नहीं: अंतर्दृष्टि उत्पन्न करना सीधे तौर पर आपकी व्यावसायिक समझ से संबंधित है। मैं आपको सलाह दूंगा कि आप विषय वस्तु विशेषज्ञों (एसएमई) से संपर्क करें और यह समझने का प्रयास करें कि इसका बिजनेस मेट्रिक्स पर क्या प्रभाव पड़ रहा है।
  2. अंतर्दृष्टि उत्पन्न करने के लिए पर्याप्त समय नहीं होना: मैं सहमत हूं - आप व्यावसायिक रिपोर्ट प्रकाशित करने के लिए सीमित समय सीमा के साथ काम कर रहे हैं और आपके पास अंतर्दृष्टि उत्पन्न करने का समय नहीं है। उस स्थिति में मेरे पास आपके लिए दो सुझाव हैं:
    1. ऐसी रिपोर्ट से शुरुआत न करें जिसकी समय-सीमा बहुत सख्त हो (जैसे, दिन की शुरुआत में)। ऐसी रिपोर्टें चुनें जिनमें प्रकाशित होने में समय की कम कमी हो। मासिक रिपोर्ट शुरू करने के लिए एक अच्छी जगह है क्योंकि उनमें महत्वपूर्ण जानकारी होती है और यदि आवश्यक हो तो आपको मुद्दों की गहराई से जांच करने के लिए समय मिलता है।
    2. स्वचालित रिपोर्ट जनरेशन. इससे आपका बहुत सारा समय बचेगा जिसका उपयोग आप रिपोर्ट को समझने और अंतर्दृष्टि उत्पन्न करने में कर सकते हैं। आप जो भी रिपोर्टिंग टूल उपयोग करते हैं, उसके लिए आपको एक्सेल/एसएएस या समकक्ष ऑटोमेशन टूल में मैक्रोज़ सीखना चाहिए।

2. रिपोर्ट के बारे में अपनी जानकारी का समर्थन करने के लिए आंकड़े जानें

अब कुछ सांख्यिकीय मैट्रिक्स के साथ अपनी अंतर्दृष्टि का समर्थन करने का समय आ गया है। केवल दृश्य व्याख्याओं के आधार पर अंतर्दृष्टि उत्पन्न करने तक ही अपने आप को सीमित न रखें। नीचे दी गई छवि पर एक नज़र डालें - आपकी पहली प्रतिक्रिया क्या है?

बार चार्ट

मैं कह सकता हूं कि प्रतियोगिता के बाद औसत व्यवसाय पहले की तुलना में अधिक है। अब सवाल यह है कि क्या "औसत व्यापार स्रोत में वृद्धि के पीछे प्रतियोगिता कारक है या यह सिर्फ एक यादृच्छिक वृद्धि है?. यहां, हमें अपनी अंतर्दृष्टि का समर्थन करने के लिए कुछ सांख्यिकी अवधारणाओं पर भरोसा करने की आवश्यकता है, जैसे कि जेड-टेस्ट/टी-टेस्ट या अन्य सांख्यिकीय परीक्षण करना। सांख्यिकी का अच्छा ज्ञान होने से आपको इन स्थितियों में मदद मिलेगी।

यदि आप डेटा विज्ञान की भूमिका पाना चाहते हैं तो आपको नीचे दिए गए सांख्यिकी विषयों की ठोस समझ होनी चाहिए:

  1. वर्णनात्मक आँकड़े
    1. मध्यमान मध्यम मोड
    2. विचरण और मानक विचलन
  2. संभावना
    1. बर्नौली परीक्षण और संभाव्यता मास फ़ंक्शन
    2. केंद्रीय सीमा प्रमेय
    3. सामान्य वितरण
  3. आनुमानिक आंकड़े
    1. विश्वास अंतराल
    2. परिकल्पना परीक्षण
    3. सी0-विचरण/सहसंबंध

और इन विषयों पर आरंभ करने में आपकी सहायता के लिए यहां उपयोगी संसाधनों की एक सूची दी गई है:

चुनौतियां और समाधान:

  1. वर्णनात्मक सांख्यिकी को समझना आसान है लेकिन अनुमानात्मक सांख्यिकी मेरे बस की बात नहीं है: अभ्यास ही कुंजी है. मैं जितना संभव हो उतना अभ्यास करने और अवधारणा की सहज समझ प्राप्त करने की सलाह दूंगा। गणितीय समीकरण देखने से पहले ऐसा करें. यह दृष्टिकोण आपको सिद्धांत में उलझने के बजाय पहले अनुप्रयोग पहलुओं पर ध्यान केंद्रित करने में मदद करेगा।
  2. ये बहुत सांख्यिकीय लगते हैं और मैं इन्हें अपने हितधारकों/ग्राहकों के साथ साझा करने में सक्षम नहीं हूं: मोटे तौर पर दो प्रकार के ग्राहक हैं जो इन रिपोर्टों को देखते हैं। पहला प्रकार सहज ज्ञान युक्त अंतर्दृष्टि में अधिक रुचि रखता है जबकि दूसरा समूह (जोखिम/डेटा विज्ञान टीम) सांख्यिकीय अंतर्दृष्टि पर अधिक केंद्रित है। बाद वाले समूह में काम करने वाले लोगों से जुड़ें और अपने निष्कर्षों पर चर्चा करना शुरू करें। साथ ही, यहां सबसे अच्छी रणनीति व्यवसाय से उनकी भाषा में बात करना है, आंकड़ों में नहीं। उदाहरण के लिए, यदि दर्शक सहज नहीं हैं तो प्रारंभ में मैं "सांख्यिकीय महत्व" शब्द का उपयोग नहीं करूंगा। मैं बस इतना कहूंगा कि हमें यह समझने की जरूरत है कि क्या यह आयोजन अतीत में हमने जो देखा है उसकी तुलना में व्यवसाय के लिए काफी बड़ा है।

3. अपने निष्कर्षों को सही समूह के समक्ष प्रस्तुत करें

यदि आप अपने निष्कर्षों को सही समूह के साथ साझा नहीं करते हैं तो जासूसी और सांख्यिकीय विश्लेषण करने से आपको डेटा विज्ञान की भूमिका निभाने में मदद नहीं मिलेगी।

कहानियाँ प्रस्तुत करना उन प्रमुख कौशलों में से एक है जो एक डेटा विज्ञान पेशेवर के पास होना चाहिए।

यहां, मैं आपकी वर्तमान भूमिका में भी कहानी कहने के इस कौशल का अभ्यास करने की दृढ़ता से अनुशंसा करता हूं। आप निम्नलिखित से शुरुआत कर सकते हैं:

  1. रिपोर्ट या अपने विश्लेषण के साथ हमेशा विस्तृत जानकारी साझा करें
  2. अपनी अंतर्दृष्टि साझा करें और प्रेजेंटेशन स्लाइड के माध्यम से अपनी कहानी प्रस्तुत करना शुरू करें

यहां एक आवश्यक अनुशंसा है जिसने व्यक्तिगत रूप से मेरे करियर में मेरी मदद की है - अपनी स्लाइड में विज़ुअलाइज़ेशन जोड़ें। प्रेजेंटेशन में आप जो शब्द लिखते हैं (या मीटिंग के दौरान बोलते हैं) उन्हें आपके विज़ुअलाइज़ेशन में संदर्भ जोड़ना चाहिए। अस्पष्ट? मैं एक उदाहरण का उपयोग करके समझाता हूँ।

नीचे दिए गए विज़ुअलाइज़ेशन को देखें. इसमें सचिन तेंदुलकर के टेस्ट मैच करियर के बारे में विवरण दिखाया गया है। आप यहां ग्राफ़ और संख्याओं का उपयोग करके विभिन्न मैट्रिक्स के बारे में बात कर सकते हैं। इससे यह भी पता चलता है कि व्यावसायिक समझ इतनी महत्वपूर्ण क्यों है - आप उन मेट्रिक्स के बारे में बात नहीं कर सकते जिनका आपको कोई अनुभव नहीं है!

आपको यह उत्कृष्ट लेख देखना चाहिए - "डेटा साइंस में कहानी कहने की कला और डेटा कहानियां कैसे बनाएं".

चुनौतियां और समाधान:

  1. समूह को सांख्यिकीय अंतर्दृष्टि संप्रेषित करने में सक्षम नहीं: किसी एक भाषा (सांख्यिकी) में संवाद करना आवश्यक नहीं है। हमें अपने दर्शकों के आधार पर संचार का अपना तरीका बदलना चाहिए। उदाहरण के लिए, यदि आप सांख्यिकीविदों की एक टीम के साथ संवाद कर रहे हैं, तो अधिक सांख्यिकीय निष्कर्ष रखना ठीक है। यदि आप एक गैर-तकनीकी टीम के साथ काम कर रहे हैं, तो सांख्यिकीय और सहज दृष्टिकोण का मिश्रण बेहतर काम करेगा
  2. पहले कोई जानकारी साझा नहीं की है, अब मैं कैसे शुरू करूं?: आपके मन में ऐसे विचार आ सकते हैं:
    1. क्या ये जानकारियां व्यवसाय के लिए सार्थक हैं?
    2. मैं संख्याओं की ग़लत व्याख्या कर सकता हूँ। इससे संचार ख़राब होगा और नकारात्मक प्रभाव पड़ेगा

आपकी चिंताएँ समझ में आती हैं लेकिन अनुभव इकट्ठा करने के लिए आपको कहीं न कहीं से शुरुआत करनी होगी! मेरा सुझाव यह होगा कि आप अपने प्रबंधक, अनुभवी टीम के साथियों या अपने ग्राहकों (यदि यह संभव हो) के साथ अंतर्दृष्टि साझा करके शुरुआत करें। इससे आपके आत्मविश्वास को बहुत जरूरी बढ़ावा मिलेगा इसलिए अभ्यास करना शुरू करें!

4. रिपोर्ट तैयार करने या जासूसी विश्लेषण करने के लिए एक ओपन सोर्स टूल का अन्वेषण करें

अब तक, मैंने रिपोर्ट और अंतर्दृष्टि उत्पन्न करने के लिए किसी उपकरण के बारे में बात नहीं की है। मैंने जानबूझकर ऐसे प्रश्नों में जाने से परहेज किया है जैसे - आपको कौन सा टूल चुनना चाहिए? या कौन सा सही या बेहतर है? ऐसा इसलिए है क्योंकि मेरा उद्देश्य आपको जासूसी विश्लेषण, सांख्यिकीय अवधारणाओं के साथ सहज बनाना और आपके संचार कौशल को निखारना था ताकि आप अपने वर्तमान कार्य उपकरण का उपयोग करके अपने निष्कर्ष प्रस्तुत कर सकें।

अब, एक उपकरण सीखने का समय आ गया है जिसमें:

  1. डेटा प्रबंधन क्षमताएं (बड़ी मात्रा)
  2. चित्रमय क्षमताएँ
  3. पूर्वानुमानित मॉडल बनाने की क्षमता (मशीन लर्निंग मॉडल)
  4. गहन शिक्षण समर्थन
  5. ग्राहक सेवा सहायता और एक संपन्न समुदाय

आप एसएएस / आर / पायथन में से कोई भी टूल चुन सकते हैं क्योंकि इन सभी टूल में ऊपर सूचीबद्ध क्षमताएं हैं। यहां, एक नया टूल सीखते समय आपका प्रारंभिक कार्य बहुत विशिष्ट है - डेटा अन्वेषण, विज़ुअलाइज़ेशन, जासूसी विश्लेषण और सांख्यिकीय परीक्षण करने में स्वयं को सहज बनाना। आपको इनमें से किसी भी उपकरण पर पूर्ण विशेषज्ञता की आवश्यकता नहीं है (शुरू में नहीं, वैसे भी)।

यदि आप निश्चित नहीं हैं कि कौन सा टूल चुनना है, तो मैं सुझाव दूंगा कि इसे देखें कमाल का लेख कुणाल जैन द्वारा लिखित, जो इन तीन उपकरणों के विभिन्न पेशेवरों और विपक्षों की तुलना करता है।

एसएएस बनाम आर बनाम पायथन

आप एसएएस/आर या पायथन का उपयोग करके डेटा अन्वेषण सीखने के लिए नीचे दिए गए ट्यूटोरियल देख सकते हैं:

  1. नम्पी, पांडा का उपयोग करके डेटा अन्वेषण matplotlib
  2. एक व्यापक आर का उपयोग करके डेटा अन्वेषण के लिए मार्गदर्शिका
  3. डेटा स्टेप और प्रोक एसक्यूएल का उपयोग करके डेटा अन्वेषण
  4. पायथन का उपयोग करके विज़ुअलाइज़ेशन करने के 9 लोकप्रिय तरीके
  5. एसएएस का उपयोग करके डेटा विज़ुअलाइज़ेशन
  6. आर में डेटा विज़ुअलाइज़ेशन के लिए व्यापक मार्गदर्शिका

चुनौतियां और समाधान:

  1. पूर्व प्रोग्रामिंग अनुभव न होना: याद रखें, विचार उपकरण विशेषज्ञ बनने का नहीं है। एक नए उपकरण का उपयोग करके वही अभ्यास (जैसे अन्वेषण, विज़ुअलाइज़ेशन या सांख्यिकीय परीक्षण) करने पर ध्यान केंद्रित किया जाना चाहिए। अभ्यास से आप इन तकनीकों और अंततः उपकरण में महारत हासिल कर लेंगे
  2. वर्तमान डेटा विज्ञान टीम एसएएस पर काम करती है, क्या मुझे पायथन/आर में जाना चाहिए?: मैं केवल एसएएस से शुरुआत करने का सुझाव दूंगा। हमेशा वह टूल चुनें जिसका उपयोग आपके वर्तमान संगठन में डेटा विज्ञान टीम कर रही है। यह आपके डेटा विज्ञान परिवर्तन में आपकी सहायता करेगा

5. मॉडल निर्माण/भविष्यवाणी मॉडलिंग चरणों को समझें

अंततः डेटा विज्ञान के सबसे आकर्षक हिस्से - मॉडल निर्माण - की ओर बढ़ने का समय आ गया है! इससे पहले कि आप विशिष्ट मॉडलों में उतरें, मेरा सुझाव है कि पहले मौजूद समस्याओं के प्रकार को समझें। यहां पूर्वानुमानित मॉडलिंग/मशीन लर्निंग की मूल बातें समझाने वाला एक लेख है - नौसिखिया के लिए मशीन लर्निंग की मूल बातें.

मोटे तौर पर, हम मॉडल निर्माण प्रक्रिया को 5 चरणों में विभाजित कर सकते हैं:

  1. समस्या की परिभाषा
  2. परिकल्पना पीढ़ी
  3. डेटा अन्वेषण
  4. मॉडल मूल्यांकन और मान्यता
  5. प्रतिरूप निर्माण

मैं लेख में बाद में शामिल करने के लिए पहले दो चरणों (समस्या परिभाषा और परिकल्पना निर्माण) पर विचार कर रहा हूं। हम इस अनुभाग में डेटा अन्वेषण के बारे में बात करेंगे।

डेटा अन्वेषण चरण जासूसी विश्लेषण के समान है जहां हमारा प्राथमिक उद्देश्य व्यक्तिगत रूप से और एक-दूसरे के साथ चर के व्यवहार को समझना है। यहां सांख्यिकी की अच्छी जानकारी आपकी काफी मदद करेगी. यह कदम अंतर्दृष्टि सृजन के साथ-साथ डेटा सफाई दोनों पर केंद्रित है। आपको लापता मानों को लागू करने, आउटलेर्स का पता लगाने और उनसे निपटने और कई प्रकार के परिवर्तन करने की आवश्यकता हो सकती है।

मैंने एक लिखा है डेटा अन्वेषण में शामिल चरणों पर व्यापक मार्गदर्शिका। आप इन सभी विधियों का अभ्यास अपने उद्योग के डेटासेट पर या किसी का उपयोग करके कर सकते हैं डेटासेट खोलें.

चुनौतियां और समाधान:

  1. यह जासूसी विश्लेषण से किस प्रकार भिन्न है: यह डेटा सफाई और परिवर्तन चरणों को जोड़ने के साथ जासूसी विश्लेषण के समान है। यहां, आपका ध्यान एक निश्चित उद्देश्य को प्राप्त करने के लिए डेटा अन्वेषण करने पर होना चाहिए, जैसे कि यह पता लगाना कि दिए गए चर लक्ष्य चर पर प्रभाव डालेंगे या नहीं।
  2. पहले कोई समस्या विवरण दिए बिना मैं लक्ष्य चर के साथ संबंध कैसे स्थापित करूंगा?: आप कोई भी ले सकते हैं डेटासेट खोलें जहां समस्या कथन को परिभाषित किया गया है और अपने डेटा अन्वेषण कौशल का अभ्यास करना शुरू करें

6. आपके मॉडल के प्रदर्शन का मूल्यांकन करने के तरीके

हमारी मॉडल निर्माण प्रक्रिया के दौरान, हम अपने मॉडल को एक डेटासेट पर प्रशिक्षित करते हैं जहां लक्ष्य पहले से ज्ञात होता है और फिर लक्ष्य चर की भविष्यवाणी करने के लिए इसे परीक्षण डेटासेट पर लागू करते हैं। लक्ष्य चर का अनुमान लगाते समय हम स्पष्ट रूप से सटीक होना चाहते हैं।

हम कैसे जांच सकते हैं कि हम सही हैं या नहीं? हमें एक मीट्रिक की आवश्यकता है जो वास्तविक अवलोकनों के विरुद्ध हमारे मॉडल परिणाम का मूल्यांकन करने में हमारी सहायता करेगी। आइए इसे एक उदाहरण से समझते हैं.

हमारा ग्राहक आधार है - C1, C2 और C2। हमने अनुमान लगाया है कि केवल C3 ही इस ग्राहक आधार से उत्पाद "ए" खरीदेगा। जैसा कि पता चला, C2 और C3 दोनों ने उत्पाद खरीदा। इसका मतलब है कि हम 66.6% सटीक हैं (2 में से 3 भविष्यवाणियाँ सही हैं)। इस सटीकता को हमारी "के रूप में जाना जाता हैमूल्यांकन मीट्रिक".

आप जिस प्रकार की समस्या का समाधान कर रहे हैं उसके आधार पर मूल्यांकन मीट्रिक बदल जाएगी। यहां सामान्य की एक सूची दी गई है मूल्यांकन मेट्रिक्स आपको पता होना चाहिए.

आपने मूल्यांकन मीट्रिक पर निर्णय ले लिया है लेकिन क्या आपके पास अपने मॉडल का मूल्यांकन करने के लिए वास्तविक परिणाम हैं? आप परीक्षण डेटासेट तैयार करने के लिए भविष्य में नहीं जा सकते! इस परिदृश्य में, हम डेटासेट का एक विशेष नमूना आरक्षित करते हैं जिस पर हम मॉडल को प्रशिक्षित नहीं करते हैं। बाद में, हम इसे अंतिम रूप देने से पहले इस नमूने पर मॉडल का मूल्यांकन करते हैं। इस विधि को मॉडल सत्यापन के रूप में जाना जाता है। आप इस लेख का संदर्भ ले सकते हैं विभिन्न सत्यापन तकनीकें जिसमें आर और पायथन में व्यावहारिक उदाहरण शामिल हैं।

चुनौतियां और समाधान:

  1. क्या सभी मूल्यांकन मैट्रिक्स जानना अनिवार्य है?: आवश्यक रूप से नहीं। अभी के लिए, केवल दो मूल्यांकन मेट्रिक्स - "आरएमएसई" और "कन्फ्यूजन मैट्रिक्स" पर ध्यान केंद्रित करें। ये दोनों शुरुआत करने के लिए काफी अच्छे हैं। आप प्रतिगमन समस्याओं के लिए आरएमएसई और वर्गीकरण समस्याओं के लिए भ्रम मैट्रिक्स का उपयोग कर सकते हैं

7. लीनियर और लॉजिस्टिक रिग्रेशन के साथ पूर्वानुमानित मॉडलिंग का परिचय

आपने डेटासेट को समझ लिया है और अपने मॉडल के प्रदर्शन का मूल्यांकन करने के लिए मेट्रिक्स पर ध्यान दिया है। आगे क्या होगा?

मॉडलिंग तकनीक लागू करना! एक साथ कई तकनीकें सीखना शुरू न करें। अभी केवल दो पर ध्यान केंद्रित करें - लीनियर और लॉजिस्टिक रिग्रेशन। ये दो तकनीकें आपको निरंतर और श्रेणीबद्ध चर की भविष्यवाणी करने में मदद करेंगी।

उदाहरण के लिए:

  1. रैखिक प्रतिगमन आपको अगले 3 महीनों के लिए किसी बीमा कंपनी में बिक्री एजेंट के अपेक्षित व्यवसाय का अनुमान लगाने में मदद करेगा
  2. लॉजिस्टिक रिग्रेशन आपको किसी विशेष ग्राहक को उत्पाद को क्रॉस-सेल करने की संभावना जानने में मदद करेगा

लीनियर और लॉजिस्टिक रिग्रेशन सीखने और अपनी पसंद के टूल का उपयोग करके अभ्यास करने के लिए नीचे दो अच्छे लेख हैं:

  1. लीनियर, रिज और लैस्सो रिग्रेशन के लिए शुरुआती गाइड
  2. लॉजिस्टिक रिग्रेशन का परिचय

चुनौतियां और समाधान:

  1. एल्गोरिदम बहुत गणितीय हैं और समझने में कठिन हैं: पहले इन तकनीकों के बारे में सहज समझ विकसित करके शुरुआत करें और फिर गणितीय विवरण पर आगे बढ़ें। यहां, मैं व्यावहारिक पहलू पर अधिक ध्यान केंद्रित करने वाले टॉप-डाउन दृष्टिकोण का सुझाव दे रहा हूं। आप चाहिए मॉडल परिणाम की व्याख्या करने में सक्षम हो (जैसे कि यह समझना कि मॉडल अच्छा प्रदर्शन कर रहा है या नहीं)

8. व्यावसायिक समस्या (अपनी भूमिका से संबंधित) को पहचानें, इसे डेटा समस्या में बदलें और पूर्वानुमान लगाएं

तो, आप अपने डोमेन के लिए डेटासेट कहां पा सकते हैं? व्यावसायिक समस्या का पता लगाना कठिन हो सकता है।

आपको नेतृत्व या टीम प्रबंधकों से बात करनी चाहिए और उनकी व्यावसायिक चुनौतियों में से एक को अपने प्रोजेक्ट के रूप में लेना चाहिए। यहां, पहला कदम व्यावसायिक समस्या को डेटा समस्या में बदलना है। फिर, उन चरणों पर आगे बढ़ना शुरू करें जिनकी हमने पहले बिंदु #5 में चर्चा की थी - परिकल्पना निर्माण, डेटा संग्रह, डेटा अन्वेषण, डेटा सफाई और अंत में मॉडल निर्माण और सत्यापन।

एक बीआई पेशेवर के रूप में आपके पास एक बड़ा लाभ यह है कि आप पहले से ही डेटासेट में चर से परिचित हैं। आपके जासूसी विश्लेषण कौशल आपको चर(ओं) संबंधों को समझने में भी मदद करेंगे। आप डेटा की सफाई, परिवर्तन, सही मूल्यांकन मीट्रिक की पहचान, सत्यापन सेट सेट करना और अंत में मॉडल निर्माण जैसे कार्य कर सकते हैं।

समस्या कथन और परिकल्पना निर्माण को परिभाषित करने के महत्व को समझने के लिए आपको कुछ समय लेना चाहिए और तविश श्रीवास्तव द्वारा नीचे दिए गए वेबिनार को देखना चाहिए:

मैं आर और पायथन में आसानी से और प्रभावी ढंग से मॉडल बनाने पर नीचे दिए गए लेखों को पढ़ने की भी सलाह देता हूं:

  1. स्क्रैच से मशीन लर्निंग मॉडल बनाने के लिए एक व्यापक मार्गदर्शिका
  2. R का उपयोग करके 10 मिनट में एक मशीन लर्निंग मॉडल बनाएं
  3. पायथन का उपयोग करके 10 मिनट में एक मशीन लर्निंग मॉडल बनाएं

चुनौतियां और समाधान:

  1. व्यावसायिक समस्या का पता नहीं चल सका: आपको ऐसे परिदृश्यों का सामना करना पड़ेगा जहां आप किसी व्यावसायिक समस्या का समाधान नहीं कर पा रहे हैं या व्यवसाय/टीम प्रबंधकों को अपने कौशल सेट के बारे में समझाने में सक्षम नहीं हैं। यदि आप यहीं खड़े हैं, तो इन तरीकों की खोज शुरू करें:
    1. अधिक परिभाषित समस्या विवरण के लिए अपनी क्षमता से मॉडल का निर्माण शुरू करें: मान लीजिए कि आप एक ऐसी रिपोर्ट तैयार करने के लिए ज़िम्मेदार हैं जिसमें एजेंट (बीमा एजेंट) स्तर पर महीने-दर-महीने व्यवसाय का स्रोत है। अब, इस रिपोर्ट को प्रकाशित करते समय, आप आगामी महीनों के लिए एजेंट के प्रदर्शन का अनुमान भी लगा सकते हैं। यह जनसांख्यिकी या पिछले प्रदर्शन पर आधारित होगा क्योंकि आपके पास पहले से ही आवश्यक डेटासेट तक पहुंच है। लगभग एक महीने के बाद, आप अपने परिणामों को सत्यापित कर सकते हैं और जांच सकते हैं कि आपका अनुमान कितना अच्छा था
    2. खुली डेटा विज्ञान प्रतियोगिताओं में भाग लें और अपनी प्रोफ़ाइल सुधारें: डेटा विज्ञान प्रतियोगिताओं में भाग लेना डेटा विज्ञान सीखने, अपने ज्ञान और प्रोफ़ाइल में सुधार करने और यह पता लगाने का एक शानदार तरीका है कि आप दुनिया के शीर्ष डेटा वैज्ञानिकों में कहां खड़े हैं।

9. अपने मॉडल के परिणाम व्यवसाय मालिकों के साथ साझा करें और उनका विश्वास अर्जित करें

अपना मॉडल बनाने के बाद, आपको अपने पर्यवेक्षक या निर्णय लेने वाले लोगों (जैसे टीम या प्रोजेक्ट मैनेजर) के साथ परिणाम साझा करना चाहिए। एक डेटा विज्ञान पेशेवर के रूप में, अपने निष्कर्षों को साझा करना बहुत महत्वपूर्ण है (जैसे कि कौन सी सुविधा लक्ष्य चर पर प्रभाव डाल रही है)। आपको अपने मॉडल परिणाम और वास्तविक संख्याओं के बीच तुलना के बारे में नियमित अपडेट भी संप्रेषित करना चाहिए।

यह प्रक्रिया आपको अपने मॉडल को ट्यून करने और बेहतर बनाने में भी मदद करेगी। यदि मॉडल अच्छा प्रदर्शन कर रहा है, तो इस बात की अधिक संभावना है कि आपको कोई अन्य असाइनमेंट मिलेगा या कोर डेटा साइंस टीम में शामिल किया जाएगा। हमारा लक्ष्य तो यही है, है न?

चुनौतियां और समाधान:

  1. मेरा मॉडल अच्छा प्रदर्शन नहीं कर रहा है, अब मुझे क्या करना चाहिए?: यदि आपका मॉडल अच्छा प्रदर्शन नहीं कर रहा है तो कोई बात नहीं। आप डेटासेट का और अधिक अन्वेषण कर सकते हैं और मुद्दों की तलाश कर सकते हैं। हम विभिन्न एल्गोरिदम सीखने पर ध्यान केंद्रित करेंगे जो आपके द्वारा हल की जा रही समस्या के लिए बेहतर उपयुक्त हो सकते हैं

10. नए एल्गोरिदम सीखते रहें, डेटा विज्ञान समुदाय में शामिल हों और प्रोफ़ाइल निर्माण पर ध्यान केंद्रित करें

डेटा साइंस में सीखना कभी नहीं रुकता। यह एक निरंतर विकसित होने वाला क्षेत्र है और हमें इसके साथ विकसित होते रहना होगा। आपने अब तक लीनियर और लॉजिस्टिक रिग्रेशन सीखा है - अब अपने ज्ञान को उससे आगे बढ़ाएं। निर्णय वृक्ष, यादृच्छिक वन और यहां तक ​​कि तंत्रिका नेटवर्क जैसे एल्गोरिदम सीखें।

और जैसा कि मैंने पहले बताया, आपको आवेदन करके सीखना चाहिए। सैद्धांतिक ज्ञान होना अच्छा है लेकिन अगर आप इसे व्यवहार में नहीं लाते हैं तो यह बेकार है। उन डेटासेट को चुनें जिनके बारे में हमने पहले बात की थी और इन नए सीखे गए एल्गोरिदम को लागू करें। आपको अपने मॉडल में महत्वपूर्ण सुधार देखने की संभावना है!

अब, आइए उपकरणों और तकनीकों से बाहर एक कदम उठाएं। मैं डेटा विज्ञान समुदाय में आपके नेटवर्क और प्रोफ़ाइल के निर्माण के महत्व पर जोर देना चाहता हूं।

मीटअप और कॉन्फ्रेंस जैसे डेटा विज्ञान केंद्रित कार्यक्रमों में भाग लेना शुरू करें। आप समान विचारधारा वाले लोगों के साथ-साथ अनुभवी पेशेवरों से भी मिलेंगे जो आपका मार्गदर्शन कर सकते हैं। मैंने बहुत से महत्वाकांक्षी डेटा विज्ञान पेशेवरों को इन आयोजनों के माध्यम से नौकरी की पेशकश प्राप्त करते देखा है, इसलिए मैं उनकी उपयोगिता की गारंटी देता हूं!

आपको अपनी प्रोफ़ाइल के डिजिटल पहलू पर भी ध्यान देना चाहिए। आप स्पष्ट रूप से डेटा विज्ञान परियोजनाओं के साथ काम कर रहे हैं इसलिए समुदाय को अपना काम दिखाएं! अपना कोड GitHub पर अपलोड करें और अपने निष्कर्षों पर ब्लॉग/लेख प्रकाशित करना शुरू करें। इससे संभावित नियोक्ताओं को यह देखने में मदद मिलती है कि आपको विषय के बारे में अच्छी जानकारी है।

चुनौतियां और समाधान:

  1. मैं तय नहीं कर पा रहा हूं कि मुझे किस एल्गोरिदम पर काम करना चाहिए: यह एक क्लासिक सर्वकालिक प्रश्न है. इसने कई डेटा विज्ञान अभ्यर्थियों को चकित और हैरान कर दिया है। मेरी सलाह - आपके संगठन में उपयोग किए जा रहे एल्गोरिदम पर काम करें। यह आपकी डेटा विज्ञान टीम के लिए आवश्यक चीज़ों पर आपका ध्यान केंद्रित करता है। वह अंतर-संगठन परिवर्तन जिसके बारे में हमने पहले बात की थी? मौजूदा डेटा विज्ञान टीम के समक्ष अपना मूल्य प्रदर्शित करने का यह एक बेहतरीन तरीका है
  2. मुझे नहीं पता कि कहां समूह ढूंढ़ूं या किन समूहों में शामिल होऊं: डेटा विज्ञान में उछाल के कारण बहुत सारी बैठकें हो रही हैं। एनालिटिक्स विद्या नियमित रूप से मीटअप आयोजित करती है. यदि आपको अपने शहर में कोई बैठक नहीं मिल रही है, तो एक बैठक आयोजित करें! मैंने देखा है कि बहुत से लोग पहल करते हैं, लिंक्डइन और मीटअप.कॉम पर मीटअप विवरण पोस्ट करते हैं, और अपने नेटवर्क को आने और शामिल होने के लिए कहते हैं। आप आने वाले लोगों की संख्या से आश्चर्यचकित हो जायेंगे

11. अपने संगठन के भीतर डेटा विज्ञान भूमिका में परिवर्तन पर ध्यान दें

हालाँकि डेटा विज्ञान में परिवर्तन का कोई आसान तरीका नहीं है, लेकिन कुछ निश्चित रास्ते हैं। उनमें से एक आपके वर्तमान संगठन में डेटा विज्ञान टीम में स्विच करना है। मैं समझाता हूं कि आपको अन्य रास्तों के बजाय इस पर ध्यान क्यों देना चाहिए (कम से कम शुरुआत के लिए)।

  • आप पहले से ही जानते हैं कि आपके डोमेन में चीज़ें कैसे काम करती हैं। डेटासेट में कुछ चरों का सामना करने पर, आप उनसे निपटने में काफी कुशल हैं क्योंकि आपके पास आवश्यक व्यावसायिक ज्ञान है
  • आपका नेतृत्व और प्रबंधन टीम पहले से ही आपके प्रदर्शन और कार्य नीति से परिचित है। वे जानते हैं कि आप मेज पर क्या लाते हैं - किसी भी टीम में विश्वास एक बड़ा कारक है, खासकर डेटा विज्ञान में। यह आपके लाभ के लिए काम करता है
  • अपने संगठन के बाहर संभावित कार्य अवसरों की तलाश में समय बर्बाद करने की आवश्यकता नहीं है। हर कोई एक अच्छा अवसर मिलने की हल्की उम्मीद में जॉब पोर्टल्स और न जाने क्या-क्या देखने से डरता है
  • यह जरूरी नहीं कि यह हर किसी पर लागू हो, लेकिन जब आप संगठन बदलते हैं तो आपको वेतन में तेज उछाल (यदि कोई हो) नहीं दिखेगा। याद रखें, आप कुछ ऐसे कार्यों में स्थानांतरित हो रहे हैं जहां आपके पास सीमित अनुभव था

मैं आगे जा सकता हूँ, लेकिन तुम्हें यह विचार समझ आ गया। अपने वर्तमान कार्यस्थल में अवसरों की तलाश को हमेशा पहली प्राथमिकता बनाएं। वरिष्ठ भूमिका में या डेटा विज्ञान टीम के लोगों से बात करें। अपना नेटवर्क बनाएं और मुझ पर विश्वास करें, अंततः इसका फल मिलेगा।

चुनौतियां और समाधान:

  1. मेरे वर्तमान संगठन में अवसर ढूंढने में असमर्थ: बिल्कुल सही, आपने इसे एक अच्छा मौका दिया। यह होना नहीं था. यदि ऐसा होता है तो आपको अवश्य ही एक विस्तृत जाल बिछाना चाहिए। जैसा कि हमने पिछले चरण में चर्चा की थी, आपका लिंक्डइन नेटवर्क और डेटा विज्ञान समुदाय काम आएगा। ऑनलाइन नौकरी पोर्टलों के माध्यम से निष्क्रिय नौकरी खोज से चिपके न रहें - लिंक्डइन और अन्य पेशेवर नेटवर्क के माध्यम से प्रबंधकों को काम पर रखने तक पहुंचें। अपने प्रोजेक्ट/पोर्टफोलियो को ऑनलाइन प्रदर्शित करें। और हार मत मानो! यह आपके धैर्य की परीक्षा लेगा लेकिन पहली सफलता प्रयास के लायक है

एंड नोट्स

वह काफी उत्साहवर्धक यात्रा थी! मैंने स्वयं यह परिवर्तन कई वर्ष पहले किया है। मैंने इस क्षेत्र को समय के साथ विकसित होते देखा है और इस लेख में मेरा उद्देश्य आपको यह बदलाव लाने में मदद करना था। आपके पास पहले से ही कई कदम हैं जो अधिकांश महत्वाकांक्षी डेटा विज्ञान पेशेवरों के पास नहीं हैं, इसलिए इसे गिनें!

यदि इस सीखने के पथ पर आपके कोई प्रश्न हैं, या इस लेख पर कोई प्रतिक्रिया है, तो मुझे नीचे टिप्पणी अनुभाग में बताएं। इस बीच, डेटा विज्ञान सीखने और खुद को इस क्षेत्र में आगे बढ़ने का सबसे अच्छा मौका देने के लिए यहां कुछ अतिरिक्त संसाधन दिए गए हैं:

आप इस लेख को हमारे मोबाइल एपीपी पर भी पढ़ सकते हैं गूगल प्ले से ले लों

संबंधित आलेख

स्रोत: https://www.analyticsvidya.com/blog/2020/09/11-steps-data-science-transition-reporting-mis-bi-professionals/

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी