जेफिरनेट लोगो

इन-वेयरहाउस मशीन लर्निंग और आधुनिक डेटा साइंस स्टैक

दिनांक:

इन-वेयरहाउस मशीन लर्निंग और आधुनिक डेटा साइंस स्टैक

जैसा कि आपका संगठन अपने डेटा विज्ञान पोर्टफोलियो और क्षमताओं को परिपक्व करता है, इस तरह के विकास को सक्षम करने के लिए एक आधुनिक डेटा स्टैक स्थापित करना महत्वपूर्ण है। यहां, हम विभिन्न इन-डेटा वेयरहाउस मशीन लर्निंग सेवाओं का अवलोकन करते हैं, और उनके प्रत्येक लाभ और आवश्यकताओं पर चर्चा करते हैं।


By निक अकोस्टा, डेवलपर एडवोकेट, गठबंधन, Fivetran Five.

आधुनिक डेटा स्टैक

डेटा स्टैक को परिवर्तित करना

हालांकि डेटा एनालिटिक्स और डेटा साइंस काफी अनोखे विषय हैं, लेकिन उन्हें प्रभावी ढंग से प्राप्त करने के लिए उपयोग किए जाने वाले डेटा प्रोसेसिंग चरणों में काफी ओवरलैप है। दोनों को एक केंद्रीकृत स्थान में संग्रहीत उच्च गुणवत्ता वाले डेटा की बड़ी मात्रा तक पहुंच के साथ-साथ इन केंद्रीय भंडारों में स्रोतों से डेटा लाने के लिए कुशल और विश्वसनीय प्रक्रियाओं तक पहुंच से लाभ होता है। कुछ समय पहले तक, अलग-अलग क्षेत्रों के लिए अलग-अलग तकनीकों के साथ काम को दोहराया गया है, एनालिटिक्स और बिजनेस इंटेलिजेंस के लिए डेटा वेयरहाउस में और डेटा साइंस और मशीन लर्निंग के लिए डेटा लेक के रूप में। कई नई सेवाएं इन डेटा स्टैक को एक ही परिवेश में मर्ज करने पर काम कर रही हैं, और यह लेख इन सेवाओं का एक सिंहावलोकन प्रदान करेगा और वे मूल्य जो वे एक डेटा संगठन में जोड़ सकते हैं।

आधुनिक डेटा साइंस स्टैक के लाभ

एक आधुनिक डेटा स्टैक प्रौद्योगिकियों का एक संग्रह है जो कई डेटा स्रोतों को एक केंद्रीकृत क्लाउड डेटा वेयरहाउस में लाता है और संग्रहीत करता है जो विश्लेषिकी में लोकप्रिय हो गया है। इसे मशीन लर्निंग वर्कलोड को नामक किसी चीज़ में समायोजित करने के लिए बढ़ाया जा सकता है आधुनिक डेटा विज्ञान स्टैक. एक आधुनिक डेटा साइंस स्टैक डेटा एनालिटिक्स और डेटा साइंस टीमों के लिए डुप्लिकेट काम करने वाले साइलो और सेवाओं को हटा देता है और मॉडल को डेटा के करीब ले जाता है जिसके साथ वे प्रशिक्षण ले रहे हैं और भविष्यवाणी करने के लिए उपयोग कर रहे हैं, मॉडल-केंद्रित एआई विकास से बदलाव को आसान बनाते हैं। डेटा-केंद्रित एआई विकास. पर्यावरण को सुरक्षित, शासित, परिचालन, संगठित और प्रदर्शनकारी रखने के लिए कई संगठनों का डेटा वेयरहाउसिंग तकनीकों में काफी निवेश होता है, लेकिन डेटा इन सभी गुणों को खो देता है, जब इसे डेटा वेयरहाउस से डेटा लेक में नमूना किया जाता है।

तीन और, कम स्पष्ट लाभ हैं जिन्हें मैं एक आधुनिक डेटा विज्ञान स्टैक में अपने संक्रमण के बाद से खोजे जाने पर भी प्रकाश डालना चाहूंगा। मॉडल को डेटा वेयरहाउस में संग्रहीत करने का अर्थ है कि उनकी भविष्यवाणियों को भी संग्रहीत किया जा सकता है और SQL क्वेरी के माध्यम से प्राप्त किया जा सकता है। मशीन लर्निंग का उपयोग करने के लिए एम्बेडेड मॉडल या फ्रेमवर्क की आवश्यकता के बजाय टेबल लुकअप करना किसी संगठन में मशीन लर्निंग के उपयोग को लोकतांत्रिक बनाने में एक लंबा रास्ता तय कर सकता है। इसके अलावा, क्योंकि मशीन सीखने की प्रक्रिया का प्रत्येक चरण एक ही डेटा पर एक ही स्थान पर होता है, प्रशिक्षण के समय और सेवा के समय मॉडल को भेजे जाने वाले डेटा के बीच अंतर की संभावना कम होती है, जिसका अर्थ है प्रशिक्षण-सेवारत तिरछा और इसका पता लगाने के लिए उपयोग किए जाने वाले उपकरणों से काफी हद तक बचा जा सकता है। अंत में, चूंकि मशीन सीखने की प्रक्रिया के प्रत्येक चरण को SQL के रूप में निष्पादित किया जा सकता है, इसलिए Apache Airflow जैसे टूल के साथ विभिन्न चरणों को एक साथ डेटा पाइपलाइन में बनाना आसान हो जाता है।

इन-वेयरहाउस मशीन लर्निंग सर्विसेज का अवलोकन

BigQuery ML और Redshift ML

रेडशिफ्ट बनाम बिगक्वेरी

AWS और Google क्लाउड दोनों ने हाल ही में अपने डेटा वेयरहाउस, Redshift (बाएं) और BigQuery (दाएं) में मशीन सीखने की क्षमता को जोड़ा है।

BigQuery ML और Redshift ML, BigQuery और Redshift, Google Cloud Platform और AWS के संबंधित डेटा वेयरहाउस में मशीन सीखने की क्षमता जोड़ते हैं। एडब्ल्यूएस ने हाल ही में सामान्य उपलब्धता की घोषणा की रेडशिफ्ट एमएल, तथा BigQuery एमएल कुछ समय के लिए उपलब्ध है।

दोनों एक क्रिएट मॉडल कमांड के साथ SQL सिंटैक्स का विस्तार करते हैं जो मशीन लर्निंग मॉडल के निर्माण और मॉडल प्रकार जैसे मापदंडों के विनिर्देश, प्रशिक्षण डेटा के रूप में उपयोग की जाने वाली तालिका और भविष्यवाणियां उत्पन्न करने के लिए लक्ष्य सुविधा की अनुमति देता है। ये नए SQL कमांड उम्मीदवार मॉडल के बीच सर्वश्रेष्ठ प्रदर्शन की पहचान करने के लिए डेटा परिवर्तन और मॉडल ट्यूनिंग प्रदान करने के लिए स्वचालित मशीन सीखने की प्रक्रियाओं का लाभ उठाते हैं। कस्टम मॉडल का उपयोग प्रत्येक के साथ भी किया जा सकता है और मॉडल आर्किटेक्चर और प्रदर्शन में काफी लचीलापन प्रदान करता है, लेकिन प्रत्येक के विकास में कुछ प्रतिबंध हैं। कस्टम मॉडल को BigQuery में उपयोग करने के लिए TensorFlow मॉडल के रूप में सहेजा जाना चाहिए, और Redshift ML को AWS डेटा साइंस डेवलपमेंट प्लेटफ़ॉर्म SageMaker के साथ तैनात मॉडल का उपयोग करना चाहिए। एक बार मॉडल या तो प्रशिक्षित या गोदाम में आयात किए जाने के बाद, चयन कथनों का उपयोग तालिका के स्थान पर एक प्रशिक्षित मॉडल को निर्दिष्ट करने के लिए किया जा सकता है, जिसे आसानी से उपयोग, ऑडिटिंग और वेयरहाउस में पूर्वानुमान तालिका में आसानी से डाला जा सकता है। त्रुटि विश्लेषण।

स्नोफ्लेक और अन्य विकल्प

हिमपात ने कहा है कि उनकी "एआई और एमएल में पूरी पहल [उनके डेटा वेयरहाउस] में एक्स्टेंसिबिलिटी बनाने के लिए है ताकि आप अपनी पसंद के टूल के साथ इंटरफेस कर सकें।" AWS का सेजमेकर प्लेटफॉर्म जिसका पहले उल्लेख किया गया है, एक एमएल टूल का एक उदाहरण है जिसे स्नोफ्लेक के साथ एकीकृत किया जा सकता है, और डेटाब्रिक्स भी है। डेटाब्रिक्स में अधिक प्रभावशाली विकास हो रहा है, जिसे अभी जारी किया गया है डेल्टा झील का संस्करण 1.0.0, जो विपरीत दिशा से डेटा विश्लेषिकी और डेटा विज्ञान प्रौद्योगिकी स्टैक को परिवर्तित करता है। डेटा वेयरहाउस में मशीन लर्निंग क्षमताओं को लाने के बजाय, डेल्टा लेक पारंपरिक विश्लेषण और व्यावसायिक खुफिया क्षमताओं जैसे ACID लेनदेन को डेटा लेक में एक नए डेटा लेकहाउस आर्किटेक्चर में जोड़ता है जो एक आधुनिक डेटा साइंस स्टैक के समान लाभ प्रदान करता है।

समीक्षा

यदि आपका संगठन डेटा विश्लेषण और डेटा विज्ञान दोनों के प्रदर्शन में रुचि रखता है, तो दो विषयों को सुविधाजनक बनाने के लिए कई विकल्प हैं, लेकिन उनकी डेटा पाइपलाइनों के बीच डेटा अंतर्ग्रहण, भंडारण और अलग-अलग रूपांतरणों के लिए अलग-अलग टूलिंग के लिए बहुत कुछ समान है। काम का बोझ इन-वेयरहाउस मशीन लर्निंग टूल्स का उपयोग एक आधुनिक डेटा साइंस स्टैक बनाने के लिए किया जा सकता है जो डेटा इंजीनियरिंग में होने वाले साइलो को हटा सकता है और डेटा साइंस प्रैक्टिस के मॉडल सर्विंग कंपोनेंट्स को सब कुछ डेटा और उस डेटा पर काम करने वाले प्रैक्टिशनर्स को एक केंद्रीकृत में स्थानांतरित कर सकता है स्थान।

जैव: निक अकोस्टा फाइवट्रान में एक डेवलपर एडवोकेट और डेटा वैज्ञानिक हैं और पर्ड्यू विश्वविद्यालय और दक्षिणी कैलिफोर्निया विश्वविद्यालय में कंप्यूटर विज्ञान का अध्ययन किया है। फाइवट्रान डेटा अंतर्ग्रहण को स्वचालित करता है और इस लेख में सूचीबद्ध कई संगठनों के साथ प्रौद्योगिकी भागीदार बनकर खुश है, जिसमें अमेज़ॅन, डेटाब्रिक्स, गूगल और स्नोफ्लेक शामिल हैं।

संबंधित:



शीर्ष आलेख पिछले 30 दिन

सबसे लोकप्रिय
  1. पायथन के साथ स्वचालित करने के लिए 5 कार्य
  2. डेटा साइंटिस्ट बनने के लिए एक गाइड (कदम दर कदम दृष्टिकोण)
  3. डेटा वैज्ञानिक 10 वर्षों में विलुप्त हो जाएंगे
  4. पायथन के साथ स्वचालित पीडीएफ दस्तावेज़ कैसे उत्पन्न करें
  5. मैंने डेटा साइंस और मशीन लर्निंग के साथ अपनी आय को कैसे दोगुना किया
सर्वाधिक साझा
  1. डेटा साइंटिस्ट बनने के लिए एक गाइड (कदम दर कदम दृष्टिकोण)
  2. उच्च प्रदर्शन करने वाले डेटा वैज्ञानिक के लिए पांच प्रकार की सोच
  3. डेटा वैज्ञानिक 10 वर्षों में विलुप्त हो जाएंगे
  4. पायथन के साथ स्वचालित करने के लिए 5 कार्य
  5. मैंने डेटा साइंस और मशीन लर्निंग के साथ अपनी आय को कैसे दोगुना किया

Coinsmart। यूरोपा में बेस्टे बिटकॉइन-बोरसे
स्रोत: https://www.kdnuggets.com/2021/06/in-warehouse-machine-learning-modern-data-science-stack.html

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी

हमारे साथ चैट करें

नमस्ते! मैं आपकी कैसे मदद कर सकता हूँ?