In भाग 2 इस श्रृंखला में, हमने चर्चा की कि इसे कैसे सक्षम किया जाए एडब्ल्यूएस गोंद जॉब ऑब्जर्वेबिलिटी मेट्रिक्स और वास्तविक समय की निगरानी के लिए उन्हें ग्राफाना के साथ एकीकृत करें। ग्राफाना पाइपलाइन स्वास्थ्य को देखने के लिए शक्तिशाली अनुकूलन योग्य डैशबोर्ड प्रदान करता है। हालाँकि, समय के साथ रुझानों का विश्लेषण करने के लिए, विभिन्न आयामों से एकत्रीकरण, और पूरे संगठन में अंतर्दृष्टि साझा करने के लिए, एक उद्देश्य-निर्मित बिजनेस इंटेलिजेंस (बीआई) टूल जैसे अमेज़न क्विकसाइट आपके व्यवसाय के लिए अधिक प्रभावी हो सकता है। क्विकसाइट व्यावसायिक उपयोगकर्ताओं के लिए इंटरैक्टिव डैशबोर्ड और रिपोर्ट में डेटा की कल्पना करना आसान बनाता है।
इस पोस्ट में, हम जानेंगे कि क्विकसाइट को कैसे कनेक्ट किया जाए अमेज़ॅन क्लाउडवॉच AWS ग्लू जॉब ऑब्जर्वेबिलिटी मेट्रिक्स में रुझानों को उजागर करने के लिए मेट्रिक्स और ग्राफ़ बनाएं। ऐतिहासिक पैटर्न का विश्लेषण करने से आप प्रदर्शन को अनुकूलित कर सकते हैं, सक्रिय रूप से मुद्दों की पहचान कर सकते हैं और योजना में सुधार कर सकते हैं। हम क्लाउडवॉच मेट्रिक स्ट्रीम और क्विकसाइट स्पाइस का उपयोग करके क्लाउडवॉच मेट्रिक्स को क्विकसाइट में शामिल करते हैं। इस एकीकरण के साथ, आप दैनिक, साप्ताहिक और मासिक पैटर्न को उजागर करने के लिए लाइन चार्ट, बार चार्ट और अन्य ग्राफ़ प्रकारों का उपयोग कर सकते हैं। क्विकसाइट आपको गहन विश्लेषण के लिए मेट्रिक्स पर समग्र गणना करने की सुविधा देता है। आप नौकरी के नाम जैसे विभिन्न आयामों के आधार पर डेटा काट सकते हैं, विसंगतियाँ देख सकते हैं और अपने संगठन में रिपोर्ट सुरक्षित रूप से साझा कर सकते हैं। इन जानकारियों के साथ, टीमों के पास डेटा एकीकरण पाइपलाइनों को और अधिक कुशल बनाने की दृश्यता है।
समाधान अवलोकन
निम्नलिखित आर्किटेक्चर आरेख समाधान को लागू करने के लिए वर्कफ़्लो को दिखाता है।
वर्कफ़्लो में निम्न चरण शामिल हैं:
- AWS ग्लू जॉब्स क्लाउडवॉच मेट्रिक्स के लिए अवलोकन मेट्रिक्स उत्सर्जित करते हैं।
- क्लाउडवॉच मीट्रिक डेटा को मीट्रिक स्ट्रीम के माध्यम से स्ट्रीम करता है अमेज़ॅन डेटा फ़ायरहोज़.
- डेटा फ़ायरहोज़ एक का उपयोग करता है AWS लाम्बा डेटा को रूपांतरित करने और रूपांतरित रिकॉर्ड को एक में समाहित करने का कार्य अमेज़न सरल भंडारण सेवा (अमेज़न S3) बाल्टी।
- एक AWS ग्लू क्रॉलर S3 बकेट पर डेटा स्कैन करता है और AWS ग्लू डेटा कैटलॉग पर टेबल मेटाडेटा पॉप्युलेट करता है।
- क्विकसाइट समय-समय पर चलता रहता है अमेज़न एथेना क्वेरी परिणामों को SPICE पर लोड करने के लिए क्वेरीज़ और फिर नवीनतम मीट्रिक डेटा की कल्पना करें।
सभी संसाधनों को एक नमूने में परिभाषित किया गया है AWS क्लाउड डेवलपमेंट किट (एडब्ल्यूएस सीडीके) टेम्पलेट। आप अवलोकन मेट्रिक्स के रुझानों की कल्पना और विश्लेषण करने के लिए एंड-टू-एंड समाधान तैनात कर सकते हैं।
नमूना AWS CDK टेम्पलेट
यह पोस्ट AWS ग्लू ऑब्जर्वेबिलिटी मेट्रिक्स का उपयोग करके डैशबोर्ड के लिए एक नमूना AWS CDK टेम्पलेट प्रदान करता है।
आमतौर पर, आपके पास अपनी डेटा पाइपलाइन के लिए संसाधनों को प्रबंधित और चलाने के लिए कई खाते होते हैं।
इस टेम्पलेट में, हम निम्नलिखित खाते मानते हैं:
- निगरानी खाता - यह केंद्रीय S3 बकेट, केंद्रीय डेटा कैटलॉग और क्विकसाइट-संबंधित संसाधनों को होस्ट करता है
- स्रोत खाता - यह AWS ग्लू पर व्यक्तिगत डेटा पाइपलाइन संसाधनों और मॉनिटरिंग खाते में मेट्रिक्स भेजने के लिए संसाधनों को होस्ट करता है
टेम्प्लेट तब भी काम करता है जब मॉनिटरिंग खाता और स्रोत खाता समान हों।
इस नमूना टेम्पलेट में चार स्टैक हैं:
- अमेज़न S3 स्टैक - यह S3 बकेट का प्रावधान करता है
- डेटा कैटलॉग स्टैक - यह AWS ग्लू डेटाबेस, टेबल और क्रॉलर का प्रावधान करता है
- क्विकसाइट स्टैक - यह क्विकसाइट डेटा स्रोत, डेटासेट और विश्लेषण का प्रावधान करता है
- मेट्रिक्स प्रेषक स्टैक - यह परिवर्तन के लिए क्लाउडवॉच मीट्रिक स्ट्रीम, फ़ायरहोज़ डिलीवरी स्ट्रीम और लैम्ब्डा फ़ंक्शन का प्रावधान करता है
.. पूर्वापेक्षाएँ
आपके पास निम्नलिखित पूर्वापेक्षाएँ होनी चाहिए:
- पायथन 3.9 या बाद में
- AWS निगरानी खाते और स्रोत खाते के लिए खाता है
- An AWS नाम की प्रोफ़ाइल निगरानी खाते और स्रोत खाते के लिए
- RSI एडब्ल्यूएस सीडीके टूलकिट 2.87.0 या बाद का संस्करण
सीडीके प्रोजेक्ट प्रारंभ करें
प्रोजेक्ट आरंभ करने के लिए, निम्नलिखित चरणों को पूरा करें:
- क्लोन किया गया सीडीके टेम्पलेट आपके कार्यस्थल पर:
- एक पायथन बनाएं आभासी वातावरण क्लाइंट मशीन पर प्रोजेक्ट के लिए विशिष्ट:
हम इस परियोजना के लिए पायथन वातावरण को अलग करने के लिए एक आभासी वातावरण का उपयोग करते हैं और विश्व स्तर पर सॉफ़्टवेयर स्थापित नहीं करते हैं।
- अपने OS के अनुसार आभासी वातावरण को सक्रिय करें:
- MacOS और Linux पर, निम्न कोड का उपयोग करें:
- Windows प्लेटफ़ॉर्म पर, निम्न कोड का उपयोग करें:
इस चरण के बाद, बाद के चरण क्लाइंट मशीन पर आभासी वातावरण की सीमा के भीतर चलते हैं और आवश्यकतानुसार AWS खाते के साथ सहभागिता करते हैं।
- में वर्णित आवश्यक निर्भरताओं को स्थापित करें requirements.txt आभासी वातावरण के लिए:
- कॉन्फ़िगरेशन फ़ाइल संपादित करें
default-config.yaml
आपके परिवेश के आधार पर (प्रत्येक खाता आईडी को अपनी स्वयं की आईडी से बदलें)।
अपने AWS वातावरण को बूटस्ट्रैप करें
अपने AWS परिवेश को बूटस्ट्रैप करने के लिए निम्नलिखित कमांड चलाएँ:
- निगरानी खाते में, अपना निगरानी खाता नंबर, AWS क्षेत्र और निगरानी प्रोफ़ाइल प्रदान करें:
- स्रोत खाते में, अपना स्रोत खाता नंबर, क्षेत्र और स्रोत प्रोफ़ाइल प्रदान करें:x
जब आप सभी परिवेशों के लिए केवल एक खाते का उपयोग करते हैं, तो आप इसे चला सकते हैंcdk bootstrap
एक बार आदेश दें.
अपने AWS संसाधन तैनात करें
अपने AWS संसाधनों को तैनात करने के लिए निम्नलिखित आदेश चलाएँ:
- AWS CDK टेम्पलेट में परिभाषित संसाधनों को तैनात करने के लिए मॉनिटरिंग खाते का उपयोग करके निम्नलिखित कमांड चलाएँ:
- AWS CDK टेम्पलेट में परिभाषित संसाधनों को तैनात करने के लिए स्रोत खाते का उपयोग करके निम्नलिखित कमांड चलाएँ:
क्विकसाइट अनुमतियाँ कॉन्फ़िगर करें
प्रारंभ में, AWS CDK टेम्पलेट द्वारा बनाए गए डेटासेट और विश्लेषण सहित नए क्विकसाइट संसाधन आपके लिए दृश्यमान नहीं हैं क्योंकि अभी तक कोई क्विकसाइट अनुमतियाँ कॉन्फ़िगर नहीं की गई हैं।
डेटासेट और विश्लेषण को आपके लिए दृश्यमान बनाने के लिए, निम्नलिखित चरणों को पूरा करें:
- QuickSight कंसोल पर, उपयोगकर्ता मेनू पर नेविगेट करें और चुनें QuickSight प्रबंधित करें.
- नेविगेशन फलक में, चुनें संपत्ति प्रबंधित करें.
- के अंतर्गत संपत्ति ब्राउज़ करें, चुनें विश्लेषण.
- ग्लूऑब्जर्वेबिलिटीएनालिसिस खोजें और उसका चयन करें।
- चुनें शेयर.
- के लिए उपयोगकर्ता या समूह, अपना उपयोगकर्ता चुनें, फिर चुनें साझा करें (1).
- शेयर पूरा होने तक प्रतीक्षा करें, फिर चुनें DONE.
- पर संपत्ति प्रबंधित करें पृष्ठ, चुनें डेटासेट.
- observability_demo.metrics_data खोजें और उसका चयन करें।
- चुनें शेयर.
- के लिए उपयोगकर्ता या समूह, अपना उपयोगकर्ता चुनें, फिर चुनें साझा करें (1).
- शेयर पूरा होने तक प्रतीक्षा करें, फिर चुनें DONE.
डिफ़ॉल्ट क्विकसाइट विश्लेषण का अन्वेषण करें
अब आपका क्विकसाइट विश्लेषण और डेटासेट आपको दिखाई देगा। आप क्विकसाइट कंसोल पर वापस लौट सकते हैं और नीचे ग्लूऑब्जर्वेबिलिटीएनालिसिस चुन सकते हैं विश्लेषण. निम्नलिखित स्क्रीनशॉट आपका डैशबोर्ड दिखाता है।
नमूना विश्लेषण में दो टैब हैं: निगरानी और इनसाइट्स। डिफ़ॉल्ट रूप से, निगरानी टैब में निम्नलिखित चार्ट हैं:
- [विश्वसनीयता] जॉब रन त्रुटियों का विवरण
- [विश्वसनीयता] जॉब रन त्रुटियाँ (कुल)
- [प्रदर्शन] तिरछा काम
- [प्रदर्शन] प्रति कार्य तिरछा कार्य
- [संसाधन उपयोग] कार्यकर्ता उपयोग
- [संसाधन उपयोग] प्रति कार्य कार्यकर्ता उपयोग
- [थ्रूपुट] बाइट्सरीड, रिकॉर्ड्सरीड, फाइल्सरीड, पार्टीशनरीड (औसत)
- [थ्रूपुट] बाइट्सलिखित, रिकॉर्ड्सलिखित, फ़ाइलेंलिखित (औसत)
- [संसाधन उपयोग डिस्क उपलब्ध जीबी (न्यूनतम)
- [संसाधन उपयोग अधिकतम डिस्क प्रयुक्त % (अधिकतम)
- [ड्राइवर ओओएम] ओओएम त्रुटि गणना
- [ड्राइवर OOM] अधिकतम हीप मेमोरी प्रयुक्त % (अधिकतम)
- [निष्पादक OOM] OOM त्रुटि गणना
- [निष्पादक OOM] अधिकतम हीप मेमोरी प्रयुक्त % (अधिकतम)
डिफ़ॉल्ट रूप से, इनसाइट्स टैब में निम्नलिखित जानकारियां हैं:
- निचले स्तर के कार्यकर्ता का उपयोग
- शीर्ष रैंक वाली स्क्यूनेस जॉब
- पूर्वानुमान कार्यकर्ता उपयोग
- शीर्ष प्रस्तावक रीडबाइट्स
आप अपनी आवश्यकताओं के आधार पर अवलोकन मेट्रिक्स का उपयोग करके कोई भी नया ग्राफ़ चार्ट या अंतर्दृष्टि जोड़ सकते हैं।
क्विकसाइट डैशबोर्ड प्रकाशित करें
जब विश्लेषण तैयार हो जाए, तो डैशबोर्ड प्रकाशित करने के लिए निम्नलिखित चरणों को पूरा करें:
- चुनें प्रकाशित.
- चुनते हैं के रूप में नया डैशबोर्ड प्रकाशित करें, और दर्ज करें
GlueObservabilityDashboard
. - चुनें डैशबोर्ड प्रकाशित करें.
फिर आप डैशबोर्ड देख और साझा कर सकते हैं.
AWS ग्लू जॉब ऑब्जर्वेबिलिटी मेट्रिक्स के साथ विज़ुअलाइज़ करें और विश्लेषण करें
आइए AWS ग्लू के उपयोग को अधिक प्रभावी बनाने के लिए डैशबोर्ड का उपयोग करें।
उसको देखता प्रति कार्य तिरछा कार्य विज़ुअलाइज़ेशन, 1 नवंबर, 2023 को स्पाइक था। जॉब मल्टीस्टेज-डेमो के स्क्यूनेस मेट्रिक्स ने 9.53 दिखाया, जो दूसरों की तुलना में काफी अधिक है।
आइए विस्तार से जानें। आप चुन सकते हैं नियंत्रण, और दिनांक समय, क्षेत्र, एडब्ल्यूएस खाता आईडी, एडब्ल्यूएस ग्लू जॉब नाम, जॉब रन आईडी और डेटा स्टोर के स्रोत और सिंक के आधार पर फ़िल्टर शर्तों को बदलें। अभी के लिए, आइए कार्य नाम मल्टीस्टेज-डेमो से फ़िल्टर करें।
फ़िल्टर किया हुआ प्रति कार्य श्रमिक उपयोग विज़ुअलाइज़ेशन 0.5 दिखाता है, और इसका न्यूनतम मान 0.16 था। ऐसा लगता है कि संसाधन उपयोग में सुधार की गुंजाइश है। यह अवलोकन आपको श्रमिक उपयोग को बढ़ाने के लिए इस नौकरी के लिए ऑटो स्केलिंग सक्षम करने के लिए मार्गदर्शन करता है।
क्लीन अप
अपने AWS संसाधनों को साफ़ करने के लिए निम्नलिखित आदेश चलाएँ:
- संसाधनों को साफ़ करने के लिए मॉनिटरिंग खाते का उपयोग करके निम्नलिखित कमांड चलाएँ:
संसाधनों को साफ़ करने के लिए स्रोत खाते का उपयोग करके निम्नलिखित कमांड चलाएँ:
विचार
क्विकसाइट एकीकरण विश्लेषण और बेहतर लचीलेपन के लिए डिज़ाइन किया गया है। आप किसी भी फ़ील्ड के आधार पर मेट्रिक्स एकत्र कर सकते हैं। एक साथ कई काम निपटाते समय, क्विकसाइट अंतर्दृष्टि आपको समस्याग्रस्त नौकरियों की पहचान करने में मदद करती है।
आपके वातावरण में अधिक संसाधनों के साथ क्विकसाइट एकीकरण हासिल किया जाता है। मॉनिटरिंग खाते को AWS ग्लू डेटाबेस, टेबल, क्रॉलर और S3 बकेट और क्विकसाइट में मेट्रिक्स को देखने के लिए एथेना क्वेरी चलाने की क्षमता की आवश्यकता होती है। प्रत्येक स्रोत खाते में एक मीट्रिक स्ट्रीम और एक फ़ायरहोज़ डिलीवरी स्ट्रीम होनी चाहिए। इससे अतिरिक्त लागत लग सकती है.
सभी आवश्यक संसाधन AWS CDK में टेम्पलेटीकृत हैं।
निष्कर्ष
इस पोस्ट में, हमने क्लाउडवॉच मीट्रिक स्ट्रीम और SPICE का उपयोग करके क्विकसाइट पर AWS ग्लू जॉब ऑब्जर्वेबिलिटी मेट्रिक्स की कल्पना और विश्लेषण करने का तरीका खोजा। नए अवलोकन मेट्रिक्स को इंटरैक्टिव क्विकसाइट डैशबोर्ड से जोड़कर, आप एडब्ल्यूएस ग्लू जॉब उपयोग को अनुकूलित करने के लिए दैनिक, साप्ताहिक और मासिक पैटर्न को उजागर कर सकते हैं। क्विकसाइट की समृद्ध विज़ुअलाइज़ेशन क्षमताएं आपको कार्यकर्ता उपयोग, त्रुटि श्रेणियां, थ्रूपुट और बहुत कुछ जैसे मेट्रिक्स में रुझानों का विश्लेषण करने की अनुमति देती हैं। मेट्रिक्स को एकत्रित करना और नौकरी के नाम जैसे विभिन्न आयामों के आधार पर डेटा को विभाजित करना गहरी अंतर्दृष्टि प्रदान कर सकता है।
नमूना डैशबोर्ड ने समय के साथ मेट्रिक्स, शीर्ष त्रुटियां और तुलनात्मक नौकरी विश्लेषण दिखाया। इन विज़ुअलाइज़ेशन और रिपोर्ट को पूरे संगठन में टीमों के साथ सुरक्षित रूप से साझा किया जा सकता है। AWS ग्लू ऑब्जर्वेबिलिटी मेट्रिक्स पर डेटा-संचालित अंतर्दृष्टि के साथ, आप प्रदर्शन बाधाओं, सामान्य त्रुटियों और बहुत कुछ पर गहरी अंतर्दृष्टि प्राप्त कर सकते हैं।
लेखक के बारे में
नोरिताका सेकियामा AWS Glue टीम में प्रिंसिपल बिग डेटा आर्किटेक्ट हैं। वह ग्राहकों की मदद करने के लिए सॉफ्टवेयर कलाकृतियों के निर्माण के लिए जिम्मेदार है। अपने खाली समय में, वह अपनी नई रोड बाइक के साथ साइकिल चलाने का आनंद लेते हैं।
चौहान लियू AWS ग्लू टीम में एक सॉफ्टवेयर डेवलपमेंट इंजीनियर है। उन्हें बड़े डेटा प्रोसेसिंग, एनालिटिक्स और प्रबंधन के लिए स्केलेबल वितरित सिस्टम बनाने का शौक है। अपने खाली समय में वह टेनिस खेलना पसंद करते हैं।
जिओरुन यू AWS ग्लू टीम में एक सॉफ्टवेयर डेवलपमेंट इंजीनियर है। वह ग्राहकों की मदद के लिए AWS ग्लू के लिए नई सुविधाएँ बनाने पर काम कर रहा है। काम के अलावा, ज़ियाओरुन को खाड़ी क्षेत्र में नई जगहों की खोज करने में आनंद आता है।
शॉन माई AWS ग्लू टीम में प्रधान उत्पाद प्रबंधक हैं। उनके पास एंटरप्राइज़ उत्पादों का आविष्कार और वितरण करने का 18 वर्षों से अधिक का ट्रैक रिकॉर्ड है जो उपयोगकर्ताओं के लिए डेटा की शक्ति को अनलॉक करता है। काम के अलावा, शॉन स्कूबा डाइविंग और कॉलेज फ़ुटबॉल का आनंद लेता है।
मोहित सक्सेना AWS ग्लू टीम में एक वरिष्ठ सॉफ्टवेयर विकास प्रबंधक हैं। उनकी टीम वितरित प्रणालियों के निर्माण पर ध्यान केंद्रित करती है ताकि ग्राहकों को इंटरैक्टिव और उपयोग में आसान इंटरफेस के साथ अमेज़ॅन एस 3 पर डेटा झीलों, डेटाबेस और क्लाउड पर डेटा-वेयरहाउसों में डेटा के पेटाबाइट को कुशलतापूर्वक प्रबंधित और परिवर्तित करने में सक्षम बनाया जा सके।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
- प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- प्लेटोईएसजी. कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
- प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
- स्रोत: https://aws.amazon.com/blogs/big-data/enhance-monitoring-and-debugging-for-aws-glue-jobs-using-new-job-observability-metrics-part-3-visualization-and-trend-analysis-using-amazon-quicksight/