जेफिरनेट लोगो

नई जॉब ऑब्जर्वेबिलिटी मेट्रिक्स का उपयोग करके एडब्ल्यूएस ग्लू नौकरियों के लिए निगरानी और डिबगिंग बढ़ाएं, भाग 3: अमेज़ॅन क्विकसाइट का उपयोग करके विज़ुअलाइज़ेशन और प्रवृत्ति विश्लेषण | अमेज़न वेब सेवाएँ

दिनांक:

In भाग 2 इस श्रृंखला में, हमने चर्चा की कि इसे कैसे सक्षम किया जाए एडब्ल्यूएस गोंद जॉब ऑब्जर्वेबिलिटी मेट्रिक्स और वास्तविक समय की निगरानी के लिए उन्हें ग्राफाना के साथ एकीकृत करें। ग्राफाना पाइपलाइन स्वास्थ्य को देखने के लिए शक्तिशाली अनुकूलन योग्य डैशबोर्ड प्रदान करता है। हालाँकि, समय के साथ रुझानों का विश्लेषण करने के लिए, विभिन्न आयामों से एकत्रीकरण, और पूरे संगठन में अंतर्दृष्टि साझा करने के लिए, एक उद्देश्य-निर्मित बिजनेस इंटेलिजेंस (बीआई) टूल जैसे अमेज़न क्विकसाइट आपके व्यवसाय के लिए अधिक प्रभावी हो सकता है। क्विकसाइट व्यावसायिक उपयोगकर्ताओं के लिए इंटरैक्टिव डैशबोर्ड और रिपोर्ट में डेटा की कल्पना करना आसान बनाता है।

इस पोस्ट में, हम जानेंगे कि क्विकसाइट को कैसे कनेक्ट किया जाए अमेज़ॅन क्लाउडवॉच AWS ग्लू जॉब ऑब्जर्वेबिलिटी मेट्रिक्स में रुझानों को उजागर करने के लिए मेट्रिक्स और ग्राफ़ बनाएं। ऐतिहासिक पैटर्न का विश्लेषण करने से आप प्रदर्शन को अनुकूलित कर सकते हैं, सक्रिय रूप से मुद्दों की पहचान कर सकते हैं और योजना में सुधार कर सकते हैं। हम क्लाउडवॉच मेट्रिक स्ट्रीम और क्विकसाइट स्पाइस का उपयोग करके क्लाउडवॉच मेट्रिक्स को क्विकसाइट में शामिल करते हैं। इस एकीकरण के साथ, आप दैनिक, साप्ताहिक और मासिक पैटर्न को उजागर करने के लिए लाइन चार्ट, बार चार्ट और अन्य ग्राफ़ प्रकारों का उपयोग कर सकते हैं। क्विकसाइट आपको गहन विश्लेषण के लिए मेट्रिक्स पर समग्र गणना करने की सुविधा देता है। आप नौकरी के नाम जैसे विभिन्न आयामों के आधार पर डेटा काट सकते हैं, विसंगतियाँ देख सकते हैं और अपने संगठन में रिपोर्ट सुरक्षित रूप से साझा कर सकते हैं। इन जानकारियों के साथ, टीमों के पास डेटा एकीकरण पाइपलाइनों को और अधिक कुशल बनाने की दृश्यता है।

समाधान अवलोकन

निम्नलिखित आर्किटेक्चर आरेख समाधान को लागू करने के लिए वर्कफ़्लो को दिखाता है।

वर्कफ़्लो में निम्न चरण शामिल हैं:

  1. AWS ग्लू जॉब्स क्लाउडवॉच मेट्रिक्स के लिए अवलोकन मेट्रिक्स उत्सर्जित करते हैं।
  2. क्लाउडवॉच मीट्रिक डेटा को मीट्रिक स्ट्रीम के माध्यम से स्ट्रीम करता है अमेज़ॅन डेटा फ़ायरहोज़.
  3. डेटा फ़ायरहोज़ एक का उपयोग करता है AWS लाम्बा डेटा को रूपांतरित करने और रूपांतरित रिकॉर्ड को एक में समाहित करने का कार्य अमेज़न सरल भंडारण सेवा (अमेज़न S3) बाल्टी।
  4. एक AWS ग्लू क्रॉलर S3 बकेट पर डेटा स्कैन करता है और AWS ग्लू डेटा कैटलॉग पर टेबल मेटाडेटा पॉप्युलेट करता है।
  5. क्विकसाइट समय-समय पर चलता रहता है अमेज़न एथेना क्वेरी परिणामों को SPICE पर लोड करने के लिए क्वेरीज़ और फिर नवीनतम मीट्रिक डेटा की कल्पना करें।

सभी संसाधनों को एक नमूने में परिभाषित किया गया है AWS क्लाउड डेवलपमेंट किट (एडब्ल्यूएस सीडीके) टेम्पलेट। आप अवलोकन मेट्रिक्स के रुझानों की कल्पना और विश्लेषण करने के लिए एंड-टू-एंड समाधान तैनात कर सकते हैं।

नमूना AWS CDK टेम्पलेट

यह पोस्ट AWS ग्लू ऑब्जर्वेबिलिटी मेट्रिक्स का उपयोग करके डैशबोर्ड के लिए एक नमूना AWS CDK टेम्पलेट प्रदान करता है।

आमतौर पर, आपके पास अपनी डेटा पाइपलाइन के लिए संसाधनों को प्रबंधित और चलाने के लिए कई खाते होते हैं।

इस टेम्पलेट में, हम निम्नलिखित खाते मानते हैं:

  • निगरानी खाता - यह केंद्रीय S3 बकेट, केंद्रीय डेटा कैटलॉग और क्विकसाइट-संबंधित संसाधनों को होस्ट करता है
  • स्रोत खाता - यह AWS ग्लू पर व्यक्तिगत डेटा पाइपलाइन संसाधनों और मॉनिटरिंग खाते में मेट्रिक्स भेजने के लिए संसाधनों को होस्ट करता है

टेम्प्लेट तब भी काम करता है जब मॉनिटरिंग खाता और स्रोत खाता समान हों।

इस नमूना टेम्पलेट में चार स्टैक हैं:

  • अमेज़न S3 स्टैक - यह S3 बकेट का प्रावधान करता है
  • डेटा कैटलॉग स्टैक - यह AWS ग्लू डेटाबेस, टेबल और क्रॉलर का प्रावधान करता है
  • क्विकसाइट स्टैक - यह क्विकसाइट डेटा स्रोत, डेटासेट और विश्लेषण का प्रावधान करता है
  • मेट्रिक्स प्रेषक स्टैक - यह परिवर्तन के लिए क्लाउडवॉच मीट्रिक स्ट्रीम, फ़ायरहोज़ डिलीवरी स्ट्रीम और लैम्ब्डा फ़ंक्शन का प्रावधान करता है

.. पूर्वापेक्षाएँ

आपके पास निम्नलिखित पूर्वापेक्षाएँ होनी चाहिए:

सीडीके प्रोजेक्ट प्रारंभ करें

प्रोजेक्ट आरंभ करने के लिए, निम्नलिखित चरणों को पूरा करें:

  1. क्लोन किया गया सीडीके टेम्पलेट आपके कार्यस्थल पर:
    $ git clone git@github.com:aws-samples/aws-glue-cdk-baseline.git 
    
    $ cd aws-glue-cdk-baseline.git

  2. एक पायथन बनाएं आभासी वातावरण क्लाइंट मशीन पर प्रोजेक्ट के लिए विशिष्ट:
    $ python3 -m venv .venv

हम इस परियोजना के लिए पायथन वातावरण को अलग करने के लिए एक आभासी वातावरण का उपयोग करते हैं और विश्व स्तर पर सॉफ़्टवेयर स्थापित नहीं करते हैं।

  1. अपने OS के अनुसार आभासी वातावरण को सक्रिय करें:
    • MacOS और Linux पर, निम्न कोड का उपयोग करें:
      $ source .venv/bin/activate

    • Windows प्लेटफ़ॉर्म पर, निम्न कोड का उपयोग करें:
      % .venvScriptsactivate.bat

इस चरण के बाद, बाद के चरण क्लाइंट मशीन पर आभासी वातावरण की सीमा के भीतर चलते हैं और आवश्यकतानुसार AWS खाते के साथ सहभागिता करते हैं।

  1. में वर्णित आवश्यक निर्भरताओं को स्थापित करें requirements.txt आभासी वातावरण के लिए:
    $ pip install -r requirements.txt

  2. कॉन्फ़िगरेशन फ़ाइल संपादित करें default-config.yaml आपके परिवेश के आधार पर (प्रत्येक खाता आईडी को अपनी स्वयं की आईडी से बदलें)।
    create_s3_stack: false
    create_metrics_sender_stack: false
    create_catalog_stack: false
    create_quicksight_stack: true
    
    s3_bucket_name: glue-observability-demo-dashboard
    
    firehose_log_group_name: /aws/kinesisfirehose/observability-demo-metric-stream
    firehose_lambda_buffer_size_mb: 2
    firehose_lambda_buffer_interval_seconds: 60
    firehose_s3_buffer_size_mb: 128
    firehose_s3_buffer_interval_seconds: 300
    
    glue_database_name: observability_demo_db
    glue_table_name: metric_data
    glue_crawler_name: observability_demo_crawler
    glue_crawler_cron_schedule: "cron(42 * * * ? *)"
    
    athena_workgroup_name: primary

अपने AWS वातावरण को बूटस्ट्रैप करें

अपने AWS परिवेश को बूटस्ट्रैप करने के लिए निम्नलिखित कमांड चलाएँ:

  1. निगरानी खाते में, अपना निगरानी खाता नंबर, AWS क्षेत्र और निगरानी प्रोफ़ाइल प्रदान करें:
    $ cdk bootstrap aws://<MONITORING-ACCOUNT-NUMBER>/<REGION> --profile <MONITORING-PROFILE> 
    --cloudformation-execution-policies arn:aws:iam::aws:policy/AdministratorAccess

  2. स्रोत खाते में, अपना स्रोत खाता नंबर, क्षेत्र और स्रोत प्रोफ़ाइल प्रदान करें:x
    $ cdk bootstrap aws://<SOURCE-ACCOUNT-NUMBER>/<REGION> --profile <SOURCE-PROFILE> 
    --cloudformation-execution-policies arn:aws:iam::aws:policy/AdministratorAccess

जब आप सभी परिवेशों के लिए केवल एक खाते का उपयोग करते हैं, तो आप इसे चला सकते हैंcdk bootstrapएक बार आदेश दें.

अपने AWS संसाधन तैनात करें

अपने AWS संसाधनों को तैनात करने के लिए निम्नलिखित आदेश चलाएँ:

  1. AWS CDK टेम्पलेट में परिभाषित संसाधनों को तैनात करने के लिए मॉनिटरिंग खाते का उपयोग करके निम्नलिखित कमांड चलाएँ:
    $ cdk deploy '*' --profile <MONITORING-PROFILE>

  2. AWS CDK टेम्पलेट में परिभाषित संसाधनों को तैनात करने के लिए स्रोत खाते का उपयोग करके निम्नलिखित कमांड चलाएँ:
    $ cdk deploy MetricSenderStack --profile <SOURCE-PROFILE>

क्विकसाइट अनुमतियाँ कॉन्फ़िगर करें

प्रारंभ में, AWS CDK टेम्पलेट द्वारा बनाए गए डेटासेट और विश्लेषण सहित नए क्विकसाइट संसाधन आपके लिए दृश्यमान नहीं हैं क्योंकि अभी तक कोई क्विकसाइट अनुमतियाँ कॉन्फ़िगर नहीं की गई हैं।

डेटासेट और विश्लेषण को आपके लिए दृश्यमान बनाने के लिए, निम्नलिखित चरणों को पूरा करें:

  1. QuickSight कंसोल पर, उपयोगकर्ता मेनू पर नेविगेट करें और चुनें QuickSight प्रबंधित करें.
  2. नेविगेशन फलक में, चुनें संपत्ति प्रबंधित करें.
  3. के अंतर्गत संपत्ति ब्राउज़ करें, चुनें विश्लेषण.
  4. ग्लूऑब्जर्वेबिलिटीएनालिसिस खोजें और उसका चयन करें।
  5. चुनें शेयर.
  6. के लिए उपयोगकर्ता या समूह, अपना उपयोगकर्ता चुनें, फिर चुनें साझा करें (1).
  7. शेयर पूरा होने तक प्रतीक्षा करें, फिर चुनें DONE.
  8. पर संपत्ति प्रबंधित करें पृष्ठ, चुनें डेटासेट.
  9. observability_demo.metrics_data खोजें और उसका चयन करें।
  10. चुनें शेयर.
  11. के लिए उपयोगकर्ता या समूह, अपना उपयोगकर्ता चुनें, फिर चुनें साझा करें (1).
  12. शेयर पूरा होने तक प्रतीक्षा करें, फिर चुनें DONE.

डिफ़ॉल्ट क्विकसाइट विश्लेषण का अन्वेषण करें

अब आपका क्विकसाइट विश्लेषण और डेटासेट आपको दिखाई देगा। आप क्विकसाइट कंसोल पर वापस लौट सकते हैं और नीचे ग्लूऑब्जर्वेबिलिटीएनालिसिस चुन सकते हैं विश्लेषण. निम्नलिखित स्क्रीनशॉट आपका डैशबोर्ड दिखाता है।

नमूना विश्लेषण में दो टैब हैं: निगरानी और इनसाइट्स। डिफ़ॉल्ट रूप से, निगरानी टैब में निम्नलिखित चार्ट हैं:

  • [विश्वसनीयता] जॉब रन त्रुटियों का विवरण
  • [विश्वसनीयता] जॉब रन त्रुटियाँ (कुल)
  • [प्रदर्शन] तिरछा काम
  • [प्रदर्शन] प्रति कार्य तिरछा कार्य

  • [संसाधन उपयोग] कार्यकर्ता उपयोग
  • [संसाधन उपयोग] प्रति कार्य कार्यकर्ता उपयोग
  • [थ्रूपुट] बाइट्सरीड, रिकॉर्ड्सरीड, फाइल्सरीड, पार्टीशनरीड (औसत)
  • [थ्रूपुट] बाइट्सलिखित, रिकॉर्ड्सलिखित, फ़ाइलेंलिखित (औसत)

  • [संसाधन उपयोग डिस्क उपलब्ध जीबी (न्यूनतम)
  • [संसाधन उपयोग अधिकतम डिस्क प्रयुक्त % (अधिकतम)

  • [ड्राइवर ओओएम] ओओएम त्रुटि गणना
  • [ड्राइवर OOM] अधिकतम हीप मेमोरी प्रयुक्त % (अधिकतम)
  • [निष्पादक OOM] OOM त्रुटि गणना
  • [निष्पादक OOM] अधिकतम हीप मेमोरी प्रयुक्त % (अधिकतम)

डिफ़ॉल्ट रूप से, इनसाइट्स टैब में निम्नलिखित जानकारियां हैं:

  • निचले स्तर के कार्यकर्ता का उपयोग
  • शीर्ष रैंक वाली स्क्यूनेस जॉब

  • पूर्वानुमान कार्यकर्ता उपयोग
  • शीर्ष प्रस्तावक रीडबाइट्स

आप अपनी आवश्यकताओं के आधार पर अवलोकन मेट्रिक्स का उपयोग करके कोई भी नया ग्राफ़ चार्ट या अंतर्दृष्टि जोड़ सकते हैं।

क्विकसाइट डैशबोर्ड प्रकाशित करें

जब विश्लेषण तैयार हो जाए, तो डैशबोर्ड प्रकाशित करने के लिए निम्नलिखित चरणों को पूरा करें:

  1. चुनें प्रकाशित.
  2. चुनते हैं के रूप में नया डैशबोर्ड प्रकाशित करें, और दर्ज करें GlueObservabilityDashboard.
  3. चुनें डैशबोर्ड प्रकाशित करें.

फिर आप डैशबोर्ड देख और साझा कर सकते हैं.

AWS ग्लू जॉब ऑब्जर्वेबिलिटी मेट्रिक्स के साथ विज़ुअलाइज़ करें और विश्लेषण करें

आइए AWS ग्लू के उपयोग को अधिक प्रभावी बनाने के लिए डैशबोर्ड का उपयोग करें।

उसको देखता प्रति कार्य तिरछा कार्य विज़ुअलाइज़ेशन, 1 नवंबर, 2023 को स्पाइक था। जॉब मल्टीस्टेज-डेमो के स्क्यूनेस मेट्रिक्स ने 9.53 दिखाया, जो दूसरों की तुलना में काफी अधिक है।

आइए विस्तार से जानें। आप चुन सकते हैं नियंत्रण, और दिनांक समय, क्षेत्र, एडब्ल्यूएस खाता आईडी, एडब्ल्यूएस ग्लू जॉब नाम, जॉब रन आईडी और डेटा स्टोर के स्रोत और सिंक के आधार पर फ़िल्टर शर्तों को बदलें। अभी के लिए, आइए कार्य नाम मल्टीस्टेज-डेमो से फ़िल्टर करें।

फ़िल्टर किया हुआ प्रति कार्य श्रमिक उपयोग विज़ुअलाइज़ेशन 0.5 दिखाता है, और इसका न्यूनतम मान 0.16 था। ऐसा लगता है कि संसाधन उपयोग में सुधार की गुंजाइश है। यह अवलोकन आपको श्रमिक उपयोग को बढ़ाने के लिए इस नौकरी के लिए ऑटो स्केलिंग सक्षम करने के लिए मार्गदर्शन करता है।

क्लीन अप

अपने AWS संसाधनों को साफ़ करने के लिए निम्नलिखित आदेश चलाएँ:

  1. संसाधनों को साफ़ करने के लिए मॉनिटरिंग खाते का उपयोग करके निम्नलिखित कमांड चलाएँ:
    $ cdk destroy '*' --profile <MONITORING-PROFILE>

    संसाधनों को साफ़ करने के लिए स्रोत खाते का उपयोग करके निम्नलिखित कमांड चलाएँ:

    $ cdk destroy MetricSenderStack --profile <SOURCE-PROFILE>

विचार

क्विकसाइट एकीकरण विश्लेषण और बेहतर लचीलेपन के लिए डिज़ाइन किया गया है। आप किसी भी फ़ील्ड के आधार पर मेट्रिक्स एकत्र कर सकते हैं। एक साथ कई काम निपटाते समय, क्विकसाइट अंतर्दृष्टि आपको समस्याग्रस्त नौकरियों की पहचान करने में मदद करती है।

आपके वातावरण में अधिक संसाधनों के साथ क्विकसाइट एकीकरण हासिल किया जाता है। मॉनिटरिंग खाते को AWS ग्लू डेटाबेस, टेबल, क्रॉलर और S3 बकेट और क्विकसाइट में मेट्रिक्स को देखने के लिए एथेना क्वेरी चलाने की क्षमता की आवश्यकता होती है। प्रत्येक स्रोत खाते में एक मीट्रिक स्ट्रीम और एक फ़ायरहोज़ डिलीवरी स्ट्रीम होनी चाहिए। इससे अतिरिक्त लागत लग सकती है.

सभी आवश्यक संसाधन AWS CDK में टेम्पलेटीकृत हैं।

निष्कर्ष

इस पोस्ट में, हमने क्लाउडवॉच मीट्रिक स्ट्रीम और SPICE का उपयोग करके क्विकसाइट पर AWS ग्लू जॉब ऑब्जर्वेबिलिटी मेट्रिक्स की कल्पना और विश्लेषण करने का तरीका खोजा। नए अवलोकन मेट्रिक्स को इंटरैक्टिव क्विकसाइट डैशबोर्ड से जोड़कर, आप एडब्ल्यूएस ग्लू जॉब उपयोग को अनुकूलित करने के लिए दैनिक, साप्ताहिक और मासिक पैटर्न को उजागर कर सकते हैं। क्विकसाइट की समृद्ध विज़ुअलाइज़ेशन क्षमताएं आपको कार्यकर्ता उपयोग, त्रुटि श्रेणियां, थ्रूपुट और बहुत कुछ जैसे मेट्रिक्स में रुझानों का विश्लेषण करने की अनुमति देती हैं। मेट्रिक्स को एकत्रित करना और नौकरी के नाम जैसे विभिन्न आयामों के आधार पर डेटा को विभाजित करना गहरी अंतर्दृष्टि प्रदान कर सकता है।

नमूना डैशबोर्ड ने समय के साथ मेट्रिक्स, शीर्ष त्रुटियां और तुलनात्मक नौकरी विश्लेषण दिखाया। इन विज़ुअलाइज़ेशन और रिपोर्ट को पूरे संगठन में टीमों के साथ सुरक्षित रूप से साझा किया जा सकता है। AWS ग्लू ऑब्जर्वेबिलिटी मेट्रिक्स पर डेटा-संचालित अंतर्दृष्टि के साथ, आप प्रदर्शन बाधाओं, सामान्य त्रुटियों और बहुत कुछ पर गहरी अंतर्दृष्टि प्राप्त कर सकते हैं।


लेखक के बारे में

नोरिताका सेकियामा AWS Glue टीम में प्रिंसिपल बिग डेटा आर्किटेक्ट हैं। वह ग्राहकों की मदद करने के लिए सॉफ्टवेयर कलाकृतियों के निर्माण के लिए जिम्मेदार है। अपने खाली समय में, वह अपनी नई रोड बाइक के साथ साइकिल चलाने का आनंद लेते हैं।

चौहान लियूचौहान लियू AWS ग्लू टीम में एक सॉफ्टवेयर डेवलपमेंट इंजीनियर है। उन्हें बड़े डेटा प्रोसेसिंग, एनालिटिक्स और प्रबंधन के लिए स्केलेबल वितरित सिस्टम बनाने का शौक है। अपने खाली समय में वह टेनिस खेलना पसंद करते हैं।

जिओरुन यू AWS ग्लू टीम में एक सॉफ्टवेयर डेवलपमेंट इंजीनियर है। वह ग्राहकों की मदद के लिए AWS ग्लू के लिए नई सुविधाएँ बनाने पर काम कर रहा है। काम के अलावा, ज़ियाओरुन को खाड़ी क्षेत्र में नई जगहों की खोज करने में आनंद आता है।

शॉन माई AWS ग्लू टीम में प्रधान उत्पाद प्रबंधक हैं। उनके पास एंटरप्राइज़ उत्पादों का आविष्कार और वितरण करने का 18 वर्षों से अधिक का ट्रैक रिकॉर्ड है जो उपयोगकर्ताओं के लिए डेटा की शक्ति को अनलॉक करता है। काम के अलावा, शॉन स्कूबा डाइविंग और कॉलेज फ़ुटबॉल का आनंद लेता है।

मोहित सक्सेना AWS ग्लू टीम में एक वरिष्ठ सॉफ्टवेयर विकास प्रबंधक हैं। उनकी टीम वितरित प्रणालियों के निर्माण पर ध्यान केंद्रित करती है ताकि ग्राहकों को इंटरैक्टिव और उपयोग में आसान इंटरफेस के साथ अमेज़ॅन एस 3 पर डेटा झीलों, डेटाबेस और क्लाउड पर डेटा-वेयरहाउसों में डेटा के पेटाबाइट को कुशलतापूर्वक प्रबंधित और परिवर्तित करने में सक्षम बनाया जा सके।

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी