जेफिरनेट लोगो

पेश है Amazon MWAA बड़े पर्यावरण आकार | अमेज़न वेब सेवाएँ

दिनांक:

Apache Airflow के लिए Amazon प्रबंधित वर्कफ़्लो (Amazon MWAA) के लिए एक प्रबंधित सेवा है अपाचे एयरफ्लो जो क्लाउड में डेटा पाइपलाइनों को व्यवस्थित करने के लिए बुनियादी ढांचे के सेटअप और संचालन को सुव्यवस्थित करता है। ग्राहक अपने अपाचे एयरफ्लो वातावरण की स्केलेबिलिटी, उपलब्धता और सुरक्षा को प्रबंधित करने के लिए अमेज़ॅन MWAA का उपयोग करते हैं। चूंकि वे अधिक गहन, जटिल और लगातार बढ़ती डेटा प्रोसेसिंग पाइपलाइनों को डिजाइन करते हैं, ग्राहकों ने हमसे अपने कार्यों और वर्कफ़्लो के लिए अधिक समवर्ती और क्षमता प्रदान करने के लिए अतिरिक्त अंतर्निहित संसाधनों की मांग की है।

इसे संबोधित करने के लिए, आज, हम Amazon MWAA में बड़े पर्यावरण वर्गों की उपलब्धता की घोषणा कर रहे हैं। इस पोस्ट में, हम इन नए XL और 2XL परिवेशों की क्षमताओं, उन परिदृश्यों के बारे में चर्चा करेंगे जिनके लिए वे उपयुक्त हैं, और आप बढ़े हुए संसाधनों का लाभ उठाने के लिए अपने मौजूदा Amazon MWAA परिवेश को कैसे सेट अप या अपग्रेड कर सकते हैं।

वर्तमान चुनौतियां

जब आप Amazon MWAA वातावरण बनाते हैं, तो प्रबंधित का एक सेट अमेज़ॅन इलास्टिक कंटेनर सेवा (अमेज़ॅन ईसीएस) के साथ AWS फरगेट कंटेनरों को परिभाषित वर्चुअल सीपीयू और रैम के साथ प्रावधानित किया गया है।

जैसे-जैसे आप बड़े, जटिल, संसाधन-गहन कार्यभार के साथ काम करते हैं, या हजारों की संख्या में काम करते हैं निर्देशित विश्वकोश रेखांकन (डीएजी) प्रति दिन, आप शेड्यूलर और श्रमिकों पर सीपीयू की उपलब्धता समाप्त करना शुरू कर सकते हैं, या श्रमिकों में मेमोरी सीमा तक पहुंच सकते हैं। अपाचे एयरफ्लो को बड़े पैमाने पर चलाने से एयरफ्लो मेटाडेटा डेटाबेस पर आनुपातिक रूप से अधिक भार पड़ता है, जिससे कभी-कभी अंतर्निहित सीपीयू और मेमोरी समस्याएं पैदा होती हैं अमेज़न रिलेशनल डेटाबेस सर्विस (अमेज़ॅन आरडीएस) क्लस्टर। संसाधनों की कमी वाले मेटाडेटा डेटाबेस के कारण आपके कर्मचारियों के कनेक्शन कट सकते हैं, कार्य समय से पहले विफल हो सकते हैं।

अपने कार्यों के प्रदर्शन और लचीलेपन को बेहतर बनाने के लिए निम्नलिखित पर विचार करें अपाचे एयरफ़्लो सर्वोत्तम अभ्यास लेखक डीएजी को। वैकल्पिक रूप से, आप कार्यभार वितरित करने के लिए एकाधिक Amazon MWAA वातावरण बना सकते हैं। हालाँकि, इसके लिए अतिरिक्त इंजीनियरिंग और प्रबंधन प्रयास की आवश्यकता है।

नई पर्यावरण कक्षाएं

आज की रिलीज़ के साथ, अब आप मौजूदा पर्यावरण कक्षाओं के अलावा अमेज़न MWAA में XL और 2XL वातावरण बना सकते हैं। उनके पास वर्तमान बड़े अमेज़ॅन MWAA पर्यावरण उदाहरण वर्ग की तुलना में क्रमशः दो और चार गुना गणना, और तीन और छह गुना मेमोरी है। ये उदाहरण सभी अपाचे एयरफ्लो घटकों की क्षमता और प्रदर्शन में सीधे सुधार के लिए गणना और रैम को रैखिक रूप से जोड़ते हैं। निम्न तालिका इसका सारांश प्रस्तुत करती है पर्यावरण क्षमताएं.

. शेड्यूलर और वर्कर सीपीयू/रैम

वेब सर्वर

सीपीयू/रैम

समवर्ती कार्य डीएजी क्षमता
mw1.xlarge 8 वीसीपीयू / 24 जीबी 4 वीसीपीयू / 12 जीबी 40 कार्य (डिफ़ॉल्ट) 2000 करने के लिए ऊपर
mw1.2xबड़ा 16 वीसीपीयू / 48 जीबी 8 वीसीपीयू / 24 जीबी 80 कार्य (डिफ़ॉल्ट) 4000 करने के लिए ऊपर

इन बड़े वातावरणों की शुरूआत के साथ, आपका अमेज़ॅन ऑरोरा मेटाडेटा डेटाबेस अब बड़े, मेमोरी-अनुकूलित उदाहरणों का उपयोग करेगा एडब्ल्यूएस ग्रेविटॉन2. Graviton2 परिवार के प्रोसेसर के साथ, आपको गणना, भंडारण और नेटवर्किंग में सुधार मिलता है, और AWS परिवार के प्रोसेसर द्वारा आपके कार्बन फ़ुटप्रिंट में कमी की पेशकश की जाती है।

मूल्य निर्धारण

अमेज़ॅन MWAA मूल्य निर्धारण आयाम अपरिवर्तित रहता है, और आप केवल उसी के लिए भुगतान करते हैं जो आप उपयोग करते हैं:

  • पर्यावरण वर्ग
  • अतिरिक्त कार्यकर्ता उदाहरण
  • अतिरिक्त अनुसूचक उदाहरण
  • मेटाडेटा डेटाबेस भंडारण की खपत

अब आपको पहले तीन आयामों में दो अतिरिक्त विकल्प मिलते हैं: पर्यावरण वर्ग, अतिरिक्त श्रमिकों और शेड्यूलर उदाहरणों के लिए XL और 2XL। मेटाडेटा डेटाबेस भंडारण मूल्य निर्धारण वही रहता है। को देखें अपाचे एयरफ्लो मूल्य निर्धारण के लिए अमेज़ॅन प्रबंधित वर्कफ़्लोज़ दरों और अधिक जानकारी के लिए।

बड़े परिवेश में स्केलिंग की योजना बनाने के लिए Amazon MWAA प्रदर्शन का निरीक्षण करें

इससे पहले कि आप नई पर्यावरण कक्षाओं का उपयोग शुरू करें, यह समझना महत्वपूर्ण है कि क्या आप ऐसे परिदृश्य में हैं जो क्षमता के मुद्दों से संबंधित है, जैसे कि मेटाडेटा डेटाबेस मेमोरी से बाहर, या उच्च सीपीयू उपयोग पर चलने वाले श्रमिक या शेड्यूलर। क्षमता से संबंधित समस्याओं के निवारण के लिए अपने पर्यावरण संसाधनों के प्रदर्शन को समझना महत्वपूर्ण है। हम इसमें वर्णित मार्गदर्शन का पालन करने की सलाह देते हैं अमेज़ॅन MWAA पर्यावरण के लिए कंटेनर, डेटाबेस और कतार उपयोग मेट्रिक्स का परिचय अमेज़ॅन MWAA वातावरण की स्थिति को बेहतर ढंग से समझने के लिए, और अपने इंस्टेंस को सही आकार देने के लिए अंतर्दृष्टि प्राप्त करें।

निम्नलिखित परीक्षण में, हम एक उच्च लोड परिदृश्य का अनुकरण करते हैं, इसका उपयोग करते हैं क्लाउडवॉच अवलोकन क्षमता मेट्रिक्स सामान्य समस्याओं की पहचान करना, और मुद्दों को कम करने के लिए बड़े वातावरण में स्केलिंग की योजना बनाने के लिए एक सूचित निर्णय लेना।

हमारे परीक्षणों के दौरान, हमने एक जटिल डीएजी चलाया जो गतिशील रूप से 500 से अधिक कार्य बनाता है और एक अलग डीएजी में कार्य पूरा होने की प्रतीक्षा करने के लिए बाहरी सेंसर का उपयोग करता है। अधिकतम 10 वर्कर नोड्स तक ऑटो स्केलिंग सेट के साथ अमेज़ॅन MWAA बड़े पर्यावरण वर्ग पर चलने के बाद, हमने निम्नलिखित मैट्रिक्स और मानों पर ध्यान दिया क्लाउडवॉच डैशबोर्ड.

वर्कर नोड्स अधिकतम सीपीयू क्षमता तक पहुंच गए हैं, जिससे कतारबद्ध कार्यों की संख्या बढ़ती जा रही है। मेटाडेटा डेटाबेस सीपीयू उपयोग 65% से अधिक क्षमता पर पहुंच गया है, और उपलब्ध डेटाबेस मुक्त मेमोरी कम हो गई है। इस स्थिति में, हम वर्कर नोड्स को स्केल में और बढ़ा सकते हैं, लेकिन इससे मेटाडेटा डेटाबेस सीपीयू पर अतिरिक्त भार पड़ेगा। इससे वर्कर डेटाबेस कनेक्शन और उपलब्ध निःशुल्क डेटाबेस मेमोरी की संख्या में गिरावट आ सकती है।

नए पर्यावरण वर्गों के साथ, आप पर्यावरण को संपादित करके और पर्यावरण के एक उच्च वर्ग का चयन करके उपलब्ध संसाधनों को बढ़ाने के लिए लंबवत पैमाने पर कर सकते हैं, जैसा कि निम्नलिखित स्क्रीनशॉट में दिखाया गया है।

परिवेशों की सूची से, हम इस परीक्षण के लिए उपयोग में आने वाले परिवेश का चयन करते हैं। चुनना संपादित करें नेविगेट करने के लिए उन्नत सेटिंग्स कॉन्फ़िगर करें पृष्ठ, और आवश्यकतानुसार उपयुक्त xlarge या 2xlarge वातावरण का चयन करें।

आपके द्वारा परिवर्तन सहेजने के बाद, पर्यावरण अपग्रेड को पूरा होने में 20-30 मिनट लगेंगे। अपग्रेड के दौरान बाधित होने वाले किसी भी चल रहे डीएजी को पुनः प्रयास के लिए निर्धारित किया जाता है, यह इस बात पर निर्भर करता है कि आपने अपने डीएजी के लिए पुनः प्रयास को कैसे कॉन्फ़िगर किया है। अब आप उन्हें मैन्युअल रूप से लागू करना चुन सकते हैं या अगले शेड्यूल किए गए रन की प्रतीक्षा कर सकते हैं।

पर्यावरण वर्ग को अपग्रेड करने के बाद, हमने उसी डीएजी का परीक्षण किया और देखा कि मेट्रिक्स बेहतर मान दिखा रहे थे क्योंकि अब अधिक संसाधन उपलब्ध हैं। इस XL वातावरण के साथ, आप कम कार्यकर्ता नोड्स पर अधिक कार्य चला सकते हैं, और इसलिए कतारबद्ध कार्यों की संख्या घटती रही। वैकल्पिक रूप से, यदि आपके पास ऐसे कार्य हैं जिनके लिए अधिक मेमोरी और/या सीपीयू की आवश्यकता होती है, तो आप प्रति कार्यकर्ता कार्यों को कम कर सकते हैं, लेकिन फिर भी बड़े पर्यावरण आकार के साथ प्रति कार्यकर्ता अधिक संख्या में कार्य प्राप्त कर सकते हैं। उदाहरण के लिए, यदि आपके पास एक बड़ा वातावरण है जहां वर्कर नोड सीपीयू अधिकतम है celery.worker_autoscale (एयरफ़्लो कॉन्फ़िगरेशन जो प्रति कार्यकर्ता कार्यों की संख्या को परिभाषित करता है) 20,20 पर सेट करें, आप एक एक्सएल वातावरण में बढ़ा सकते हैं और सेट कर सकते हैं celery.worker_autoscale एक्सएल पर 20,20 तक, एक्सएल वातावरण पर प्रति कार्यकर्ता डिफ़ॉल्ट 40 कार्यों के बजाय और सीपीयू लोड काफी कम होना चाहिए।

Amazon MWAA में एक नया XL वातावरण स्थापित करें

आप ऐसा कर सकते हैं Amazon MWAA के साथ शुरुआत करें आपके खाते में और पसंदीदा AWS क्षेत्र का उपयोग करके एडब्ल्यूएस प्रबंधन कंसोल, एपीआई, या AWS कमांड लाइन इंटरफ़ेस (एडब्ल्यूएस सीएलआई)। यदि आप बुनियादी ढांचे को कोड (IaC) के रूप में अपना रहे हैं, तो आप इसका उपयोग करके सेटअप को स्वचालित कर सकते हैं एडब्ल्यूएस CloudFormation, AWS क्लाउड डेवलपमेंट किट (एडब्ल्यूएस सीडीके), या टेराफॉर्म स्क्रिप्ट।

Amazon MWAA XL और 2XL पर्यावरण कक्षाएं आज उन सभी क्षेत्रों में उपलब्ध हैं जहां Amazon MWAA वर्तमान में उपलब्ध है।

निष्कर्ष

आज, हम Amazon MWAA में दो नई पर्यावरण कक्षाओं की उपलब्धता की घोषणा कर रहे हैं। XL और 2XL पर्यावरण कक्षाओं के साथ, आप जटिल या संसाधन-गहन वर्कफ़्लो की बड़ी मात्रा को व्यवस्थित कर सकते हैं। यदि आप अधिक संख्या में निर्भरता के साथ डीएजी चला रहे हैं, कई वातावरणों में हजारों डीएजी चला रहे हैं, या ऐसे परिदृश्य में जिसके लिए आपको गणना के लिए श्रमिकों का भारी उपयोग करना पड़ता है, तो अब आप अपने पर्यावरण संसाधनों को कुछ में बढ़ाकर संबंधित क्षमता के मुद्दों को दूर कर सकते हैं सीधे कदम.

इस पोस्ट में, हमने दो नए पर्यावरण वर्गों की क्षमताओं पर चर्चा की, जिसमें मूल्य निर्धारण और उनके द्वारा हल की जाने वाली कुछ सामान्य संसाधन बाधा समस्याएं शामिल हैं। हमने XL या 2XL तक स्केलिंग की योजना बनाने के लिए अपने मौजूदा परिवेशों का निरीक्षण करने के तरीके का मार्गदर्शन और एक उदाहरण प्रदान किया, और हमने बताया कि आप बढ़े हुए संसाधनों का उपयोग करने के लिए मौजूदा परिवेशों को कैसे अपग्रेड कर सकते हैं।

Amazon MWAA पर अतिरिक्त विवरण और कोड उदाहरणों के लिए, पर जाएँ अमेज़न MWAA उपयोगकर्ता गाइड और Amazon MWAA उदाहरण GitHub रेपो.

अपाचे, अपाचे एयरफ्लो और एयरफ्लो या तो पंजीकृत ट्रेडमार्क या ट्रेडमार्क हैं अपाचे सॉफ्टवेयर फाउंडेशन संयुक्त राज्य अमेरिका और/या अन्य देशों में।


लेखक के बारे में

हर्नान गार्सिया नीदरलैंड स्थित AWS में एक वरिष्ठ समाधान वास्तुकार हैं। वह वित्तीय सेवा उद्योग में काम करता है, उद्यमों को उनके क्लाउड अपनाने में सहायता करता है। उन्हें सर्वर रहित प्रौद्योगिकियों, सुरक्षा और अनुपालन का शौक है। उन्हें परिवार और दोस्तों के साथ समय बिताना और विभिन्न व्यंजनों के नए व्यंजन आज़माना पसंद है।

जीतेन्द्र वैद्य AWS में एक वरिष्ठ समाधान वास्तुकार हैं, जो AI/ML, सर्वर रहित और डेटा एनालिटिक्स डोमेन के क्षेत्र में अपनी विशेषज्ञता ला रहे हैं। उन्हें सुरक्षित, स्केलेबल, विश्वसनीय और लागत प्रभावी समाधान तैयार करने में ग्राहकों की सहायता करने का शौक है।

श्रीहर्ष अदारी AWS में एक वरिष्ठ समाधान वास्तुकार हैं, जहां वह ग्राहकों को AWS पर नवीन समाधान विकसित करने के लिए व्यावसायिक परिणामों से पीछे हटने में मदद करते हैं। इन वर्षों में, उन्होंने विभिन्न उद्योग क्षेत्रों में डेटा प्लेटफ़ॉर्म परिवर्तनों पर कई ग्राहकों की मदद की है। उनकी विशेषज्ञता के मुख्य क्षेत्र में प्रौद्योगिकी रणनीति, डेटा एनालिटिक्स और डेटा विज्ञान शामिल हैं। अपने खाली समय में, उन्हें खेल खेलना, टीवी शो देखना और तबला बजाना पसंद है।

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी