जेफिरनेट लोगो

Amazon S3, AWS ग्लू और स्नोफ्लेक | के साथ अपने डेटा लेक में अपाचे आइसबर्ग का उपयोग करें अमेज़न वेब सेवाएँ

दिनांक:

यह पोस्ट स्नोफ्लेक के एंड्रीज़ एंगेलब्रेक्ट और स्कॉट टील के साथ सह-लिखित है।

व्यवसाय लगातार विकसित हो रहे हैं, और डेटा लीडरों को नई आवश्यकताओं को पूरा करने के लिए हर दिन चुनौती दी जाती है। कई उद्यमों और बड़े संगठनों के लिए, विभिन्न व्यावसायिक आवश्यकताओं से निपटने के लिए एक प्रसंस्करण इंजन या उपकरण रखना संभव नहीं है। वे समझते हैं कि एक आकार-सभी के लिए फिट दृष्टिकोण अब काम नहीं करता है, और नए समाधानों की डिलीवरी में तेजी लाने के लिए आधुनिक डेटा आर्किटेक्चर में इंटरऑपरेबिलिटी का समर्थन करने के लिए स्केलेबल, लचीले टूल और खुले डेटा प्रारूपों को अपनाने के मूल्य को पहचानते हैं।

ग्राहक उद्देश्य-निर्मित डेटा आर्किटेक्चर विकसित करने के लिए AWS और स्नोफ्लेक का उपयोग कर रहे हैं जो आधुनिक एनालिटिक्स और कृत्रिम बुद्धिमत्ता (एआई) उपयोग के मामलों के लिए आवश्यक प्रदर्शन प्रदान करते हैं। इन समाधानों को लागू करने के लिए उद्देश्य-निर्मित डेटा भंडारों के बीच डेटा साझाकरण की आवश्यकता होती है। यही कारण है कि स्नोफ्लेक और एडब्ल्यूएस डेटा सेवाओं के बीच डेटा इंटरऑपरेबिलिटी को सक्षम और सुविधाजनक बनाने के लिए अपाचे आइसबर्ग के लिए उन्नत समर्थन प्रदान कर रहे हैं।

अपाचे आइसबर्ग एक ओपन-सोर्स टेबल प्रारूप है जो विभिन्न प्रसंस्करण इंजनों के बीच लेनदेन संबंधी अखंडता के साथ बड़े डेटासेट के लिए विश्वसनीयता, सरलता और उच्च प्रदर्शन प्रदान करता है। इस पोस्ट में, हम निम्नलिखित पर चर्चा करते हैं:

  • डेटा झीलों के लिए आइसबर्ग तालिकाओं के लाभ
  • AWS और स्नोफ्लेक के बीच आइसबर्ग टेबल साझा करने के लिए दो वास्तुशिल्प पैटर्न:
    • इसके साथ अपनी आइसबर्ग टेबल प्रबंधित करें एडब्ल्यूएस गोंद डेटा कैटलॉग
    • स्नोफ्लेक के साथ अपनी आइसबर्ग टेबल प्रबंधित करें
  • डेटा को कॉपी किए बिना मौजूदा डेटा लेक टेबल को आइसबर्ग टेबल में बदलने की प्रक्रिया

अब जब आपको विषयों की उच्च-स्तरीय समझ हो गई है, तो आइए उनमें से प्रत्येक पर विस्तार से विचार करें।

अपाचे आइसबर्ग के लाभ

अपाचे आइसबर्ग एक वितरित, समुदाय-संचालित, अपाचे 2.0-लाइसेंस प्राप्त, 100% ओपन-सोर्स डेटा तालिका प्रारूप है जो डेटा लेक में संग्रहीत बड़े डेटासेट पर डेटा प्रोसेसिंग को सरल बनाने में मदद करता है। डेटा इंजीनियर अपाचे आइसबर्ग का उपयोग करते हैं क्योंकि यह किसी भी पैमाने पर तेज़, कुशल और विश्वसनीय है और समय के साथ डेटासेट कैसे बदलते हैं इसका रिकॉर्ड रखता है। अपाचे आइसबर्ग अपाचे स्पार्क, अपाचे फ्लिंक, अपाचे हाइव, प्रेस्टो और अन्य जैसे लोकप्रिय डेटा प्रोसेसिंग फ्रेमवर्क के साथ एकीकरण प्रदान करता है।

आइसबर्ग टेबल फाइलों के बड़े संग्रह को अमूर्त करने के लिए मेटाडेटा बनाए रखते हैं, समय यात्रा, रोलबैक, डेटा कॉम्पैक्शन और पूर्ण स्कीमा विकास सहित डेटा प्रबंधन सुविधाएं प्रदान करते हैं, जिससे प्रबंधन ओवरहेड कम हो जाता है। अपाचे सॉफ्टवेयर फाउंडेशन के लिए ओपन सोर्स होने से पहले मूल रूप से नेटफ्लिक्स में विकसित किया गया था, अपाचे आइसबर्ग सामान्य डेटा लेक चुनौतियों को हल करने के लिए एक खाली-स्लेट डिज़ाइन था उपयोगकर्ता अनुभव, विश्वसनीयता, और प्रदर्शन, और अब डेवलपर्स के एक मजबूत समुदाय द्वारा समर्थित है जो प्रोजेक्ट में लगातार सुधार करने और नई सुविधाएँ जोड़ने, वास्तविक उपयोगकर्ता की जरूरतों को पूरा करने और उन्हें वैकल्पिकता प्रदान करने पर केंद्रित है।

AWS और स्नोफ्लेक पर निर्मित ट्रांजेक्शनल डेटा झीलें

स्नोफ्लेक कई भंडारण विकल्पों सहित आइसबर्ग तालिकाओं के लिए विभिन्न एकीकरण प्रदान करता है अमेज़न S3, और कई कैटलॉग विकल्प शामिल हैं एडब्ल्यूएस गोंद डेटा कैटलॉग और हिमपात का एक खंड. AWS विभिन्न AWS सेवाओं के लिए एकीकरण प्रदान करता है आइसबर्ग टेबल के साथ-साथ, टेबल मेटाडेटा को ट्रैक करने के लिए AWS ग्लू डेटा कैटलॉग भी शामिल है। स्नोफ्लेक और एडब्ल्यूएस का संयोजन आपको विश्लेषणात्मक और डेटा साझाकरण और सहयोग जैसे अन्य उपयोग के मामलों के लिए एक लेनदेन डेटा लेक बनाने के लिए कई विकल्प देता है। डेटा लेक में मेटाडेटा परत जोड़ने से, आपको बेहतर उपयोगकर्ता अनुभव, सरलीकृत प्रबंधन और बहुत बड़े डेटासेट पर बेहतर प्रदर्शन और विश्वसनीयता मिलती है।

AWS ग्लू के साथ अपनी आइसबर्ग टेबल प्रबंधित करें

आप डेटा को अंतर्ग्रहण, कैटलॉग, रूपांतरित और प्रबंधित करने के लिए AWS ग्लू का उपयोग कर सकते हैं अमेज़न सरल भंडारण सेवा (अमेज़ॅन एस3)। एडब्ल्यूएस ग्लू एक सर्वर रहित डेटा एकीकरण सेवा है जो आपको आइसबर्ग प्रारूप में अपने डेटा झीलों में डेटा लोड करने के लिए एक्सट्रैक्ट, ट्रांसफॉर्म और लोड (ईटीएल) पाइपलाइनों को दृश्य रूप से बनाने, चलाने और मॉनिटर करने की अनुमति देती है। AWS ग्लू के साथ, आप 70 से अधिक विविध डेटा स्रोतों को खोज सकते हैं और उनसे जुड़ सकते हैं और एक केंद्रीकृत डेटा कैटलॉग में अपना डेटा प्रबंधित कर सकते हैं। स्नोफ्लेक AWS ग्लू डेटा कैटलॉग के साथ एकीकृत होता है विश्लेषणात्मक प्रश्नों के लिए आइसबर्ग टेबल कैटलॉग और अमेज़ॅन S3 पर फ़ाइलों तक पहुंचने के लिए। इसकी तुलना में प्रदर्शन और गणना लागत में काफी सुधार होता है स्नोफ्लेक पर बाहरी टेबल, क्योंकि अतिरिक्त मेटाडेटा क्वेरी योजनाओं में काट-छाँट में सुधार करता है।

स्नोफ्लेक में डेटा साझाकरण और सहयोग क्षमताओं का लाभ उठाने के लिए आप इसी एकीकरण का उपयोग कर सकते हैं। यदि आपके पास Amazon S3 में डेटा है और आपको अन्य व्यावसायिक इकाइयों, भागीदारों, आपूर्तिकर्ताओं या ग्राहकों के साथ स्नोफ्लेक डेटा साझाकरण सक्षम करने की आवश्यकता है तो यह बहुत शक्तिशाली हो सकता है।

निम्नलिखित आर्किटेक्चर आरेख इस पैटर्न का उच्च-स्तरीय अवलोकन प्रदान करता है।

वर्कफ़्लो में निम्न चरण शामिल हैं:

  1. AWS ग्लू एप्लिकेशन, डेटाबेस और स्ट्रीमिंग स्रोतों से डेटा निकालता है। AWS ग्लू फिर इसे रूपांतरित करता है और इसे आइसबर्ग तालिका प्रारूप में अमेज़ॅन S3 में डेटा लेक में लोड करता है, जबकि AWS ग्लू डेटा कैटलॉग में आइसबर्ग तालिका के बारे में मेटाडेटा सम्मिलित और अद्यतन करता है।
  2. AWS ग्लू क्रॉलर आइसबर्ग टेबल मेटाडेटा उत्पन्न करता है और अपडेट करता है और इसे S3 डेटा लेक पर मौजूदा आइसबर्ग टेबल के लिए AWS ग्लू डेटा कैटलॉग में संग्रहीत करता है।
  3. स्नोफ्लेक स्नैपशॉट स्थान को पुनः प्राप्त करने के लिए AWS ग्लू डेटा कैटलॉग के साथ एकीकृत होता है।
  4. किसी क्वेरी की स्थिति में, स्नोफ्लेक अमेज़ॅन S3 में आइसबर्ग तालिका डेटा को पढ़ने के लिए AWS ग्लू डेटा कैटलॉग से स्नैपशॉट स्थान का उपयोग करता है।
  5. स्नोफ्लेक आइसबर्ग और स्नोफ्लेक तालिका प्रारूपों में क्वेरी कर सकता है। तुम कर सकते हो डेटा साझा करें एक ही स्नोफ्लेक क्षेत्र में एक या अधिक खातों के साथ सहयोग के लिए। आप स्नोफ्लेक में डेटा का उपयोग भी कर सकते हैं दृश्य का उपयोग अमेज़न क्विकसाइट, या इसके लिए इसका उपयोग करें मशीन लर्निंग (एमएल) और कृत्रिम बुद्धिमत्ता (एआई) उद्देश्य साथ में अमेज़न SageMaker.

स्नोफ्लेक के साथ अपनी आइसबर्ग टेबल प्रबंधित करें

दूसरा पैटर्न AWS और स्नोफ्लेक में इंटरऑपरेबिलिटी भी प्रदान करता है, लेकिन स्नोफ्लेक में अंतर्ग्रहण और परिवर्तन के लिए डेटा इंजीनियरिंग पाइपलाइनों को लागू करता है। इस पैटर्न में, डेटा को स्नोफ्लेक द्वारा AWS ग्लू जैसी AWS सेवाओं के साथ एकीकरण के माध्यम से या स्नोपाइप जैसे अन्य स्रोतों के माध्यम से आइसबर्ग तालिकाओं में लोड किया जाता है। स्नोफ्लेक फिर स्नोफ्लेक और विभिन्न एडब्ल्यूएस सेवाओं द्वारा डाउनस्ट्रीम एक्सेस के लिए आइसबर्ग प्रारूप में सीधे अमेज़ॅन एस 3 पर डेटा लिखता है, और स्नोफ्लेक आइसबर्ग कैटलॉग का प्रबंधन करता है जो एडब्ल्यूएस सेवाओं तक पहुंचने के लिए तालिकाओं में स्नैपशॉट स्थानों को ट्रैक करता है।

पिछले पैटर्न की तरह, आप स्नोफ्लेक डेटा शेयरिंग के साथ स्नोफ्लेक-प्रबंधित आइसबर्ग तालिकाओं का उपयोग कर सकते हैं, लेकिन आप उन मामलों में डेटासेट साझा करने के लिए S3 का भी उपयोग कर सकते हैं जहां एक पक्ष के पास स्नोफ्लेक तक पहुंच नहीं है।

निम्नलिखित आर्किटेक्चर आरेख स्नोफ्लेक-प्रबंधित आइसबर्ग तालिकाओं के साथ इस पैटर्न का एक सिंहावलोकन प्रदान करता है।

इस वर्कफ़्लो में निम्नलिखित चरण शामिल हैं:

  1. के माध्यम से डेटा लोड करने के अलावा कॉपी कमांड, स्नोपाइप, तथा AWS गोंद के लिए देशी स्नोफ्लेक कनेक्टर, आप स्नोफ्लेक के माध्यम से डेटा को एकीकृत कर सकते हैं डेटा साझा करना.
  2. स्नोफ्लेक अमेज़ॅन S3 को आइसबर्ग टेबल लिखता है और प्रत्येक लेनदेन के साथ स्वचालित रूप से मेटाडेटा अपडेट करता है।
  3. क्विकसाइट और सेजमेकर जैसी सेवाओं का उपयोग करके विश्लेषणात्मक और एमएल वर्कलोड के लिए स्नोफ्लेक द्वारा अमेज़ॅन एस 3 में आइसबर्ग टेबल से पूछताछ की जाती है।
  4. AWS पर अपाचे स्पार्क सेवाएँ हो सकती हैं स्नोफ्लेक से स्नैपशॉट स्थानों तक पहुंचेंस्नोफ्लेक आइसबर्ग कैटलॉग एसडीके के माध्यम से ई और सीधे अमेज़ॅन एस 3 में आइसबर्ग टेबल फ़ाइलों को स्कैन करें।

समाधानों की तुलना करना

ये दो पैटर्न अपाचे आइसबर्ग का उपयोग करके स्नोफ्लेक और एडब्ल्यूएस के बीच अपने डेटा इंटरऑपरेबिलिटी को अधिकतम करने के लिए आज डेटा व्यक्तियों के लिए उपलब्ध विकल्पों पर प्रकाश डालते हैं। लेकिन आपके उपयोग के मामले में कौन सा पैटर्न आदर्श है? यदि आप पहले से ही AWS ग्लू डेटा कैटलॉग का उपयोग कर रहे हैं और केवल पढ़ी गई क्वेरी के लिए स्नोफ्लेक की आवश्यकता है, तो पहला पैटर्न आइसबर्ग तालिकाओं को क्वेरी करने के लिए स्नोफ्लेक को AWS ग्लू और अमेज़ॅन S3 के साथ एकीकृत कर सकता है। यदि आप पहले से ही AWS ग्लू डेटा कैटलॉग का उपयोग नहीं कर रहे हैं और स्नोफ्लेक को पढ़ने और लिखने की आवश्यकता है, तो दूसरा पैटर्न संभवतः एक अच्छा समाधान है जो AWS से डेटा को संग्रहीत करने और एक्सेस करने की अनुमति देता है।

यह ध्यान में रखते हुए कि पढ़ना और लिखना संभवतः संपूर्ण डेटा आर्किटेक्चर के बजाय प्रति-टेबल के आधार पर काम करेगा, दोनों पैटर्न के संयोजन का उपयोग करने की सलाह दी जाती है।

अपाचे आइसबर्ग का उपयोग करके मौजूदा डेटा झीलों को ट्रांजेक्शनल डेटा झील में स्थानांतरित करें

आप प्रदर्शन और उपयोगकर्ता अनुभव में सुधार करते हुए लेनदेन संबंधी अखंडता का लाभ उठाने के लिए अमेज़ॅन एस 3 पर मौजूदा पैराक्वेट, ओआरसी और एवरो-आधारित डेटा लेक टेबल को आइसबर्ग प्रारूप में परिवर्तित कर सकते हैं। आइसबर्ग टेबल माइग्रेशन के कई विकल्प हैं (स्नैपशॉट, विस्थापित, तथा फाइलें जोड़ो) मौजूदा डेटा लेक तालिकाओं को आइसबर्ग प्रारूप में स्थानांतरित करने के लिए, जो सभी अंतर्निहित डेटा फ़ाइलों को फिर से लिखने के लिए बेहतर है - बड़े डेटासेट के साथ एक महंगा और समय लेने वाला प्रयास। इस अनुभाग में, हम ADD_FILES पर ध्यान केंद्रित करते हैं, क्योंकि यह कस्टम माइग्रेशन के लिए उपयोगी है।

ADD_FILES विकल्पों के लिए, आप मौजूदा डेटा लेक टेबल के लिए आइसबर्ग मेटाडेटा और आंकड़े तैयार करने के लिए AWS ग्लू का उपयोग कर सकते हैं और अंतर्निहित डेटा को फिर से लिखने की आवश्यकता के बिना भविष्य में उपयोग के लिए AWS ग्लू डेटा कैटलॉग में नई आइसबर्ग टेबल बना सकते हैं। AWS ग्लू का उपयोग करके आइसबर्ग मेटाडेटा और आंकड़े तैयार करने के निर्देशों के लिए, देखें अपाचे आइसबर्ग का उपयोग करके मौजूदा डेटा लेक को ट्रांजेक्शनल डेटा लेक में माइग्रेट करें or AWS ग्लू का उपयोग करके मौजूदा अमेज़ॅन S3 डेटा लेक टेबल को स्नोफ्लेक अनमैनेज्ड आइसबर्ग टेबल में बदलें.

इस विकल्प के लिए आवश्यक है कि आप फ़ाइलों को आइसबर्ग तालिकाओं में परिवर्तित करते समय डेटा पाइपलाइनों को रोक दें, जो कि AWS ग्लू में एक सीधी प्रक्रिया है क्योंकि गंतव्य को केवल आइसबर्ग तालिका में बदलने की आवश्यकता है।

निष्कर्ष

इस पोस्ट में, आपने AWS और स्नोफ्लेक में बेहतर इंटरऑपरेबिलिटी के लिए डेटा लेक में अपाचे आइसबर्ग को लागू करने के लिए दो आर्किटेक्चर पैटर्न देखे। हमने मौजूदा डेटा लेक तालिकाओं को आइसबर्ग प्रारूप में स्थानांतरित करने पर भी मार्गदर्शन प्रदान किया।

के लिए साइन अप करें 10 अप्रैल को AWS देव दिवस न केवल अपाचे आइसबर्ग के साथ, बल्कि स्ट्रीमिंग डेटा पाइपलाइनों के साथ भी व्यवहार करना अमेज़ॅन डेटा फ़ायरहोज़ और स्नोपाइप स्ट्रीमिंग, और जेनेरिक एआई अनुप्रयोगों के साथ स्नोफ्लेक में स्ट्रीमलाइट और अमेज़ॅन बेडरॉक.


लेखक के बारे में

एंड्रीज़ एंगेलब्रेक्ट स्नोफ्लेक में प्रिंसिपल पार्टनर सॉल्यूशंस आर्किटेक्ट हैं और रणनीतिक साझेदारों के साथ काम करते हैं। वह उत्पाद और सेवा एकीकरण के साथ-साथ भागीदारों के साथ संयुक्त समाधान के विकास का समर्थन करने वाले AWS जैसे रणनीतिक साझेदारों के साथ सक्रिय रूप से जुड़ा हुआ है। एंड्रीज़ के पास डेटा और एनालिटिक्स के क्षेत्र में 20 वर्षों से अधिक का अनुभव है।

दीनबंधु प्रसाद AWS में एक वरिष्ठ विश्लेषण विशेषज्ञ हैं, जो बड़ी डेटा सेवाओं में विशेषज्ञता रखते हैं। उन्हें AWS क्लाउड पर ग्राहकों को आधुनिक डेटा आर्किटेक्चर बनाने में मदद करने का शौक है। उन्होंने सभी आकार के ग्राहकों को डेटा प्रबंधन, डेटा वेयरहाउस और डेटा लेक समाधान लागू करने में मदद की है।

ब्रायन डोलाना नेवल एविएटर के रूप में अपने पहले करियर के बाद 2012 में एक सैन्य संबंध प्रबंधक के रूप में अमेज़ॅन में शामिल हुए। 2014 में, ब्रायन अमेज़ॅन वेब सर्विसेज में शामिल हो गए, जहां उन्होंने स्टार्टअप से लेकर उद्यमों तक के कनाडाई ग्राहकों को एडब्ल्यूएस क्लाउड का पता लगाने में मदद की। हाल ही में, ब्रायन 2022 में AWS ग्लू के लिए गो-टू-मार्केट स्पेशलिस्ट के रूप में एनालिटिक्स वर्ल्डवाइड स्पेशलिस्ट ऑर्गेनाइजेशन में शामिल होने से पहले Amazon DynamoDB और Amazon Keyspaces के लिए गो-टू-मार्केट स्पेशलिस्ट के रूप में नॉन-रिलेशनल बिजनेस डेवलपमेंट टीम के सदस्य थे।

निधि गुप्ता AWS में सीनियर पार्टनर सॉल्यूशन आर्किटेक्ट हैं। वह अपना दिन ग्राहकों और साझेदारों के साथ काम करते हुए, वास्तुशिल्प चुनौतियों को हल करने में बिताती है। उसे डेटा एकीकरण और ऑर्केस्ट्रेशन, सर्वर रहित और बड़े डेटा प्रोसेसिंग और मशीन लर्निंग का शौक है। निधि के पास आर्किटेक्चर डिजाइन और उत्पादन रिलीज और डेटा वर्कलोड के लिए तैनाती का नेतृत्व करने का व्यापक अनुभव है।

स्कॉट टील स्नोफ्लेक में प्रोडक्ट मार्केटिंग लीड हैं और डेटा लेक, स्टोरेज और गवर्नेंस पर ध्यान केंद्रित करते हैं।

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी