जेफिरनेट लोगो

त्वरित सिस्टम के लिए स्केल-आउट फ़ाइल संग्रहण को परिनियोजित करते समय डेटा को पहले रखें

दिनांक:

प्रायोजित किसी भी प्रकार के उच्च प्रदर्शन कंप्यूटिंग वर्कलोड में कंप्यूट और इंटरकनेक्ट के बारे में सोचने में बहुत समय बिताना आसान है - और उस वर्कलोड को सपोर्ट करने वाले स्टोरेज के बारे में सोचने में उतना समय नहीं लगाना मुश्किल है। डेटा के प्रकार और मात्रा के बारे में सोचना विशेष रूप से महत्वपूर्ण है जो इन अनुप्रयोगों में फीड होगा क्योंकि यह, किसी भी अन्य कारक से अधिक, संगठन की जरूरतों को पूरा करने में उस कार्यभार की सफलता या विफलता को निर्धारित करेगा।

जब आईटी इन्फ्रास्ट्रक्चर की बात आती है तो इन दिनों "क्लाउड फर्स्ट" मानसिकता का प्रचलन है, लेकिन संगठनों को वास्तव में "डेटा फर्स्ट" रवैया की आवश्यकता है और फिर महसूस करें कि क्लाउड केवल एक मूल्य निर्धारण योजना के साथ एक परिनियोजन मॉडल है और - शायद - कई संगठनों की तुलना में संसाधनों का एक गहरा पूल आदी है। लेकिन उन गहरे पूलों की कीमत चुकानी पड़ती है। डेटा को बादलों में स्थानांतरित करना या इसे वहां उत्पन्न करना और वहां रखना काफी सस्ता है; हालांकि, क्लाउड से डेटा को स्थानांतरित करना अत्यधिक महंगा हो सकता है, इसलिए इसे कहीं और उपयोग किया जा सकता है।

एचपीसी अनुप्रयोगों के नए वर्ग, जैसे कि मशीन लर्निंग ट्रेनिंग और डेटा एनालिटिक्स बड़े पैमाने पर चल रहे हैं, बड़े डेटासेट को फीड करते हैं या बनाते हैं, इसलिए इस डेटा को पहले रवैया रखना महत्वपूर्ण है क्योंकि सिस्टम को आर्किटेक्ट किया जा रहा है। एक चीज जो आप नहीं करना चाहते हैं वह है अवधारणा और उत्पादन के प्रमाण के बीच कहीं पता लगाना कि आपके पास गलत भंडारण है - या इससे भी बदतर, यह पता करें कि आपका भंडारण डेटा के साथ नहीं रह सकता है क्योंकि एक नया कार्यभार रोल करता है उत्पादन और एक जंगली सफलता है।

डेल टेक्नोलॉजीज में असंरचित डेटा स्टोरेज उत्पाद विपणन के निदेशक ब्रायन हेंडरसन कहते हैं, "जब भंडारण हार्डवेयर को वर्तमान और भविष्य की आवश्यकताओं के बारे में एक अच्छी तरह से सोची-समझी रणनीति के बिना त्वरित सुधार के रूप में जोड़ा जाता है, तो अक्सर समस्याएं पैदा होती हैं।" "संगठन कुछ सर्वर खरीदते हैं, कुछ स्टोरेज संलग्न करते हैं, प्रोजेक्ट लॉन्च करते हैं, और देखते हैं कि यह कैसा चल रहा है। इस प्रकार का दृष्टिकोण अक्सर पैमाने की समस्याओं, प्रदर्शन की समस्याओं, डेटा साझा करने की समस्याओं की ओर ले जाता है। इन संगठनों को एक लचीले स्केल-आउट फ़ाइल स्टोरेज समाधान की आवश्यकता होती है जो उन्हें अपने सभी अलग-अलग डेटा को शामिल करने और इसे सभी से जोड़ने में सक्षम बनाता है ताकि हितधारक और एप्लिकेशन इसे जल्दी और आसानी से एक्सेस और साझा कर सकें।

इसलिए, कुछ प्रमुख डेटा भंडारण आवश्यकताओं पर विचार करना महत्वपूर्ण है, इससे पहले कि गणना और नेटवर्किंग घटकों को खरीद आदेश में पत्थर में सेट किया जाए।

विचार करने वाली पहली बात स्केल है, और आपको गेट-गो से स्केल मान लेना चाहिए और फिर एक ऐसी प्रणाली ढूंढनी चाहिए जो डेटा को समाहित करने और अलग-अलग सिस्टम और डेटा प्रकारों की सेवा करने के लिए छोटी लेकिन बड़ी हो सके।

यद्यपि आंतरिक भंडारण या सिस्टम या क्लस्टर से जुड़े भंडारण के एक हॉजपॉज पर भरोसा करना संभव है, एचपीसी और एआई वर्कलोड को अक्सर एनवीआईडीआईए से जीपीयू द्वारा त्वरित नहीं किया जाता है। यह मान लेना सबसे अच्छा है कि जैसे-जैसे वर्कलोड और डेटासेट बढ़ते और बढ़ते हैं, वैसे-वैसे कंप्यूट, स्टोरेज और नेटवर्किंग को स्केल करना होगा। विचार करने के लिए कई अलग-अलग विकास वैक्टर हैं और उनमें से किसी को भी भूल जाने से क्षमता और प्रदर्शन के मुद्दे सड़क के नीचे हो सकते हैं।

और इस भंडारण पैमाने के मुद्दे पर एक और भी सूक्ष्म तत्व है जिस पर विचार किया जाना चाहिए। डेटा एचपीसी और एआई सिस्टम दोनों के लिए संग्रहीत किया जाता है। एचपीसी अनुप्रयोग प्रारंभिक स्थितियों की थोड़ी मात्रा लेते हैं और एक विशाल सिमुलेशन और विज़ुअलाइज़ेशन बनाते हैं जो वास्तविक दुनिया के बारे में कुछ बताते हैं, जबकि एआई सिस्टम भारी मात्रा में जानकारी लेते हैं - आमतौर पर संरचित और असंरचित डेटा का मिश्रण - और इसे एक मॉडल में डिस्टिल करते हैं जो हो सकता है वास्तविक दुनिया का विश्लेषण करने या उस पर प्रतिक्रिया करने के लिए उपयोग किया जाता है। इन प्रारंभिक डेटासेट और उनके मॉडल को व्यावसायिक कारणों के साथ-साथ डेटा शासन और नियामक अनुपालन के लिए संरक्षित किया जाना चाहिए।

आप चाहकर भी इस डेटा को फेंक नहीं सकते

डेल टेक्नोलॉजीज में अनस्ट्रक्चर्ड डेटा सॉल्यूशंस टीम के एआई और एनालिटिक्स के लिए ग्लोबल बिजनेस डेवलपमेंट मैनेजर थॉमस हेंसन कहते हैं, "आप चाहें तो भी इस डेटा को फेंक नहीं सकते।" "कोई फर्क नहीं पड़ता कि ऊर्ध्वाधर उद्योग - मोटर वाहन, स्वास्थ्य सेवा, परिवहन, वित्तीय सेवाएं - आपको एल्गोरिदम में एक दोष मिल सकता है और मुकदमेबाजी एक मुद्दा है। आपको वह डेटा दिखाना होगा जो एल्गोरिदम में फीड किया गया था जिसने दोषपूर्ण परिणाम उत्पन्न किया या साबित किया कि यह नहीं था। एक निश्चित सीमा तक, उस एल्गोरिथ्म का मूल्य वह डेटा है जिसे इसमें फीड किया गया था। और वह सिर्फ एक छोटा सा उदाहरण है।"

तो हाइब्रिड सीपीयू-जीपीयू सिस्टम के लिए, शायद यह मान लेना सबसे अच्छा है कि मशीनों पर स्थानीय भंडारण पर्याप्त नहीं होगा, और बहुत सारे असंरचित डेटा रखने में सक्षम बाहरी भंडारण की आवश्यकता होगी। आर्थिक कारणों से, चूंकि एआई और कुछ एचपीसी परियोजनाएं अभी भी अवधारणा चरणों के प्रमाण में हैं, इसलिए यदि आवश्यक हो तो छोटे से शुरू करना और क्षमता और प्रदर्शन को तेजी से और स्वतंत्र वैक्टर पर स्केल करने में सक्षम होना उपयोगी होगा।

डेल टेक्नोलॉजीज के वनएफएस फाइल सिस्टम को चलाने वाले पॉवरस्केल ऑल-फ्लैश एरेज़ इस स्टोरेज प्रोफाइल में फिट होते हैं। आधार प्रणाली तीन-नोड कॉन्फ़िगरेशन में आती है जिसमें 11 टीबी तक का कच्चा भंडारण होता है और छह आंकड़ों के तहत एक मामूली कीमत होती है, और प्रयोगशाला में एक साझा भंडारण क्लस्टर में 250 नोड्स तक परीक्षण किया जाता है जो 96 पीबी तक हो सकता है आंकड़े का। और डेल टेक्नोलॉजीज के पास पावरस्केल एरेज़ चलाने वाले ग्राहक इससे कहीं अधिक बड़े पैमाने पर हैं, लेकिन वे अक्सर आउटेज के संभावित विस्फोट क्षेत्र को कम करने के लिए अलग-अलग क्लस्टर बनाते हैं। जो अत्यंत दुर्लभ है।

PowerScale को ऑन-प्रिमाइसेस पर तैनात किया जा सकता है या इसे मल्टी-क्लाउड या नेटिव क्लाउड एकीकृत विकल्पों के साथ कई सार्वजनिक क्लाउड में विस्तारित किया जा सकता है जहाँ ग्राहक अतिरिक्त कंप्यूट या अन्य देशी क्लाउड सेवाओं का लाभ उठा सकते हैं।

प्रदर्शन पैमाने का दूसरा हिस्सा है जिस पर कंपनियों को विचार करने की आवश्यकता है, और यह विशेष रूप से महत्वपूर्ण है जब सिस्टम को GPU द्वारा त्वरित किया जा रहा है। GPU कंप्यूट के शुरुआती दिनों से, NVIDIA ने CPU और उसकी मेमोरी को रास्ते से हटाने के लिए काम किया है और इसे वह अड़चन बनने से रोकने के लिए काम किया है जो GPU को डेटा साझा करने से रोकता है (GPUDDirect) क्योंकि वे अपने सिमुलेशन चलाते हैं या अपने मॉडल बनाते हैं या जो GPU को स्टोरेज लाइटनिंग फास्ट (GPUDDirect Storage) तक पहुंचने से रोकता है।

यदि ऐसे GPU त्वरित सिस्टम के लिए बाहरी संग्रहण एक आवश्यकता है - चार या आठ GPU वाले सर्वरों के पास डेटासेट को रखने के लिए पर्याप्त संग्रहण नहीं होगा जिसे अधिकांश HPC और AI अनुप्रयोग संसाधित करते हैं - तो यह स्पष्ट प्रतीत होता है कि उस संग्रहण को जो कुछ भी बोलना है GPUDirect Storage और इसे तेजी से बोलें।

पिछला रिकॉर्ड धारक मंडप डेटा था, जिसने 2.2 पीबी भंडारण सरणी का परीक्षण किया और फ़ाइल मोड में 100 जीबी/सेकंड पर नए "एम्पीयर" ए100 जीपीयू पर आधारित डीजीएक्स-ए191 सिस्टम में डेटा पढ़ने में सक्षम था. लैब में, डेल टेक्नोलॉजीज PowerScale सरणियों पर चल रहे अपने GPUDirect स्टोरेज बेंचमार्क परीक्षणों को अंतिम रूप दे रही है और कहती है कि यह प्रदर्शन को कम से कम 252 जीबी / सेकंड तक बढ़ा सकती है। और चूंकि PowerScale एकल नामस्थान में 252 नोड्स तक स्केल कर सकता है, यह वहां नहीं रुकता है और यदि आवश्यक हो तो उससे कहीं अधिक स्केल कर सकता है।

"बिंदु यह है, हम जानते हैं कि इन GPU गणना वातावरण के लिए कैसे अनुकूलित किया जाए," हेंडरसन कहते हैं। और यहाँ AI वर्कलोड चलाने वाले GPU-त्वरित सिस्टम के प्रदर्शन और PowerScale स्टोरेज के प्रदर्शन के बारे में अधिक सामान्य कथन है:

हाइब्रिड सीपीयू-जीपीयू सिस्टम को आर्किटेक्चर करते समय विभिन्न प्रकार की प्रणालियों के लिए समर्थन की चौड़ाई पर विचार करना एक और बात है। साझा भंडारण की प्रकृति को साझा किया जाना है, और अन्य अनुप्रयोगों के लिए साझा भंडारण पर डेटा का उपयोग करने में सक्षम होना महत्वपूर्ण है। PowerScale सरणियों को 250 से अधिक अनुप्रयोगों के साथ एकीकृत किया गया है और कई प्रकार की प्रणालियों पर समर्थित के रूप में प्रमाणित हैं। यह एक कारण है कि Isilon और PowerScale स्टोरेज के दुनिया भर में 15,000 से अधिक ग्राहक हैं।

उच्च प्रदर्शन कंप्यूटिंग प्रदर्शन से अधिक के बारे में है, विशेष रूप से एक उद्यम वातावरण में जहां संसाधन सीमित हैं और सिस्टम और डेटा का नियंत्रण बिल्कुल महत्वपूर्ण है। तो अगली बात जिस पर GPU- त्वरित सिस्टम के लिए स्टोरेज को आर्किटेक्चर करने पर विचार किया जाना चाहिए, वह है स्टोरेज मैनेजमेंट।

टूल किया गया

इस मोर्चे पर, डेल टेक्नोलॉजीज पार्टी के लिए कई उपकरण लाता है। पहला है अंतर्दृष्टिआईक्यू, जो PowerScale और इसके पूर्ववर्ती, Isilon संग्रहण सरणी के लिए बहुत विशिष्ट और विस्तृत संग्रहण निगरानी और रिपोर्टिंग करता है।

एक अन्य उपकरण कहा जाता है क्लाउडआईक्यू, जो मशीन लर्निंग और प्रेडिक्टिव एनालिटिक्स तकनीकों का उपयोग करता है जो पॉवरस्टोर, पॉवरमैक्स, पॉवरस्केल, पॉवरवॉल्ट, यूनिटी एक्सटी, एक्सट्रीमियो, और एससी सीरीज सहित डेल टेक्नोलॉजीज इंफ्रास्ट्रक्चर उत्पादों की पूरी श्रृंखला की निगरानी और प्रबंधन में मदद करता है, साथ ही पावरएज सर्वर और कन्वर्ज्ड और हाइपरकॉन्वर्जेड VxBlock, VxRail और PowerFlex जैसे प्लेटफॉर्म।

और अंत में, वहाँ है डेटाआईक्यू, असंरचित डेटा के लिए एक भंडारण निगरानी और डेटासेट प्रबंधन सॉफ़्टवेयर जो PowerScale, PowerMax, और PowerStore सरणियों के साथ-साथ बड़े सार्वजनिक बादलों से क्लाउड स्टोरेज में असंरचित डेटासेट का एकीकृत दृश्य प्रदान करता है। DataIQ आपको न केवल असंरचित डेटासेट दिखाता है बल्कि यह भी ट्रैक करता है कि उनका उपयोग कैसे किया जाता है और उन्हें सबसे उपयुक्त स्टोरेज में ले जाता है, उदाहरण के लिए, ऑन-प्रिमाइसेस फ़ाइल सिस्टम या क्लाउड-आधारित ऑब्जेक्ट स्टोरेज।

अंतिम विचार विश्वसनीयता और डेटा सुरक्षा है, जो किसी भी एंटरप्राइज़-ग्रेड स्टोरेज प्लेटफ़ॉर्म में साथ-साथ चलते हैं। PowerScale सरणियों की अपनी विरासत Isilon और इसके OneFS फ़ाइल सिस्टम में है, जो लंबे समय से आसपास है, और जिस पर दो दशकों से उद्यम, सरकार और शैक्षणिक HPC संस्थानों पर भरोसा किया गया है। OneFS और इसके अंतर्निहित PowerScale हार्डवेयर को 99.9999 प्रतिशत तक उपलब्धता प्रदान करने के लिए डिज़ाइन किया गया है, जबकि अधिकांश क्लाउड स्टोरेज सेवाएँ जो असंरचित डेटा को संभालती हैं, 99.9 प्रतिशत उपलब्धता के लिए सेवा अनुबंधों के लिए भाग्यशाली हैं। पूर्व में एक वर्ष में 31 सेकंड का डाउनटाइम होता है, जबकि बाद वाला ऑफ़लाइन आठ घंटे और 46 मिनट का होता है।

इसके अलावा, PowerScale को अच्छा प्रदर्शन देने और डेटा एक्सेस बनाए रखने के लिए डिज़ाइन किया गया है, भले ही स्टोरेज क्लस्टर में कुछ नोड्स एक घटक विफलता के बाद रखरखाव या मरम्मत के लिए नीचे हैं। (आखिरकार, सभी आईटी उपकरणों के लिए घटक विफलताएं अपरिहार्य हैं।)

लेकिन एक और प्रकार का लचीलापन है जो इन दिनों तेजी से महत्वपूर्ण होता जा रहा है: रैंसमवेयर हमलों से उबरना।

"हमारे पास एपीआई-एकीकृत रैंसमवेयर सुरक्षा है पॉवरस्केल जो वनएफएस फाइल सिस्टम पर संदिग्ध व्यवहार का पता लगाएगा और इसके बारे में प्रशासकों को सचेत करेगा," हेंडरसन कहते हैं। “और हमारे बहुत से ग्राहक अपने सभी डेटा की एक अलग प्रति बनाए रखने के लिए एक भौतिक रूप से अलग, एयर-गैप्ड क्लस्टर सेटअप को लागू कर रहे हैं। साइबर हमले की स्थिति में, आपने केवल उत्पादन संग्रहण बंद कर दिया है और आपके पास आपका डेटा है, और आप बैकअप या संग्रह से पुनर्स्थापित करने का प्रयास नहीं कर रहे हैं, जिसमें दिन या सप्ताह लग सकते हैं - खासकर यदि आप क्लाउड संग्रह से पुनर्स्थापित कर रहे हैं। एक बार जब आप डेटा के पेटाबाइट्स के बारे में बात कर रहे हैं, तो इसमें महीनों लग सकते हैं।

"हम भंडारण प्रतिकृति गति पर जल्दी से बहाल कर सकते हैं, जो बहुत तेज़ है। और आपके पास अपने रैंसमवेयर डिफेंडर समाधान को बहु-क्लाउड वातावरण में होस्ट करने के विकल्प हैं जहां आप सार्वजनिक क्लाउड का लाभ उठाने वाले साइबर इवेंट से अपना डेटा पुनर्प्राप्त कर सकते हैं।

डेल द्वारा प्रायोजित।

प्लेटोए. Web3 फिर से कल्पना की गई। डेटा इंटेलिजेंस प्रवर्धित।
एक्सेस करने के लिए यहां क्लिक करें।

स्रोत: https://go.theregister.com/feed/www.theregister.com/2021/10/12/data_first_dell/

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी

हमारे साथ चैट करें

नमस्ते! मैं आपकी कैसे मदद कर सकता हूँ?