Λογότυπο Zephyrnet

Βάλτε πρώτα τα δεδομένα κατά την ανάπτυξη του χώρου αποθήκευσης αρχείων για επιταχυνόμενα συστήματα

Ημερομηνία:

ΧΟΡΗΓΟΥΜΕΝΟΙ Είναι εύκολο να αφιερώσετε πολύ χρόνο σκεπτόμενοι τον υπολογισμό και να διασυνδεθείτε σε κάθε είδους υπολογιστικό φόρτο εργασίας υψηλής απόδοσης - και δύσκολο να μην αφιερώσετε τόσο πολύ χρόνο σκεπτόμενος τον αποθηκευτικό χώρο που υποστηρίζει αυτόν τον φόρτο εργασίας. Είναι ιδιαίτερα σημαντικό να σκεφτούμε τον τύπο και τον όγκο των δεδομένων που θα τροφοδοτήσουν αυτές τις εφαρμογές, επειδή αυτό, περισσότερο από οποιονδήποτε άλλο παράγοντα, θα καθορίσει την επιτυχία ή την αποτυχία αυτού του φόρτου εργασίας στην κάλυψη των αναγκών του οργανισμού.

Είναι στη μόδα αυτές τις μέρες να έχουμε μια νοοτροπία «πρώτα σύννεφο» όταν πρόκειται για υποδομή πληροφορικής, αλλά αυτό που πραγματικά χρειάζονται οι οργανισμοί είναι μια στάση «πρώτα δεδομένα» και στη συνέχεια να συνειδητοποιήσουμε ότι το cloud είναι απλώς ένα μοντέλο ανάπτυξης με ένα σύστημα τιμολόγησης και - ίσως - μια βαθύτερη δεξαμενή πόρων από ό, τι έχουν συνηθίσει πολλοί οργανισμοί. Αλλά αυτές οι βαθιές λίμνες έχουν κόστος. Είναι αρκετά φθηνό να μεταφέρετε δεδομένα σε σύννεφα ή να τα δημιουργείτε εκεί και να τα διατηρείτε εκεί. Ωστόσο, μπορεί να είναι υπερβολικά ακριβό να μεταφέρετε δεδομένα από ένα σύννεφο, ώστε να μπορεί να χρησιμοποιηθεί αλλού.

Οι νέες κατηγορίες εφαρμογών HPC, όπως η εκπαίδευση μηχανικής εκμάθησης και η ανάλυση δεδομένων σε κλίμακα, τείνουν να τροφοδοτούνται ή να δημιουργούν μεγάλα σύνολα δεδομένων, οπότε είναι σημαντικό να έχουμε αυτήν την πρώτη στάση δεδομένων, καθώς το σύστημα αρχιτεκτονίζεται. Το μόνο πράγμα που δεν θέλετε να κάνετε είναι να μάθετε κάπου μεταξύ απόδειξης της ιδέας και της παραγωγής ότι έχετε λάθος αποθηκευτικό χώρο - ή ακόμα χειρότερα, μάθετε ότι ο αποθηκευτικός σας χώρος δεν μπορεί να συμβαδίσει με τα δεδομένα καθώς ο νέος φόρτος εργασίας κυλά παραγωγή και είναι άγρια ​​επιτυχία.

"Όταν το υλικό αποθήκευσης προστίθεται ως γρήγορη λύση χωρίς μια καλά μελετημένη στρατηγική γύρω από τις τρέχουσες και μελλοντικές απαιτήσεις, συχνά θα προκύψουν προβλήματα", λέει ο Brian Henderson, διευθυντής μάρκετινγκ προϊόντων χωρίς δομή αποθήκευσης δεδομένων στην Dell Technologies. «Οι οργανισμοί αγοράζουν μερικούς διακομιστές, επισυνάπτουν αποθηκευτικό χώρο, ξεκινούν το έργο και βλέπουν πώς θα πάει. Αυτός ο τύπος προσέγγισης οδηγεί πολύ συχνά σε προβλήματα κλίμακας, προβλήματα απόδοσης, προβλήματα ανταλλαγής δεδομένων. Αυτό που χρειάζονται αυτοί οι οργανισμοί είναι μια ευέλικτη λύση αποθήκευσης αρχείων που τους επιτρέπει να περιέχουν όλα τα διαφορετικά δεδομένα τους και να τα συνδέουν όλα, έτσι ώστε τα ενδιαφερόμενα μέρη και οι εφαρμογές να μπορούν να έχουν γρήγορη και εύκολη πρόσβαση και να τα μοιράζονται ».

Επομένως, είναι σημαντικό να ληφθούν υπόψη ορισμένες βασικές απαιτήσεις αποθήκευσης δεδομένων πριν από τον καθορισμό των στοιχείων υπολογισμού και δικτύωσης σε μια παραγγελία αγοράς.

Το πρώτο πράγμα που πρέπει να λάβετε υπόψη είναι η κλίμακα και θα πρέπει να υπολογίσετε την κλίμακα από την αρχή και στη συνέχεια να βρείτε ένα σύστημα που μπορεί να ξεκινήσει μικρό αλλά να μεγαλώσει αρκετά ώστε να περιέχει τα δεδομένα και να εξυπηρετεί διαφορετικά συστήματα και τύπους δεδομένων.

Παρόλο που είναι πιθανό να βασιστεί κανείς σε εσωτερική αποθήκευση ή σε έναν αποθηκευτικό χώρο που συνδέεται με συστήματα ή ομάδες, ο φόρτος εργασίας HPC και AI τις περισσότερες φορές επιταχύνεται από GPU της NVIDIA. Είναι καλύτερο να υποθέσουμε ότι ο υπολογισμός, η αποθήκευση και η δικτύωση θα πρέπει να κλιμακώνονται καθώς ο φόρτος εργασίας και τα σύνολα δεδομένων αυξάνονται και πολλαπλασιάζονται. Υπάρχουν πολλοί διαφορετικοί φορείς ανάπτυξης που πρέπει να λάβετε υπόψη και ξεχνώντας κάποιο από αυτά μπορεί να οδηγήσει σε προβλήματα ικανότητας και απόδοσης στο δρόμο.

Και υπάρχει ένα ακόμη πιο λεπτό στοιχείο σε αυτό το ζήτημα κλίμακας αποθήκευσης που πρέπει να εξεταστεί. Τα δεδομένα αρχειοθετούνται τόσο για συστήματα HPC όσο και για συστήματα AI. Οι εφαρμογές HPC λαμβάνουν μικρές ποσότητες αρχικών συνθηκών και δημιουργούν μια τεράστια προσομοίωση και απεικόνιση που αποκαλύπτει κάτι για τον πραγματικό κόσμο, ενώ τα συστήματα AI λαμβάνουν τεράστιες ποσότητες πληροφοριών - συνήθως ένα μείγμα δομημένων και αδόμητων δεδομένων - και τις αποστάζουν σε ένα μοντέλο που μπορεί να χρησιμοποιείται για να αναλύσει τον πραγματικό κόσμο ή να αντιδράσει σε αυτόν. Αυτά τα αρχικά σύνολα δεδομένων και τα μοντέλα τους πρέπει να διατηρούνται για επιχειρηματικούς λόγους, καθώς και για τη διακυβέρνηση δεδομένων και τη συμμόρφωση με τους κανονισμούς.

Δεν μπορείτε να πετάξετε αυτά τα δεδομένα ακόμα κι αν το θέλετε

"Δεν μπορείτε να πετάξετε αυτά τα δεδομένα ακόμη και αν το θέλετε", λέει ο Thomas Henson, ο οποίος είναι παγκόσμιος διευθυντής ανάπτυξης επιχειρήσεων για AI και analytics για την ομάδα Unstructured Data Solutions της Dell Technologies. «Ανεξάρτητα από τον κλάδο της αυτοκινητοβιομηχανίας, της υγειονομικής περίθαλψης, των μεταφορών, των χρηματοπιστωτικών υπηρεσιών - μπορεί να βρείτε ένα ελάττωμα στους αλγορίθμους και η διαφορά είναι ένα ζήτημα. Θα πρέπει να δείξετε τα δεδομένα που τροφοδοτήθηκαν με αλγόριθμους που παρήγαγαν το ελαττωματικό αποτέλεσμα ή να αποδείξετε ότι δεν συνέβη. Σε κάποιο βαθμό, η αξία αυτού του αλγορίθμου είναι τα δεδομένα που τροφοδοτήθηκαν σε αυτόν. Και αυτό είναι μόνο ένα μικρό παράδειγμα ».

Έτσι, για τα υβριδικά συστήματα CPU-GPU, είναι ίσως καλύτερο να υποθέσουμε ότι η τοπική αποθήκευση στα μηχανήματα δεν θα είναι αρκετή και ότι θα χρειαστεί εξωτερική αποθήκευση ικανή να κρατήσει πολλά μη δομημένα δεδομένα. Για οικονομικούς λόγους, καθώς η τεχνητή νοημοσύνη και ορισμένα έργα HPC εξακολουθούν να αποδεικνύουν φάσεις έννοιας, θα ήταν χρήσιμο να ξεκινήσουμε από μικρή και να είμαστε σε θέση να κλιμακώσουμε τη χωρητικότητα και την απόδοση γρήγορα και σε ανεξάρτητα διανύσματα, εάν είναι απαραίτητο.

Οι συστοιχίες all-flash PowerScale που εκτελούν το σύστημα αρχείων OneFS από την Dell Technologies ταιριάζουν σε αυτό το προφίλ αποθήκευσης. Το βασικό σύστημα έρχεται σε μια διαμόρφωση τριών κόμβων που έχει έως 11 TB αποθήκευσης ακατέργαστου και μια μέτρια τιμή κάτω από έξι αριθμούς και έχει δοκιμαστεί στα εργαστήρια έως και 250 κόμβους σε ένα κοινό σύμπλεγμα αποθήκευσης που μπορεί να χωρέσει έως και 96 PB δεδομένων. Και η Dell Technologies έχει πελάτες που τρέχουν συστοιχίες PowerScale σε πολύ μεγαλύτερη κλίμακα από αυτήν, παρεμπιπτόντως, αλλά συχνά δημιουργούν χωριστές ομάδες για να μειώσουν την πιθανή έκρηξη μιας διακοπής. Το οποίο είναι εξαιρετικά σπάνιο.

Το PowerScale μπορεί να αναπτυχθεί σε εσωτερικούς χώρους ή μπορεί να επεκταθεί σε πολλά δημόσια σύννεφα με ενσωματωμένες επιλογές πολλαπλών σύννεφων ή εγγενών cloud, όπου οι πελάτες μπορούν να επωφεληθούν από πρόσθετες υπολογιστικές ή άλλες εγγενείς υπηρεσίες cloud.

Η απόδοση είναι το άλλο μέρος της κλίμακας που πρέπει να λάβουν υπόψη οι εταιρείες και αυτό είναι ιδιαίτερα σημαντικό όταν τα συστήματα επιταχύνονται από GPU. Από τις πρώτες μέρες του υπολογισμού GPU, η NVIDIA εργάστηκε για να απομακρύνει την CPU και τη μνήμη της και να μην γίνει το εμπόδιο που εμποδίζει τους GPU να μοιράζονται δεδομένα (GPUDirect) καθώς εκτελούν τις προσομοιώσεις τους ή κατασκευάζουν τα μοντέλα τους ή που εμποδίζει τις GPU να μην έχουν γρήγορη πρόσβαση στο χώρο αποθήκευσης (GPUDirect Storage).

Εάν η εξωτερική αποθήκευση είναι απαραίτητη για τέτοια επιταχυνόμενα συστήματα GPU - δεν υπάρχει περίπτωση οι διακομιστές με τέσσερις ή οκτώ GPU να έχουν αρκετό αποθηκευτικό χώρο για να διατηρήσουν τα σύνολα δεδομένων που επεξεργάζονται οι περισσότερες εφαρμογές HPC και AI - τότε φαίνεται ξεκάθαρο ότι ό, τι αυτός ο αποθηκευτικός χώρος πρέπει να μιλάει GPUDirect Storage και μιλήστε το γρήγορα.

Ο προηγούμενος κάτοχος ρεκόρ ήταν το Pavilion Data, το οποίο δοκίμασε μια συστοιχία αποθήκευσης 2.2 PB και ήταν σε θέση να διαβάσει δεδομένα σε ένα σύστημα DGX-A100 βασισμένο στις νέες GPU "Ampere" A100 στα 191 GB/sec σε λειτουργία αρχείουΤο Στο εργαστήριο, η Dell Technologies βάζει τις τελευταίες πινελιές στις δοκιμές αναφοράς GPUDirect Storage που εκτελούνται σε συστοιχίες PowerScale και λέει ότι μπορεί να αυξήσει την απόδοση σημαντικά υψηλότερα, τουλάχιστον στα 252 GB/sec. Και δεδομένου ότι το PowerScale μπορεί να κλιμακωθεί σε 252 κόμβους σε έναν ενιαίο χώρο ονομάτων, δεν σταματά εκεί και μπορεί να κλιμακωθεί πολύ περισσότερο από αυτό εάν χρειαστεί.

"Το θέμα είναι ότι ξέρουμε πώς να βελτιστοποιήσουμε αυτά τα περιβάλλοντα υπολογισμού GPU", λέει ο Henderson. Και εδώ είναι μια γενικότερη δήλωση σχετικά με την απόδοση των επιταχυνόμενων GPU συστημάτων που εκτελούν φόρτους εργασίας AI και πώς λειτουργεί ο χώρος αποθήκευσης PowerScale:

Το εύρος της υποστήριξης για διάφορα είδη συστημάτων είναι ένα άλλο πράγμα που πρέπει να λάβετε υπόψη κατά την αρχιτεκτονική ενός υβριδικού συστήματος CPU-GPU. Η ίδια η φύση του κοινόχρηστου χώρου αποθήκευσης πρέπει να γίνεται κοινή χρήση και είναι σημαντικό να μπορείτε να χρησιμοποιείτε τα δεδομένα στον κοινόχρηστο χώρο αποθήκευσης για άλλες εφαρμογές. Οι συστοιχίες PowerScale έχουν ενσωματωθεί με περισσότερες από 250 εφαρμογές και έχουν πιστοποιηθεί ότι υποστηρίζονται σε πολλά είδη συστημάτων. Αυτός είναι ένας από τους λόγους που ο χώρος αποθήκευσης Isilon και PowerScale έχει πάνω από 15,000 πελάτες παγκοσμίως.

Οι υπολογιστές υψηλής απόδοσης είναι κάτι παραπάνω από επιδόσεις, ιδιαίτερα σε ένα περιβάλλον επιχείρησης όπου οι πόροι είναι περιορισμένοι και ο έλεγχος συστημάτων και δεδομένων είναι απολύτως κρίσιμος. Επομένως, το επόμενο πράγμα που πρέπει να ληφθεί υπόψη κατά την αρχιτεκτονική του χώρου αποθήκευσης για συστήματα που επιταχύνονται με GPU είναι η διαχείριση αποθήκευσης.

Πάρε πολύ

Σε αυτό το μέτωπο, η Dell Technologies φέρνει μια σειρά από εργαλεία στο πάρτι. Το πρώτο είναι InsightIQ, το οποίο κάνει πολύ συγκεκριμένη και λεπτομερή παρακολούθηση και αναφορά αποθήκευσης για το PowerScale και τον προκάτοχό του, τον πίνακα αποθήκευσης Isilon.

Ένα άλλο εργαλείο ονομάζεται CloudIQ, η οποία χρησιμοποιεί μηχανική μάθηση και τεχνικές προγνωστικής ανάλυσης που παρακολουθούν και βοηθούν στη διαχείριση ολόκληρης της γκάμας προϊόντων υποδομής Dell Technologies, όπως PowerStore, PowerMax, PowerScale, PowerVault, Unity XT, XtremIO και SC Series, καθώς και PowerEdge Servers και συγκλίνουσες και υπερσυγκεντρωμένες πλατφόρμες όπως VxBlock, VxRail και PowerFlex.

Και τέλος, υπάρχει DataIQ, ένα λογισμικό παρακολούθησης και διαχείρισης δεδομένων για μη δομημένα δεδομένα, το οποίο παρέχει μια ενοποιημένη προβολή μη δομημένων συνόλων δεδομένων σε συστοιχίες PowerScale, PowerMax και PowerStore, καθώς και αποθήκευση στο cloud από τα μεγάλα δημόσια σύννεφα. Το DataIQ δεν σας δείχνει μόνο τα μη δομημένα σύνολα δεδομένων, αλλά παρακολουθεί τον τρόπο χρήσης τους και τα μεταφέρει στον πιο κατάλληλο χώρο αποθήκευσης, για παράδειγμα, συστήματα αρχείων εσωτερικού χώρου ή αποθήκευση αντικειμένων που βασίζονται σε σύννεφο.

Το τελευταίο ζήτημα είναι η αξιοπιστία και η προστασία δεδομένων, τα οποία συμβαδίζουν σε οποιαδήποτε πλατφόρμα αποθήκευσης επιχειρηματικού επιπέδου. Οι συστοιχίες PowerScale έχουν την κληρονομιά τους στο Isilon και το σύστημα αρχείων OneFS, το οποίο υπάρχει εδώ και πολύ καιρό και το οποίο έχει εμπιστοσύνη σε επιχειρήσεις, κυβερνήσεις και ακαδημαϊκά ιδρύματα HPC εδώ και δύο δεκαετίες. Το OneFS και το βασικό του υλικό PowerScale έχουν σχεδιαστεί για να προσφέρουν έως και 99.9999 τοις εκατό διαθεσιμότητα, ενώ οι περισσότερες υπηρεσίες αποθήκευσης cloud που χειρίζονται μη δομημένα δεδομένα είναι τυχερές που έχουν συμφωνίες υπηρεσιών για διαθεσιμότητα 99.9 τοις εκατό. Το πρώτο έχει 31 δευτερόλεπτα διακοπής λειτουργίας το χρόνο, ενώ το δεύτερο είναι εκτός σύνδεσης οκτώ ώρες και 46 λεπτά.

Επιπλέον, το PowerScale έχει σχεδιαστεί για να παρέχει καλές επιδόσεις και να διατηρεί την πρόσβαση στα δεδομένα ακόμη και αν ορισμένοι από τους κόμβους στο σύμπλεγμα αποθήκευσης είναι εκτός λειτουργίας για συντήρηση ή επισκευή μετά από βλάβη ενός εξαρτήματος. (Εξάλλου, οι βλάβες των εξαρτημάτων είναι αναπόφευκτες για όλο τον εξοπλισμό πληροφορικής.)

Υπάρχει όμως ένα άλλο είδος ανθεκτικότητας που γίνεται όλο και πιο σημαντικό αυτές τις μέρες: η ανάκτηση από επιθέσεις ransomware.

«Έχουμε ενσωματωμένο API προστασία ransomware για Κλίμακα PowerScale που θα ανιχνεύσει ύποπτη συμπεριφορά στο σύστημα αρχείων OneFS και θα ειδοποιήσει τους διαχειριστές για αυτό », λέει ο Henderson. «Και πολλοί από τους πελάτες μας εφαρμόζουν μια φυσική χωριστή ρύθμιση συμπλέγματος για να διατηρήσουν ένα ξεχωριστό αντίγραφο όλων των δεδομένων τους. Σε περίπτωση κυβερνοεπίθεσης, απλώς κλείνετε τον αποθηκευτικό χώρο παραγωγής και διαθέτετε τα δεδομένα σας και δεν προσπαθείτε να επαναφέρετε από αντίγραφα ασφαλείας ή αρχεία, τα οποία θα μπορούσαν να διαρκέσουν ημέρες ή εβδομάδες - ιδιαίτερα εάν κάνετε επαναφορά από αρχεία cloud. Μόλις μιλάτε για petabytes δεδομένων, αυτό μπορεί να διαρκέσει μήνες.

«Μπορούμε να επαναφέρουμε γρήγορα, με ταχύτητες αντιγραφής αποθήκευσης, κάτι που είναι πολύ, πολύ γρήγορο. Και έχετε επιλογές για να φιλοξενήσετε τη λύση ransomware defender σε περιβάλλοντα πολλών cloud, όπου μπορείτε να ανακτήσετε τα δεδομένα σας από ένα κυβερνοεκδήλωση με τη χρήση δημόσιου cloud. "

Χορηγός της Dell.

Πλάτωνας. Επανεκτίμησε το Web3. Ενισχυμένη ευφυΐα δεδομένων.
Κάντε κλικ εδώ για πρόσβαση.

Πηγή: https://go.theregister.com/feed/www.theregister.com/2021/10/12/data_first_dell/

spot_img

Τελευταία Νοημοσύνη

spot_img