Logo Zephyrnet

Metti i dati al primo posto durante l'implementazione dello storage di file scale-out per sistemi accelerati

Data:

Sponsored È facile dedicare molto tempo a pensare all'elaborazione e all'interconnessione in qualsiasi tipo di carico di lavoro di elaborazione ad alte prestazioni e difficile non dedicare altrettanto tempo a pensare allo storage che supporta quel carico di lavoro. È particolarmente importante pensare al tipo e al volume dei dati che andranno ad alimentare queste applicazioni perché questo, più di ogni altro fattore, determinerà il successo o il fallimento di quel carico di lavoro nel soddisfare le esigenze dell'organizzazione.

È in voga in questi giorni avere una mentalità "cloud first" quando si tratta di infrastruttura IT, ma ciò di cui le organizzazioni hanno veramente bisogno è un atteggiamento "data first" e poi rendersi conto che il cloud è solo un modello di distribuzione con uno schema di prezzi e - forse – un pool di risorse più profondo di quello a cui molte organizzazioni sono abituate. Ma quelle pozze profonde hanno un costo. È abbastanza economico spostare i dati nei cloud o generarli lì e tenerli lì; tuttavia, può essere esorbitante spostare i dati da un cloud in modo che possano essere utilizzati altrove.

Le nuove classi di applicazioni HPC, come la formazione sull'apprendimento automatico e l'analisi dei dati in esecuzione su larga scala, tendono a nutrirsi o a creare set di dati di grandi dimensioni, quindi è importante avere questo atteggiamento in primo luogo sui dati durante la progettazione del sistema. L'unica cosa che non vuoi fare è scoprire da qualche parte tra la prova del concetto e la produzione che hai lo storage sbagliato o, peggio ancora, scoprire che il tuo storage non può tenere il passo con i dati quando arriva un nuovo carico di lavoro produzione ed è un successo selvaggio.

"Quando l'hardware di storage viene aggiunto come soluzione rapida senza una strategia ben congegnata sui requisiti attuali e futuri, spesso sorgono problemi", afferma Brian Henderson, direttore del marketing dei prodotti di storage di dati non strutturati presso Dell Technologies. “Le organizzazioni acquistano alcuni server, collegano dello spazio di archiviazione, avviano il progetto e vedono come va. Questo tipo di approccio porta molto spesso a problemi di scala, problemi di performance, problemi di condivisione dei dati. Ciò di cui queste organizzazioni hanno bisogno è una soluzione di archiviazione file scalabile e flessibile che consenta loro di contenere tutti i loro dati disparati e di connetterli tutti in modo che le parti interessate e le applicazioni possano accedervi e condividerli rapidamente e facilmente".

Pertanto, è importante considerare alcuni requisiti chiave per l'archiviazione dei dati prima che i componenti di elaborazione e di rete siano definiti in un ordine di acquisto.

La prima cosa da considerare è la scalabilità e dovresti presumere la scalabilità fin dall'inizio e quindi trovare un sistema che possa iniziare in piccolo ma crescere abbastanza da contenere i dati e servire sistemi e tipi di dati disparati.

Sebbene sia probabilmente possibile fare affidamento sullo storage interno o su un miscuglio di storage collegato a sistemi o cluster, i carichi di lavoro HPC e AI il più delle volte vengono accelerati dalle GPU di NVIDIA. È meglio presumere che l'elaborazione, lo storage e il networking dovranno scalare man mano che i carichi di lavoro e i set di dati crescono e proliferano. Esistono molti vettori di crescita diversi da considerare e dimenticarne uno può portare a problemi di capacità e prestazioni lungo la strada.

E c'è un elemento ancora più sottile in questo problema di scala di archiviazione che dovrebbe essere considerato. I dati vengono archiviati per sistemi HPC e AI. Le applicazioni HPC richiedono piccole quantità di condizioni iniziali e creano un'enorme simulazione e visualizzazione che rivela qualcosa sul mondo reale, mentre i sistemi di intelligenza artificiale prendono enormi quantità di informazioni, di solito un mix di dati strutturati e non strutturati, e le distillano in un modello che può essere utilizzato per analizzare il mondo reale o reagire ad esso. Questi set di dati iniziali e i relativi modelli devono essere conservati per motivi aziendali, nonché per la governance dei dati e la conformità normativa.

Non puoi buttare via questi dati anche se lo desideri

"Non puoi buttare via questi dati anche se lo desideri", afferma Thomas Henson, responsabile dello sviluppo aziendale globale per l'intelligenza artificiale e l'analisi per il team Unstructured Data Solutions di Dell Technologies. “Non importa quale sia il settore verticale – automobilistico, sanitario, dei trasporti, dei servizi finanziari – potresti trovare un difetto negli algoritmi e il contenzioso è un problema. Dovrai mostrare i dati che sono stati inseriti negli algoritmi che hanno prodotto il risultato difettoso o dimostrare che non è stato così. In una certa misura, il valore di quell'algoritmo sono i dati che sono stati inseriti in esso. E questo è solo un piccolo esempio».

Quindi, per i sistemi ibridi CPU-GPU, è probabilmente meglio presumere che l'archiviazione locale sulle macchine non sarà sufficiente e che sarà necessaria l'archiviazione esterna in grado di contenere molti dati non strutturati. Per motivi economici, poiché l'intelligenza artificiale e alcuni progetti HPC sono ancora in fase di proof of concept, sarà utile iniziare in piccolo ed essere in grado di scalare capacità e prestazioni velocemente e su vettori indipendenti, se necessario.

Gli array all-flash PowerScale che eseguono il file system OneFS di Dell Technologies si adattano a questo profilo di archiviazione. Il sistema di base è disponibile in una configurazione a tre nodi che ha fino a 11 TB di storage grezzo e un prezzo modesto sotto le sei cifre, ed è stato testato nei laboratori fino a 250 nodi in un cluster di storage condiviso che può contenere fino a 96 PB di dati. E Dell Technologies ha clienti che eseguono array PowerScale su una scala molto più elevata di questa, tra l'altro, ma spesso generano cluster separati per ridurre la potenziale area di esplosione di un'interruzione. Il che è estremamente raro.

PowerScale può essere implementato on-premise o può essere esteso in una serie di cloud pubblici con opzioni integrate multi-cloud o cloud native in cui i clienti possono sfruttare ulteriori servizi di elaborazione o altri cloud nativi.

Le prestazioni sono l'altra parte della scala che le aziende devono considerare, e questo è particolarmente importante quando i sistemi vengono accelerati dalle GPU. Sin dai primi giorni del calcolo GPU, NVIDIA ha lavorato per togliere di mezzo la CPU e la sua memoria e per evitare che diventasse il collo di bottiglia che impedisce alle GPU di condividere dati (GPUDirect) mentre eseguono le loro simulazioni o costruiscono i loro modelli o che impedisce alle GPU di accedere alla memoria velocemente (GPUDirect Storage).

Se l'archiviazione esterna è una necessità per tali sistemi con accelerazione GPU (non è possibile che i server con quattro o otto GPU dispongano di spazio di archiviazione sufficiente per contenere i set di dati elaborati dalla maggior parte delle applicazioni HPC e AI), allora sembra chiaro che qualunque cosa sia l'archiviazione deve parlare GPUDirect Storage e parla velocemente.

Il precedente detentore del record era Pavilion Data, che ha testato un array di archiviazione da 2.2 PB e è stato in grado di leggere i dati in un sistema DGX-A100 basato sulle nuove GPU "Ampere" A100 a 191 GB/sec in modalità file. In laboratorio, Dell Technologies sta dando gli ultimi ritocchi ai suoi test di benchmark GPUDirect Storage in esecuzione su array PowerScale e afferma che può aumentare notevolmente le prestazioni, almeno a 252 GB/sec. E poiché PowerScale può scalare fino a 252 nodi in un singolo spazio dei nomi, non si ferma qui e può scalare ben oltre, se necessario.

"Il punto è che sappiamo come ottimizzare per questi ambienti di elaborazione GPU", afferma Henderson. Ed ecco una dichiarazione più generale sulle prestazioni dei sistemi con accelerazione GPU che eseguono carichi di lavoro AI e sulle prestazioni dello storage PowerScale:

L'ampiezza del supporto per vari tipi di sistemi è un'altra cosa da considerare durante l'architettura di un sistema ibrido CPU-GPU. La natura stessa dell'archiviazione condivisa deve essere condivisa ed è importante essere in grado di utilizzare i dati sull'archiviazione condivisa per altre applicazioni. Gli array PowerScale sono stati integrati con oltre 250 applicazioni e sono certificati come supportati su molti tipi di sistemi. Questo è uno dei motivi per cui lo storage Isilon e PowerScale ha oltre 15,000 clienti in tutto il mondo.

Il calcolo ad alte prestazioni va oltre le prestazioni, in particolare in un ambiente aziendale in cui le risorse sono limitate e il controllo di sistemi e dati è assolutamente fondamentale. Quindi la prossima cosa da considerare nell'architettura dello storage per i sistemi con accelerazione GPU è la gestione dello storage.

Attrezzato

Su questo fronte, Dell Technologies offre una serie di strumenti alla festa. Il primo è InsightIQ, che esegue report e monitoraggio dello storage molto specifici e dettagliati per PowerScale e il suo predecessore, l'array di storage Isilon.

Un altro strumento si chiama CloudIQ, che utilizza tecniche di machine learning e analisi predittiva che monitorano e aiutano a gestire l'intera gamma di prodotti per l'infrastruttura Dell Technologies, tra cui PowerStore, PowerMax, PowerScale, PowerVault, Unity XT, XtremIO e serie SC, nonché server PowerEdge e converged e hyperconverged piattaforme come VxBlock, VxRail e PowerFlex.

E infine c'è DatiIQ, un software di monitoraggio dell'archiviazione e gestione di set di dati per dati non strutturati che fornisce una vista unificata di set di dati non strutturati su array PowerScale, PowerMax e PowerStore, nonché archiviazione cloud dai grandi cloud pubblici. DataIQ non mostra solo i set di dati non strutturati, ma tiene anche traccia di come vengono utilizzati e li sposta nello spazio di archiviazione più appropriato, ad esempio, file system in sede o archiviazione di oggetti basata su cloud.

L'ultima considerazione è l'affidabilità e la protezione dei dati, che vanno di pari passo in qualsiasi piattaforma di storage di livello aziendale. Gli array PowerScale hanno la loro eredità in Isilon e nel suo file system OneFS, che esiste da molto tempo e che è stato considerato affidabile nelle istituzioni HPC aziendali, governative e accademiche per due decenni. OneFS e il relativo hardware PowerScale sottostante sono progettati per offrire una disponibilità fino al 99.9999%, mentre la maggior parte dei servizi di cloud storage che gestiscono dati non strutturati sono fortunati ad avere contratti di servizio per una disponibilità del 99.9%. Il primo ha 31 secondi di inattività all'anno, mentre il secondo è offline otto ore e 46 minuti.

Inoltre, PowerScale è progettato per fornire buone prestazioni e mantenere l'accesso ai dati anche se alcuni dei nodi del cluster di archiviazione sono inattivi per manutenzione o si riparano dopo un guasto di un componente. (Dopo tutto, i guasti dei componenti sono inevitabili per tutte le apparecchiature IT.)

Ma c'è un altro tipo di resilienza che sta diventando sempre più importante in questi giorni: il recupero dagli attacchi ransomware.

"Abbiamo una protezione ransomware integrata nelle API per Scala di potenza che rileverà comportamenti sospetti sul file system OneFS e avviserà gli amministratori al riguardo", afferma Henderson. “E molti dei nostri clienti stanno implementando una configurazione di cluster fisicamente separata e air gap per mantenere una copia separata di tutti i loro dati. In caso di attacco informatico, è sufficiente arrestare l'archiviazione di produzione e disporre dei propri dati e non si sta tentando di eseguire il ripristino da backup o archivi, operazione che potrebbe richiedere giorni o settimane, in particolare se si esegue il ripristino da archivi cloud. Una volta che parli di petabyte di dati, potrebbero volerci mesi.

“Possiamo ripristinare rapidamente, a velocità di replica dello storage, che è molto, molto veloce. E hai opzioni per ospitare la tua soluzione di difesa ransomware in ambienti multi-cloud in cui puoi recuperare i tuoi dati da un evento informatico sfruttando un cloud pubblico".

Sponsorizzato da Dell.

Platone Ai. Web3 reinventato. Intelligenza dei dati amplificata.
Clicca qui per accedere.

Fonte: https://go.theregister.com/feed/www.theregister.com/2021/10/12/data_first_dell/

spot_img

L'ultima intelligenza

spot_img

Parla con noi

Ciao! Come posso aiutarla?