Zephyrnet-logo

Sett data først når du distribuerer utskalingsfillagring for akselererte systemer

Dato:

Sponset Det er lett å bruke mye tid på å tenke på databehandlingen og sammenkoblingen i enhver form for høyytelses datamaskinarbeidsbelastning - og vanskelig å ikke bruke like mye tid på å tenke på lagringen som støtter denne arbeidsmengden. Det er spesielt viktig å tenke på typen og volumet av dataene som vil mates inn i disse programmene fordi dette, mer enn noen annen faktor, vil avgjøre suksessen eller fiaskoen for denne arbeidsmengden for å møte behovene til organisasjonen.

Det er på moten i disse dager å ha en "sky først" -mentalitet når det gjelder IT -infrastruktur, men det organisasjoner virkelig trenger er en "data først" -innstilling og deretter innse at skyen bare er en distribusjonsmodell med en prisordning og - kanskje - en dypere ressursmengde enn mange organisasjoner er vant til. Men de dype bassengene koster noe. Det er ganske billig å flytte data til skyer eller generere det der og beholde det der; Imidlertid kan det være ublu dyrt å flytte data fra en sky, slik at de kan brukes andre steder.

De nye klassene med HPC -applikasjoner, for eksempel maskinlæringstrening og dataanalyse som kjører i stor skala, har en tendens til å mate på eller lage store datasett, så det er viktig å ha disse dataene først når systemet bygges opp. Den eneste tingen du ikke vil gjøre er å finne ut et sted mellom bevis på konsept og produksjon at du har feil lagring - eller enda verre, finn ut at lagringen din ikke kan følge med dataene etter hvert som en ny arbeidsmengde ruller inn produksjon og er en vill suksess.

"Når lagringsmaskinvare legges til som en hurtig løsning uten en gjennomtenkt strategi rundt nåværende og fremtidige krav, vil det ofte oppstå problemer," sier Brian Henderson, direktør for ustrukturert datalagringsproduktmarkedsføring hos Dell Technologies. “Organisasjoner kjøper noen servere, kobler til litt lagringsplass, starter prosjektet og ser hvordan det går. Denne typen tilnærminger fører veldig ofte til problemer med skala, ytelsesproblemer, problemer med å dele data. Det disse organisasjonene trenger er en fleksibel skaleringsløsning for utskalning av filer som gjør at de kan inneholde alle sine forskjellige data og koble dem sammen, slik at interessenter og applikasjoner raskt og enkelt kan få tilgang til og dele den. "

Så det er viktig å vurdere noen viktige krav til datalagring før beregning og nettverkskomponenter settes i stein i en bestilling.

Det første du bør vurdere er skala, og du bør anta skala fra start og deretter finne et system som kan starte i det små, men vokse seg stort nok til å inneholde dataene og betjene forskjellige systemer og datatyper.

Selv om det sannsynligvis er mulig å stole på intern lagring eller en mengde lagring knyttet til systemer eller klynger, blir HPC- og AI -arbeidsbelastninger oftere enn ikke akselerert av GPUer fra NVIDIA. Det er best å anta at beregning, lagring og nettverk må skaleres etter hvert som arbeidsmengder og datasett vokser og formerer seg. Det er mange forskjellige vekstvektorer å vurdere, og å glemme noen av dem kan føre til kapasitets- og ytelsesproblemer underveis.

Og det er et enda mer subtilt element i denne lagringsskala -saken som bør vurderes. Data er arkivert for både HPC- og AI -systemer. HPC -applikasjoner tar små mengder innledende forhold og skaper en massiv simulering og visualisering som avslører noe om den virkelige verden, mens AI -systemer tar enorme mengder informasjon - vanligvis en blanding av strukturerte og ustrukturerte data - og destillerer den til en modell som kan brukes til å analysere den virkelige verden eller reagere på den. Disse første datasettene og modellene deres må bevares av forretningsmessige årsaker, samt datastyring og forskriftsmessig overholdelse.

Du kan ikke kaste disse dataene selv om du vil

"Du kan ikke kaste disse dataene selv om du vil," sier Thomas Henson, som er global forretningsutviklingssjef for AI og analyse for Unstructured Data Solutions -teamet hos Dell Technologies. "Uansett hvilken vertikal industri - bil, helse, transport, finansielle tjenester - kan du finne en feil i algoritmene og rettssaker er et problem. Du må vise dataene som ble matet inn i algoritmer som ga det defekte resultatet eller bevise at det ikke gjorde det. Til en viss grad er verdien av den algoritmen dataene som ble matet inn i den. Og det er bare et lite eksempel. ”

Så for hybrid CPU-GPU-systemer er det sannsynligvis best å anta at lokal lagring på maskinene ikke vil være tilstrekkelig, og at ekstern lagring som kan holde mange ustrukturerte data vil være nødvendig. Av økonomiske årsaker, ettersom AI og noen HPC -prosjekter fortsatt er bevis på konseptfaser, vil det være nyttig å starte i det små og kunne skalere kapasitet og ytelse raskt og på uavhengige vektorer, om nødvendig.

PowerScale all-flash-matriser som kjører OneFS-filsystemet fra Dell Technologies passer til denne lagringsprofilen. Basissystemet kommer i en konfigurasjon med tre noder som har opptil 11 TB rå lagring og en beskjeden pris under seks tall, og har blitt testet i laboratoriene opptil 250 noder i en delt lagringsklynge som kan inneholde opptil 96 PB av data. Og Dell Technologies har forresten kunder som kjører PowerScale -matriser i en mye høyere skala enn dette, men de skaper ofte separate klynger for å redusere det potensielle eksplosjonsområdet for et strømbrudd. Som er ekstremt sjelden.

PowerScale kan distribueres lokalt, eller den kan utvides til en rekke offentlige skyer med multi-cloud eller native cloud-integrerte alternativer der kundene kan dra nytte av ekstra computing eller andre native cloud-tjenester.

Ytelse er den andre delen av skalaen som selskaper må vurdere, og dette er spesielt viktig når systemene akselereres av GPUer. Helt siden de første dagene med GPU -beregning har NVIDIA jobbet med å få CPU og minnet ut av veien og for å hindre at det blir flaskehalsen som hindrer GPUer i å dele data (GPUDirect) mens de kjører simuleringene sine eller bygger sine modeller eller som forhindrer at GPUer får tilgang til lagring lynrask (GPUDirect Storage).

Hvis ekstern lagring er en nødvendighet for slike GPU -akselererte systemer - det er ingen måte at servere med fire eller åtte GPUer vil ha nok lagringsplass til å holde datasettene som de fleste HPC- og AI -applikasjoner behandler - så virker det klart at uansett hvilken lagring det må snakke GPUDirect Storage og snakk det raskt.

Den forrige rekordholderen var Pavilion Data, som testet en lagringsgruppe på 2.2 PB og klarte å lese data i et DGX-A100-system basert på de nye "Ampere" A100 GPU-ene med 191 GB/sek i filmodus. I laboratoriet legger Dell Technologies siste hånd på sine benchmark -tester for GPUDirect Storage som kjører på PowerScale -matriser og sier at det kan presse ytelsen betraktelig høyere, minst til 252 GB/sek. Og siden PowerScale kan skalere til 252 noder i et enkelt navneområde, stopper det ikke der og kan skalere langt utover det om nødvendig.

"Poenget er at vi vet hvordan vi kan optimalisere for disse GPU -datamaskinmiljøene," sier Henderson. Og her er en mer generell uttalelse om ytelsen til GPU-akselererte systemer som kjører AI-arbeidsmengder og hvordan PowerScale-lagring utfører:

Bredden av støtte for ulike typer systemer er en annen ting å vurdere når du bygger et hybrid CPU-GPU-system. Selve arten av delt lagring er å dele, og det er viktig å kunne bruke dataene på den delte lagringen for andre applikasjoner. PowerScale -matrisene er integrert med over 250 applikasjoner og er sertifisert som støttet på mange typer systemer. Dette er en av grunnene til at Isilon og PowerScale -lagring har over 15,000 XNUMX kunder over hele verden.

Datamaskin med høy ytelse handler om mer enn ytelse, spesielt i et bedriftsmiljø der ressurser er begrenset og det er helt avgjørende å ha kontroll over systemer og data. Så den neste tingen som må vurderes ved å konstruere lagringen for GPU-akselererte systemer, er lagringsadministrasjon.

Verktøy

På denne fronten bringer Dell Technologies en rekke verktøy til festen. Den første er InsightIQ, som gjør veldig spesifikk og detaljert lagringsovervåking og rapportering for PowerScale og forgjengeren, Isilon -lagringsgruppen.

Et annet verktøy kalles CloudIQ, som bruker maskinlæring og prediktive analyseteknikker som overvåker og hjelper til med å administrere hele spekteret av Dell Technologies infrastrukturprodukter, inkludert PowerStore, PowerMax, PowerScale, PowerVault, Unity XT, XtremIO og SC Series, samt PowerEdge -servere og konvergerte og hyperkonvergerte plattformer som VxBlock, VxRail og PowerFlex.

Og til slutt er det DataIQ, en programvare for overvåking av lagring og datasett for ustrukturerte data som gir et enhetlig overblikk over ustrukturerte datasett på tvers av PowerScale-, PowerMax- og PowerStore -matriser, samt skylagring fra de store offentlige skyene. DataIQ viser deg ikke bare de ustrukturerte datasettene, men holder også oversikt over hvordan de brukes og flytter dem til den mest passende lagringen, for eksempel lokale filsystemer eller skybasert objektlagring.

Den siste vurderingen er pålitelighet og databeskyttelse, som går hånd i hånd i enhver lagringsplattform i bedriftsklasse. PowerScale -matrisene har sin arv i Isilon og OneFS -filsystemet, som har eksistert lenge, og som har vært klarert i foretak, myndigheter og akademiske HPC -institusjoner i to tiår. OneFS og den underliggende PowerScale -maskinvaren er designet for å levere opptil 99.9999 prosent tilgjengelighet, mens de fleste skylagringstjenester som håndterer ustrukturerte data er heldige som har serviceavtaler for 99.9 prosent tilgjengelighet. Førstnevnte har 31 sekunders nedetid i året, mens sistnevnte er offline åtte timer og 46 minutter.

Videre er PowerScale designet for å gi god ytelse og opprettholde datatilgang selv om noen av nodene i lagringsklyngen er nede for vedlikehold eller reparasjon av seg selv etter en komponentfeil. (Tross alt er komponentfeil uunngåelig for alt IT -utstyr.)

Men det er en annen form for spenst som blir stadig viktigere i disse dager: utvinning fra ransomware -angrep.

“Vi har API-integrert ransomware-beskyttelse for PowerScale som vil oppdage mistenkelig oppførsel på OneFS -filsystemet og varsle administratorer om det, sier Henderson. "Og mange av våre kunder implementerer et fysisk separat, luftgapet klyngeoppsett for å opprettholde en egen kopi av alle dataene deres. I tilfelle cyberangrep slår du bare av produksjonslageret, og du har dataene dine, og du prøver ikke å gjenopprette fra sikkerhetskopier eller arkiver, noe som kan ta dager eller uker - spesielt hvis du gjenoppretter fra skyarkiver. Når du snakker om petabyte med data, kan det ta måneder.

“Vi kan gjenopprette raskt, med lagringsreplikasjonshastigheter, noe som er veldig, veldig raskt. Og du har muligheter til å være vert for løsningen din for ransomware-forsvarere i miljøer med flere skyer, der du kan gjenopprette dataene dine fra en cyberhendelse som utnytter en offentlig sky. ”

Sponset av Dell.

PlatonAi. Web3 Reimagined. Data Intelligence Amplified.
Klikk her for å få tilgang.

Kilde: https://go.theregister.com/feed/www.theregister.com/2021/10/12/data_first_dell/

spot_img

Siste etterretning

spot_img

Chat med oss

Hei der! Hvordan kan jeg hjelpe deg?