Zephyrnet-logotyp

Sätt data först när du distribuerar utskalad fillagring för accelererade system

Datum:

Sponsrade Det är lätt att lägga mycket tid på att tänka på beräkningen och sammankopplingen i alla typer av högpresterande arbetsbelastning - och svårt att inte lägga lika mycket tid på att tänka på lagringen som stöder den arbetsbelastningen. Det är särskilt viktigt att tänka på typen och volymen av data som kommer att matas in i dessa applikationer eftersom detta, mer än någon annan faktor, kommer att avgöra framgången eller misslyckandet av den arbetsbelastningen för att möta organisationens behov.

Det är på modet nu för tiden att ha en "moln först" -mentalitet när det gäller IT -infrastruktur, men vad organisationer verkligen behöver är en "data först" -attityd och sedan inse att molnet bara är en distributionsmodell med ett prisschema och - kanske - en djupare resurspool än många organisationer är vana vid. Men de djupa poolerna kostar. Det är ganska billigt att flytta data till moln eller generera den där och behålla den där; dock kan det vara orimligt dyrt att flytta data från ett moln så att det kan användas någon annanstans.

De nya klasserna av HPC -applikationer, till exempel maskininlärningsträning och dataanalys som körs i stor skala, tenderar att livnära sig på eller skapa stora datamängder, så det är viktigt att ha denna data första inställning när systemet byggs upp. Det enda du inte vill göra är att ta reda på någonstans mellan bevis på koncept och produktion att du har fel lagring - eller ännu värre, ta reda på att din lagring inte kan hänga med i data när en ny arbetsbelastning rullar in produktion och är en vild framgång.

"När lagringshårdvara läggs till som en snabb lösning utan en genomtänkt strategi kring nuvarande och framtida krav kommer det ofta att uppstå problem", säger Brian Henderson, chef för ostrukturerad datalagringsproduktmarknadsföring på Dell Technologies. ”Organisationer köper några servrar, kopplar in lite lagringsutrymme, startar projektet och ser hur det går. Denna typ av tillvägagångssätt leder ofta till skalproblem, prestandaproblem, problem med att dela data. Vad dessa organisationer behöver är en flexibel skala för lagring av filer som gör att de kan innehålla alla sina olika data och ansluta allt så att intressenter och applikationer snabbt och enkelt kan komma åt och dela den. ”

Så det är viktigt att överväga några viktiga krav på datalagring innan beräknings- och nätverkskomponenterna läggs i sten i en inköpsorder.

Det första du bör tänka på är skala, och du bör anta skala från början och sedan hitta ett system som kan börja litet men växa sig tillräckligt stort för att innehålla data och betjäna olika system och datatyper.

Även om det förmodligen är möjligt att förlita sig på intern lagring eller en stor mängd lagringsutrymme kopplade till system eller kluster, accelereras HPC- och AI -arbetsbelastningar oftare än inte av GPU: er från NVIDIA. Det är bäst att anta att beräkningar, lagring och nätverk måste skala när arbetsbelastningar och datamängder växer och sprids. Det finns många olika tillväxtvektorer att tänka på och att glömma någon av dem kan leda till kapacitets- och prestandaproblem på vägen.

Och det finns ett ännu mer subtilt element i den här lagringsskalafrågan som bör övervägas. Data arkiveras för både HPC- och AI -system. HPC -applikationer tar små mängder initiala förhållanden och skapar en massiv simulering och visualisering som avslöjar något om den verkliga världen, medan AI -system tar massor av information - vanligtvis en blandning av strukturerad och ostrukturerad data - och destillerar den till en modell som kan vara används för att analysera den verkliga världen eller reagera på den. Dessa initiala datamängder och deras modeller måste bevaras av affärsmässiga skäl samt av datahantering och regelefterlevnad.

Du kan inte kasta dessa data även om du vill

"Du kan inte slänga denna data även om du vill", säger Thomas Henson, som är global affärsutvecklingschef för AI och analys för teamet Unstructured Data Solutions på Dell Technologies. ”Oavsett vad den vertikala industrin - fordon, hälso- och sjukvård, transport, finansiella tjänster - kan du hitta ett fel i algoritmerna och tvister är ett problem. Du måste visa data som matades in i algoritmer som gav det defekta resultatet eller bevisa att det inte gjorde det. I viss utsträckning är värdet på den algoritmen data som matades in i den. Och det är bara ett litet exempel. ”

Så för hybrid-CPU-GPU-system är det förmodligen bäst att anta att lokal lagring på maskinerna inte kommer att räcka, och att extern lagring som kan hålla massor av ostrukturerad data kommer att behövas. Av ekonomiska skäl, eftersom AI och vissa HPC -projekt fortfarande är bevis på konceptfaser, kommer det att vara användbart att börja små och kunna skala kapacitet och prestanda snabbt och på oberoende vektorer, om det behövs.

PowerScale all-flash-matriser som kör OneFS-filsystemet från Dell Technologies passar den här lagringsprofilen. Bassystemet kommer i en konfiguration med tre noder som har upp till 11 TB rålagring och ett blygsamt pris under sex siffror, och har testats i laboratorierna upp till 250 noder i ett delat lagringskluster som rymmer upp till 96 PB av data. Och Dell Technologies har kunder som kör PowerScale -arrays i en mycket högre skala än så här, förresten, men de skapar ofta separata kluster för att minska det potentiella sprängområdet för ett avbrott. Vilket är extremt sällsynt.

PowerScale kan distribueras lokalt eller utökas till ett antal offentliga moln med flera moln eller integrerade molnintegrerade alternativ där kunderna kan dra nytta av ytterligare beräkningar eller andra inbyggda molntjänster.

Prestanda är den andra delen av skalan som företag måste tänka på, och detta är särskilt viktigt när systemen accelereras av GPU: er. Ända sedan de första dagarna med GPU -beräkning har NVIDIA arbetat för att få CPU och dess minne ur vägen och för att det inte ska bli en flaskhals som hindrar GPU: er från att dela data (GPUDirect) när de kör sina simuleringar eller bygger sina modeller eller som hindrar GPU: er från att komma åt lagring blixtsnabbt (GPUDirect Storage).

Om extern lagring är en nödvändighet för sådana GPU -accelererade system - det finns inget sätt att servrar med fyra eller åtta GPU: er kommer att ha tillräckligt med lagringsutrymme för att hålla de datauppsättningar som de flesta HPC- och AI -applikationer bearbetar - så verkar det klart att vad lagringen än måste tala GPUDirect Storage och tala det snabbt.

Den tidigare rekordhållaren var Pavilion Data, som testade en 2.2 PB lagringsmatris och kunde läsa data i ett DGX-A100-system baserat på de nya "Ampere" A100 GPU: erna med 191 GB/sek i filläge. I laboratoriet lägger Dell Technologies sista handen vid sina riktmärktester för GPUDirect Storage som körs på PowerScale -matriser och säger att det kan driva prestanda betydligt högre, åtminstone till 252 GB/sek. Och eftersom PowerScale kan skala till 252 noder i ett enda namnområde, stannar det inte där och kan skala långt utöver det om det behövs.

"Poängen är att vi vet hur vi optimerar för dessa GPU -beräkningsmiljöer", säger Henderson. Och här är ett mer allmänt uttalande om prestandan för GPU-accelererade system som kör AI-arbetsbelastningar och hur PowerScale-lagring fungerar:

Bredden av stöd för olika typer av system är en annan sak att tänka på när man bygger ett hybrid CPU-GPU-system. Själva delen av delad lagring är att dela, och det är viktigt att kunna använda data på den delade lagringen för andra applikationer. PowerScale -matriserna har integrerats med över 250 applikationer och är certifierade som stödda på många typer av system. Detta är en av anledningarna till att Isilon och PowerScale -lagring har över 15,000 XNUMX kunder världen över.

Högpresterande datorer handlar om mer än prestanda, särskilt i en företagsmiljö där resurser är begränsade och att ha kontroll över system och data är absolut kritiskt. Så nästa sak som måste beaktas vid utformningen av lagringen för GPU-accelererade system är lagringshantering.

Verktyg

På denna front ger Dell Technologies ett antal verktyg till festen. Det första är InsightIQ, som gör mycket specifik och detaljerad lagringsövervakning och rapportering för PowerScale och dess föregångare, Isilon -lagringsmatrisen.

Ett annat verktyg kallas CloudIQ, som använder maskininlärning och prediktiva analystekniker som övervakar och hjälper till att hantera hela utbudet av Dell Technologies infrastrukturprodukter, inklusive PowerStore, PowerMax, PowerScale, PowerVault, Unity XT, XtremIO och SC -serier, samt PowerEdge -servrar och konvergerade och hyperkonvergerade plattformar som VxBlock, VxRail och PowerFlex.

Och slutligen finns det DataIQ, en lagringsövervakning och datahanteringsprogramvara för ostrukturerad data som ger en enhetlig bild av ostrukturerade datamängder över PowerScale-, PowerMax- och PowerStore -matriser samt molnlagring från de stora offentliga molnen. DataIQ visar dig inte bara de ostrukturerade datamängderna utan håller också reda på hur de används och flyttar dem till den lämpligaste lagringen, till exempel lokala filsystem eller molnbaserad objektlagring.

Det sista övervägandet är tillförlitlighet och dataskydd, som går hand i hand i alla lagringsplattformar i företagsklass. PowerScale -matriserna har sitt arv i Isilon och dess OneFS -filsystem, som har funnits länge och som har litats på företag, myndigheter och akademiska HPC -institutioner i två decennier. OneFS och dess underliggande PowerScale -hårdvara är utformade för att leverera upp till 99.9999 procent tillgänglighet, medan de flesta molnlagringstjänster som hanterar ostrukturerad data har tur att ha serviceavtal för 99.9 procent tillgänglighet. Den förra har 31 sekunders stilleståndstid om året, medan den senare är offline åtta timmar och 46 minuter.

Dessutom är PowerScale utformad för att ge bra prestanda och bibehålla datatillgång även om några av noderna i lagringsklusterna är nere för underhåll eller reparation av sig själv efter ett komponentfel. (Komponentfel är trots allt oundvikligt för all IT -utrustning.)

Men det finns en annan typ av motståndskraft som blir allt viktigare nuförtiden: återhämtning från ransomware -attacker.

”Vi har API-integrerat ransomware-skydd för PowerScale som kommer att upptäcka misstänkt beteende i OneFS -filsystemet och varna administratörer om det, säger Henderson. ”Och många av våra kunder implementerar en fysiskt separat, luftgapad klusterinställning för att behålla en separat kopia av all sin data. I händelse av en cyberattack stänger du bara av produktionslagringen och du har dina data, och du försöker inte återställa från säkerhetskopior eller arkiv, vilket kan ta dagar eller veckor - särskilt om du återställer från molnarkiv. När du väl pratar om petabyte med data kan det ta månader.

”Vi kan återställa snabbt vid lagringsreplikationshastigheter, vilket är väldigt, väldigt snabbt. Och du har alternativ för att vara värd för din lösning för ransomware-försvarare i miljöer med flera moln där du kan återställa dina data från en cyberhändelse som utnyttjar ett offentligt moln. ”

Sponsrad av Dell.

PlatoAi. Web3 Reimagined. Datainformation förstärkt.
Klicka här för att komma åt.

Källa: https://go.theregister.com/feed/www.theregister.com/2021/10/12/data_first_dell/

plats_img

Senaste intelligens

plats_img

Chatta med oss

Hallå där! Hur kan jag hjälpa dig?