Zephyrnet-logotyp

AI molnstart TensorWave satsar på att AMD kan slå Nvidia

Datum:

Specialiserade molnoperatörer som är skickliga på att köra heta och kraftkrävande GPU:er och annan AI-infrastruktur växer fram, och medan vissa av dessa spelare som CoreWeave, Lambda eller Voltage Park - har byggt sina kluster med hjälp av tiotusentals Nvidia GPU:er, vänder sig andra till AMD istället.

Ett exempel på det senare är bit barn-startupen TensorWave som tidigare denna månad började bygga upp system som drivs av AMD:s Instinct MI300X, som man planerar att hyra ut chipsen till en bråkdel av kostnaden för att få tillgång till Nvidia-acceleratorer.

TensorWaves medgrundare Jeff Tatarchuk tror att AMD:s senaste acceleratorer har många fina egenskaper. Till att börja med kan du faktiskt köpa dem. TensorWave har säkrat en stor tilldelning av delarna.

I slutet av 2024 siktar TensorWave på att ha 20,000 300 MIXNUMXX-acceleratorer utplacerade på två anläggningar och planerar att lägga till ytterligare vätskekylda system online nästa år.

AMD:s senaste AI-kisel är också snabbare än Nvidias mycket eftertraktade H100. "Bara i råa specifikationer dominerar MI300x H100," sa Tatarchuk.

MI300X, som lanserades vid AMDs Advancing AI-evenemang i december, är chipdesignföretagets mest avancerade accelerator hittills. De 750W chip använder en kombination av avancerad förpackning för att sy ihop 12 chiplets — 20 om man räknar HBM3-modulerna — till en enda GPU som påstås vara 32 procent snabbare än Nvidias H100.

Förutom högre flyttalsprestanda har chippet också ett större 192 GB HBM3-minne som kan leverera 5.3 TB/s bandbredd jämfört med 80 GB och 3.35 TB/s som H100 hävdar.

Som vi har sett från Nvidias H200 – en version av H100 förstärkt av införandet av HBM3e – är minnesbandbredd en stor bidragsgivare till AI-prestanda, särskilt vid slutsatser om stora språkmodeller.

Ungefär som Nvidias HGX och Intels OAM-design kräver standardkonfigurationer av AMD:s senaste GPU åtta acceleratorer per nod.

Det är konfigurationen som folket på TensorWave är upptagna med att ställa och stapla.

"Vi har hundratals på väg in nu och tusentals på väg under de kommande månaderna," sa Tatarchuk.

Rackar upp dem

På ett foto posted till sociala medier visade TensorWave-teamet vad som såg ut att vara tre 8U Supermicro AS-8125GS-TNMR2 system samla upp. Detta fick oss att ifrågasätta om TensorWaves rack trots allt var effektbegränsade eller termiskt begränsade, det är inte ovanligt att dessa system drar över 10kW när de är fulladdade.

Det visar sig att folket på TensorWave inte hade installerat maskinerna färdigt och att företaget siktar på fyra noder med en total kapacitet på cirka 40kW per rack. Dessa system kommer att kylas med hjälp av bakdörrsvärmeväxlare (RDHx). Som vi har diskuteras tidigare var dessa radiatorer i rackstorlek genom vilka kallt vatten rinner. När varmluft lämnar en konventionell server passerar den genom kylaren som kyler den till acceptabla nivåer.

Denna kylteknik har blivit en het handelsvara bland datacenteroperatörer som vill stödja tätare GPU-kluster och lett till vissa utmaningar i leveranskedjan, sa TensorWave COO Piotr Tomasik.

"Det finns många kapacitetsproblem, även i den extra utrustningen runt datacenter just nu," sa han och hänvisade specifikt till RDHx som en smärtpunkt. "Vi har varit framgångsrika hittills och vi var väldigt positiva till vår förmåga att distribuera dem."

På längre sikt har TensorWave dock siktet inställt på direkt-till-chip-kylning som kan vara svår att distribuera i datacenter som inte var designade för att inrymma GPU:er, sa Tomasik. "Vi är glada över att kunna distribuera direkt till chipkylning under andra halvåret. Vi tror att det kommer att bli mycket bättre och lättare med täthet.”

prestationsångest

En annan utmaning är förtroendet för AMD:s prestanda. Enligt Tatarchuk, även om det finns mycket entusiasm kring att AMD erbjuder ett alternativ till Nvidia, är kunderna inte säkra på att de kommer att njuta av samma prestanda. "Det finns också en hel del "Vi är inte 100 procent säkra på om det kommer att bli lika bra som det vi för närvarande är vana vid på Nvidia", sa han.

För att få system igång så snabbt som möjligt kommer TensorWave att lansera sina MI300X-noder med RDMA over Converged Ethernet (RoCE). Dessa rena metallsystem kommer att vara tillgängliga för fasta hyresperioder, uppenbarligen för så lite som $1/h/GPU.

Uppskalning

Med tiden siktar outfiten på att introducera ett mer molnliknande orkestreringslager för att tillhandahålla resurser. Implementering av GigaIOs PCIe 5.0-baserade FabreX-teknik för att sammanfoga upp till 5,750 XNUMX GPU:er i en enda domän med mer än en petabyte minne med hög bandbredd står också på agendan.

Dessa så kallade TensorNODEs är baserade på GigaIOs SuperNODE-arkitektur det visade sig förra året, som använde ett par PCIe-switchapparater för att ansluta upp till 32 AMD MI210 GPU:er tillsammans. I teorin borde detta tillåta en enda CPU-huvudnod att adressera mycket mer än de åtta acceleratorer som vanligtvis ses i GPU-noder idag.

Detta tillvägagångssätt skiljer sig från Nvidias föredragna design, som använder NVLink för att sy ihop flera superchips till en stor GPU. Medan NVLink är betydligt snabbare och toppar med 1.8 TB/s bandbredd i sin senaste iteration jämfört med bara 128 GB/s på PCIe 5.0, stöder den bara konfigurationer upp till 576 GPU:er.

TensorWave kommer att finansiera sin bitladubyggnad genom att använda sina GPU:er som säkerhet för en stor omgång av skuldfinansiering, ett tillvägagångssätt som används av andra datacenteroperatörer. Bara förra veckan, Lambda avslöjade det hade säkrat ett lån på 500 miljoner dollar för att finansiera utplaceringen av "tiotusentals" av Nvidias snabbaste acceleratorer.

Samtidigt kunde CoreWeave, en av de största leverantörerna av GPU:er för uthyrning, göra det säkra ett massivt lån på 2.3 miljarder dollar för att utöka sitt datacenters fotavtryck.

"Du skulle, du borde förvänta dig att vi kommer att ha samma typ av tillkännagivande här senare i år," sa Tomasik. ®

plats_img

Senaste intelligens

VC Café

VC Café

plats_img