Zephyrnet-logo

AI-skyoppstart TensorWave satser på at AMD kan slå Nvidia

Dato:

Spesialiserte skyoperatører som er dyktige til å kjøre varme og strømkrevende GPUer og annen AI-infrastruktur dukker opp, og mens noen av disse aktørene som CoreWeave, Lambda eller Voltage Park – har bygget klynger ved hjelp av titusenvis av Nvidia GPUer, tyr andre til AMD i stedet.

Et eksempel på sistnevnte er bit barn-oppstart TensorWave som tidligere denne måneden begynte å samle opp systemer drevet av AMDs Instinct MI300X, som den planlegger å leie ut brikkene til en brøkdel av kostnadene som kreves for å få tilgang til Nvidia-akseleratorer.

TensorWave-medgründer Jeff Tatarchuk mener AMDs nyeste akseleratorer har mange fine kvaliteter. For det første kan du faktisk kjøpe dem. TensorWave har sikret seg en stor tildeling av delene.

Innen utgangen av 2024 har TensorWave som mål å ha 20,000 300 MIXNUMXX-akseleratorer utplassert på to anlegg, og planlegger å bringe ytterligere væskekjølte systemer online neste år.

AMDs nyeste AI-silisium er også raskere enn Nvidias ettertraktede H100. "Bare i råspesifikasjoner dominerer MI300x H100," sa Tatarchuk.

MI300X ble lansert på AMDs Advancing AI-arrangement i desember, og er brikkedesignfirmaets mest avanserte akselerator til dags dato. De 750W brikke bruker en kombinasjon av avansert emballasje for å sy sammen 12 brikker - 20 hvis du teller HBM3-modulene - til en enkelt GPU som hevdes å være 32 prosent raskere enn Nvidias H100.

I tillegg til høyere flytepunktsytelse, har brikken også et større 192 GB HBM3-minne som er i stand til å levere 5.3 TB/s båndbredde kontra 80 GB og 3.35 TB/s som H100 hevder.

Som vi har sett fra Nvidias H200 – en versjon av H100 forsterket av inkluderingen av HBM3e – er minnebåndbredden en stor bidragsyter til AI-ytelse, spesielt i slutninger om store språkmodeller.

På samme måte som Nvidias HGX og Intels OAM-design, krever standardkonfigurasjoner av AMDs nyeste GPU åtte akseleratorer per node.

Det er konfigurasjonen folkene på TensorWave er opptatt med å stable og stable.

"Vi har hundrevis på vei inn nå og tusenvis på vei i månedene som kommer," sa Tatarchuk.

Rekker dem opp

På et bilde postet til sosiale medier viste TensorWave-mannskapet det som så ut til å være tre 8U Supermicro AS-8125GS-TNMR2 systemer plaget opp. Dette førte til at vi stilte spørsmål ved om TensorWaves stativer tross alt var strømbegrenset eller termisk begrenset, det er ikke uvanlig at disse systemene trekker mer enn 10 kW når de er fullastet.

Det viser seg at folkene i TensorWave ikke var ferdige med å installere maskinene, og at firmaet sikter mot fire noder med en total kapasitet på rundt 40kW per rack. Disse systemene vil bli avkjølt ved hjelp av bakdørs varmevekslere (RDHx). Som vi har diskutert tidligere var disse radiatorer i stativstørrelse som kaldt vann strømmer gjennom. Når varm luft kommer ut av en konvensjonell server, passerer den gjennom radiatoren som kjøler den ned til akseptable nivåer.

Denne kjøleteknologien har blitt en het vare blant datasenteroperatører som ønsker å støtte tettere GPU-klynger og ført til noen forsyningskjedeutfordringer, sa TensorWave COO Piotr Tomasik.

"Det er mange kapasitetsproblemer, selv i tilleggsutstyret rundt datasentre akkurat nå," sa han, og refererte spesifikt til RDHx som et smertepunkt. "Vi har hatt suksess så langt, og vi var veldig positive på vår evne til å distribuere dem."

På lengre sikt har TensorWave imidlertid sikte på direkte-til-brikke-kjøling som kan være vanskelig å distribuere i datasentre som ikke er designet for å huse GPUer, sa Tomasik. "Vi er glade for å distribuere direkte til brikkekjøling i andre halvdel av året. Vi tror at det kommer til å bli mye bedre og enklere med tetthet.»

Prestasjonsangst

En annen utfordring er tilliten til AMDs ytelse. Ifølge Tatarchuk, mens det er mye entusiasme rundt AMD som tilbyr et alternativ til Nvidia, er kundene ikke sikre på at de vil nyte den samme ytelsen. "Det er også mye "Vi er ikke 100 prosent sikre på om det kommer til å bli like bra som det vi for øyeblikket er vant til på Nvidia", sa han.

For å få systemene i gang så raskt som mulig, vil TensorWave lansere sine MI300X-noder ved hjelp av RDMA over Converged Ethernet (RoCE). Disse bare metallsystemene vil være tilgjengelige for faste leieperioder, tilsynelatende for så lite som $1/time/GPU.

Skaler opp

Over tid tar antrekket sikte på å introdusere et mer skylignende orkestreringslag for klargjøring av ressurser. Implementering av GigaIOs PCIe 5.0-baserte FabreX-teknologi for å sy sammen opptil 5,750 GPUer i ett enkelt domene med mer enn en petabyte med høy båndbreddeminne er også på agendaen.

Disse såkalte TensorNODE-ene er basert på GigaIOs SuperNODE-arkitektur viste fram i fjor, som brukte et par PCIe-svitsjapparater for å koble opptil 32 AMD MI210 GPUer sammen. I teorien skulle dette tillate en enkelt CPU-hodenode å adressere langt mer enn de åtte akseleratorene som vanligvis sees i GPU-noder i dag.

Denne tilnærmingen skiller seg fra Nvidias foretrukne design, som bruker NVLink til å sy sammen flere superbrikker til én stor GPU. Mens NVLink er betraktelig raskere med en båndbredde på 1.8 TB/s siste iterasjon sammenlignet med bare 128 GB/s på PCIe 5.0, støtter den kun konfigurasjoner på opptil 576 GPUer.

TensorWave vil finansiere bitfjøset ved å bruke GPU-ene som sikkerhet for en stor runde med gjeldsfinansiering, en tilnærming som brukes av andre datasenteroperatører. Bare forrige uke, Lambda avslørt den hadde sikret et lån på 500 millioner dollar for å finansiere utplasseringen av «titusenvis» av Nvidias raskeste akseleratorer.

I mellomtiden klarte CoreWeave, en av de største leverandørene av GPU-er til leie sikre et massivt lån på 2.3 milliarder dollar for å utvide datasenterets fotavtrykk.

"Du ville, du bør forvente at vi har samme type kunngjøring her senere i år," sa Tomasik. ®

spot_img

Siste etterretning

spot_img