Zephyrnet-logo

AI-cloudstartup TensorWave wedt dat AMD Nvidia kan verslaan

Datum:

Gespecialiseerde cloudoperators die vaardig zijn in het runnen van hete en energievretende GPU’s en andere AI-infrastructuur zijn in opkomst, en terwijl sommige van deze spelers, zoals CoreWeave, Lambda of Voltage Park, hun clusters hebben gebouwd met behulp van tienduizenden Nvidia GPU’s, wenden anderen zich tot AMD in plaats daarvan.

Een voorbeeld van dit laatste is TensorWave, de bit-schuurstartup, die eerder deze maand begon met het verzamelen van systemen die worden aangedreven door AMD's Instinct MI300X, waarvan het van plan is de chips te leasen tegen een fractie van de kosten die in rekening worden gebracht voor toegang tot Nvidia-accelerators.

Mede-oprichter van TensorWave, Jeff Tatarchuk, is van mening dat de nieuwste versnellers van AMD veel goede eigenschappen hebben. Om te beginnen kun je ze daadwerkelijk kopen. TensorWave heeft zich verzekerd van een grote toewijzing van de onderdelen.

Tegen eind 2024 streeft TensorWave ernaar om 20,000 MI300X-accelerators in twee faciliteiten te hebben geïmplementeerd, en is van plan om volgend jaar extra vloeistofgekoelde systemen online te brengen.

AMD's nieuwste AI-silicium is ook sneller dan Nvidia's felbegeerde H100. "Alleen al op basis van de ruwe specificaties domineert de MI300x de H100", zei Tatarchuk.

De MI300X, gelanceerd tijdens AMD's Advancing AI-evenement in december, is de meest geavanceerde accelerator van het chipontwerpbedrijf tot nu toe. De 750W-chip maakt gebruik van een combinatie van geavanceerde verpakkingen om twaalf chiplets (12 als je de HBM20-modules meetelt) samen te voegen tot één enkele GPU die naar verluidt 3 procent sneller is dan Nvidia's H32.

Naast hogere drijvende-kommaprestaties beschikt de chip ook over een groter HBM192-geheugen van 3 GB dat een bandbreedte van 5.3 TB/s kan leveren, vergeleken met de 80 GB en 3.35 TB/s die door de H100 worden geclaimd.

Zoals we hebben gezien bij Nvidia's H200 – een versie van de H100 die is versterkt door de toevoeging van HBM3e – is de geheugenbandbreedte een belangrijke bijdrager tot AI-prestaties, vooral bij het concluderen op grote taalmodellen.

Net als Nvidia's HGX- en Intel's OAM-ontwerpen vereisen standaardconfiguraties van AMD's nieuwste GPU acht versnellers per knooppunt.

Dat is de configuratie waar de mensen bij TensorWave druk mee bezig zijn met rekken en stapelen.

“Er gaan er nu honderden binnen en de komende maanden zullen er duizenden binnenkomen”, zei Tatarchuk.

Ze op een rij zetten

Op een foto geplaatst op sociale media liet de TensorWave-crew zien wat leek op drie 8U Supermicro AS-8125GS-TNMR2 systemen opgestapeld. Dit bracht ons ertoe de vraag te stellen of de racks van TensorWave toch stroom- of thermisch beperkt waren. Het is niet ongebruikelijk dat deze systemen bij volledige belasting meer dan 10 kW trekken.

Het blijkt dat de mensen van TensorWave nog niet klaar zijn met het installeren van de machines en dat het bedrijf zich richt op vier knooppunten met een totale capaciteit van ongeveer 40 kW per rack. Deze systemen worden gekoeld met behulp van warmtewisselaars in de achterdeuren (RDHx). Zoals wij besproken Vroeger waren dit rackradiatoren waar koel water doorheen stroomt. Wanneer warme lucht een conventionele server verlaat, stroomt deze door de radiator, waardoor deze tot een acceptabel niveau wordt gekoeld.

Deze koelingstechnologie is een populair handelsartikel geworden onder datacenterexploitanten die dichtere GPU-clusters willen ondersteunen en heeft tot enkele uitdagingen in de supply chain geleid, aldus Piotr Tomasik, COO van TensorWave.

"Er zijn momenteel veel capaciteitsproblemen, zelfs in de ondersteunende apparatuur rond datacenters", zei hij, waarbij hij RDHx specifiek als een pijnpunt noemde. "We zijn tot nu toe succesvol geweest en we waren erg optimistisch over ons vermogen om ze in te zetten."

Op de langere termijn heeft TensorWave echter zijn zinnen gezet op direct-to-chip koeling, wat moeilijk te implementeren kan zijn in datacenters die niet zijn ontworpen om GPU's te huisvesten, zei Tomasik. “We zijn verheugd om in de tweede helft van het jaar rechtstreeks te kunnen inzetten op chipkoeling. Wij denken dat dat met de dichtheid een stuk beter en makkelijker gaat.”

Faalangst

Een andere uitdaging is het vertrouwen in de prestaties van AMD. Volgens Tatarchuk is er weliswaar veel enthousiasme rond het aanbieden van een alternatief voor Nvidia door AMD, maar zijn klanten er niet zeker van dat ze van dezelfde prestaties zullen genieten. "Er zijn ook veel 'We zijn er niet 100 procent zeker van of het net zo geweldig zal zijn als wat we momenteel gewend zijn op Nvidia'," zei hij.

Om systemen zo snel mogelijk operationeel te krijgen, zal TensorWave zijn MI300X-nodes lanceren met behulp van RDMA over Converged Ethernet (RoCE). Deze bare metal-systemen zullen beschikbaar zijn voor vaste leaseperiodes, blijkbaar voor slechts $ 1/uur/GPU.

Opschalen

In de loop van de tijd wil het team een ​​meer cloudachtige orkestratielaag introduceren voor het inrichten van bronnen. Het implementeren van GigaIO's PCIe 5.0-gebaseerde FabreX-technologie om tot 5,750 GPU's in één domein samen te voegen met meer dan een petabyte aan geheugen met hoge bandbreedte staat ook op de agenda.

Deze zogenaamde TensorNODE's zijn gebaseerd op GigaIO's SuperNODE-architectuur schepte op vorig jaar, dat een paar PCIe-switchapparaten gebruikte om tot 32 AMD MI210 GPU's met elkaar te verbinden. In theorie zou dit het mogelijk moeten maken dat een enkel CPU-hoofdknooppunt veel meer kan adresseren dan de acht versnellers die tegenwoordig doorgaans in GPU-knooppunten worden aangetroffen.

Deze aanpak verschilt van het voorkeursontwerp van Nvidia, dat NVLink gebruikt om meerdere superchips samen te voegen tot één grote GPU. Terwijl NVLink aanzienlijk sneller is met een bandbreedte van 1.8 TB/s laatste iteratie vergeleken met slechts 128 GB/s op PCIe 5.0 ondersteunt het alleen configuraties tot 576 GPU's.

TensorWave zal zijn kleine schuur bouwen door zijn GPU's te gebruiken als onderpand voor een grote ronde van schuldfinanciering, een aanpak die door andere datacenterexploitanten wordt gebruikt. Vorige week nog, Lambda onthuld het had een lening van $500 miljoen veiliggesteld om de inzet van “tienduizenden” van Nvidia's snelste accelerators te financieren.

Ondertussen kon CoreWeave, een van de grootste aanbieders van GPU's te huur, dat wel doen beveiligen een enorme lening van 2.3 miljard dollar om zijn datacentervoetafdruk uit te breiden.

“Je zou verwachten dat we hier later dit jaar een soortgelijke aankondiging zullen doen”, zei Tomasik. ®

spot_img

Laatste intelligentie

spot_img