Zephyrnet logo

Tekoälypilven startup TensorWave vetoaa, että AMD voi voittaa Nvidian

Treffi:

Erikoistuneita pilvioperaattoreita, jotka ovat taitavia kuumien ja virrankuluttavien grafiikkasuorittimien ja muun tekoälyinfrastruktuurin käytössä, on syntymässä, ja vaikka jotkut näistä pelaajista, kuten CoreWeave, Lambda tai Voltage Park - ovat rakentaneet klusterinsa käyttämällä kymmeniä tuhansia Nvidia-grafiikkasuorittimia, toiset kääntyvät AMD sen sijaan.

Esimerkki jälkimmäisestä on bit Barn -käynnistysyritys TensorWave, joka aloitti aiemmin tässä kuussa keräämään järjestelmiä, joissa on AMD:n Instinct MI300X, jonka sirut aikovat vuokrata murto-osalla Nvidian kiihdyttimien käyttökustannuksista.

TensorWaven perustaja Jeff Tatarchuk uskoo, että AMD:n uusimmilla kiihdyttimillä on monia hienoja ominaisuuksia. Ensinnäkin voit itse ostaa niitä. TensorWave on varmistanut suuren osien allokoinnin.

Vuoden 2024 loppuun mennessä TensorWave pyrkii saamaan käyttöön 20,000 300 MIXNUMXX-kiihdytintä kahdessa laitoksessa, ja aikoo tuoda lisää nestejäähdytteisiä järjestelmiä verkkoon ensi vuonna.

AMD:n uusin AI-pii on myös nopeampi kuin Nvidian haluttu H100. "Vain raaka-ominaisuuksilla MI300x hallitsee H100:aa", Tatarchuk sanoi.

AMD:n Advancing AI -tapahtumassa joulukuussa lanseerattu MI300X on sirusuunnitteluyrityksen tähän mennessä edistynein kiihdytin. The 750 W siru käyttää edistyneiden pakkausten yhdistelmää liittääkseen yhteen 12 sirua – 20, jos lasketaan HBM3-moduulit – yhdeksi GPU:ksi, jonka väitetään olevan 32 prosenttia nopeampi kuin Nvidian H100.

Paremman liukulukusuorituskyvyn lisäksi sirussa on myös suurempi 192 Gt HBM3-muisti, joka pystyy tuottamaan 5.3 Tt/s kaistanleveyttä verrattuna H80:n vaatimiin 3.35 Gt ja 100 Tt/s.

Kuten olemme nähneet Nvidian H200:sta – H100:n versiosta, jota on tehostettu HBM3e:n sisällyttämisellä – muistin kaistanleveys on merkittävä tekijä tekoälyn suorituskykyyn, erityisesti pääteltäessä suuria kielimalleja.

Aivan kuten Nvidian HGX- ja Intelin OAM-mallit, AMD:n uusimman GPU:n vakiokokoonpanot vaativat kahdeksan kiihdytintä solmua kohti.

Tämä on kokoonpano, jolla TensorWaven ihmiset ovat kiireisiä hyllytyksessä ja pinoamisessa.

"Meillä on nyt satoja tulossa ja tuhansia tulevina kuukausina", Tatarchuk sanoi.

Kerää ne ylös

Valokuvassa posted TensorWaven miehistö näytti sosiaalisessa mediassa kolmelta 8U Supermicro AS-8125GS-TNMR2:lta. järjestelmät kerätty ylös. Tämä sai meidät kyseenalaistamaan, olivatko TensorWaven telineet tehoa vai termisesti rajoitettuja. Ei ole epätavallista, että nämä järjestelmät vetivät yli 10 kW täyteen kuormitettuna.

Osoittautuu, että TensorWaven ihmiset eivät olleet saaneet koneiden asennusta valmiiksi ja että yritys tavoittelee neljää solmua, joiden kokonaiskapasiteetti on noin 40 kW telinettä kohti. Nämä järjestelmät jäähdytetään takaoven lämmönvaihtimilla (RDHx). Kuten meilläkin keskusteltiin ennen nämä olivat telinekokoisia pattereita, joiden läpi virtaa viileää vettä. Kun kuuma ilma poistuu perinteisestä palvelimesta, se kulkee jäähdyttimen läpi, joka jäähdyttää sen hyväksyttävälle tasolle.

Tästä jäähdytystekniikasta on tullut kuuma hyödyke datakeskusoperaattoreiden keskuudessa, jotka haluavat tukea tiheämpiä GPU-klustereita, ja se on johtanut joihinkin toimitusketjun haasteisiin, TensorWave COO Piotr Tomasik sanoi.

"On paljon kapasiteettiongelmia, jopa datakeskusten ympärillä olevissa lisälaitteissa tällä hetkellä", hän sanoi viitaten erityisesti RDHx:ään kipukohtana. "Olemme menestyneet toistaiseksi ja olimme erittäin innostuneita kyvystämme ottaa ne käyttöön."

Pidemmällä aikavälillä TensorWave keskittyy kuitenkin suoraan sirulle tapahtuvaan jäähdytykseen, jota voi olla vaikea ottaa käyttöön datakeskuksissa, joita ei ole suunniteltu GPU:iden sijoittamiseen, Tomasik sanoi. ”Olemme innoissamme voidessamme ottaa suoraan hakejäähdytyksen käyttöön vuoden toisella puoliskolla. Uskomme, että se tulee olemaan paljon parempaa ja helpompaa tiheyden kanssa."

suorituskyky ahdistus

Toinen haaste on luottamus AMD:n suorituskykyyn. Tatarchukin mukaan vaikka AMD:llä on paljon innostusta tarjota vaihtoehto Nvidialle, asiakkaat eivät ole varmoja nauttivansa samasta suorituskyvystä. "On myös paljon "Emme ole 100-prosenttisen varmoja, tuleeko siitä yhtä hyvä kuin mihin olemme tällä hetkellä tottuneet Nvidiassa", hän sanoi.

Jotta järjestelmät saataisiin käyntiin mahdollisimman nopeasti, TensorWave käynnistää MI300X-solmunsa käyttämällä RDMA over Converged Ethernet -yhteyttä (RoCE). Nämä paljaat metallijärjestelmät ovat saatavilla kiinteillä vuokra-ajoilla, ilmeisesti vain 1 dollarilla/tunti/GPU.

Suurentaminen

Ajan myötä asun tavoitteena on ottaa käyttöön pilvimäisempi orkestrointikerros resurssien hallintaan. Asialistalla on myös GigaIO:n PCIe 5.0 -pohjaisen FabreX-teknologian yhdistäminen jopa 5,750 XNUMX GPU:n yhdistämiseen yhdeksi toimialueeksi yli petatavun suuren kaistanleveyden muistilla.

Nämä niin sanotut TensorNODEt perustuvat GigaIO:n SuperNODE-arkkitehtuuriin näytti viime vuonna, jossa käytettiin paria PCIe-kytkinlaitteita jopa 32 AMD MI210 -grafiikkasuorittimen yhdistämiseen yhteen. Teoriassa tämän pitäisi mahdollistaa yhden CPU-pääsolmun kohdistaminen paljon enemmän kuin kahdeksan kiihdytintä, joita tyypillisesti nähdään GPU-solmuissa nykyään.

Tämä lähestymistapa eroaa Nvidian suosimasta suunnittelusta, joka käyttää NVLinkkiä useiden supersirujen yhdistämiseen yhdeksi suureksi GPU:ksi. Vaikka NVLink on huomattavasti nopeampi, sen kaistanleveys on 1.8 Tt/s viimeisin iterointi verrattuna vain 128 Gt/s PCIe 5.0:ssa, se tukee vain enintään 576 GPU:ta.

TensorWave rahoittaa bittivarastonsa käyttämällä grafiikkasuoritteitaan vakuudeksi suurelle velkarahoitukselle, jota muut datakeskusoperaattorit käyttävät. Juuri viime viikolla, Lambda paljasti se sai 500 miljoonan dollarin lainan rahoittamaan "kymmenien tuhansien" Nvidian nopeimpien kiihdyttimien käyttöönottoa.

Samaan aikaan CoreWeave, yksi suurimmista vuokrattavien grafiikkasuorittimien tarjoajista, pystyi siihen turvallinen massiivinen 2.3 miljardin dollarin laina datakeskuksen jalanjäljen laajentamiseksi.

"Odotatte, että meillä on samanlainen ilmoitus täällä myöhemmin tänä vuonna", Tomasik sanoi. ®

spot_img

Uusin älykkyys

spot_img