Logo Zephyrnet

La startup cloud AI TensorWave scommette che AMD può battere Nvidia

Data:

Stanno emergendo operatori cloud specializzati nell'esecuzione di GPU ad alta temperatura e assetate di energia e altre infrastrutture di intelligenza artificiale e, mentre alcuni di questi attori come CoreWeave, Lambda o Voltage Park, hanno costruito i loro cluster utilizzando decine di migliaia di GPU Nvidia, altri si stanno rivolgendo a AMD invece.

Un esempio di quest'ultimo è la startup TensorWave, che all'inizio di questo mese ha iniziato a collezionare sistemi alimentati da Instinct MI300X di AMD, di cui prevede di noleggiare i chip a una frazione del costo addebitato per accedere agli acceleratori Nvidia.

Il co-fondatore di TensorWave Jeff Tatarchuk ritiene che gli ultimi acceleratori di AMD abbiano molte qualità eccellenti. Per cominciare, puoi effettivamente acquistarli. TensorWave si è assicurata un'ampia dotazione di componenti.

Entro la fine del 2024, TensorWave punta a disporre di 20,000 acceleratori MI300X distribuiti in due strutture e prevede di portare online ulteriori sistemi raffreddati a liquido il prossimo anno.

L'ultimo silicio AI di AMD è anche più veloce del tanto ambito H100 di Nvidia. "Solo nelle specifiche grezze, l'MI300x domina l'H100", ha detto Tatarchuk.

Lanciato all'evento Advancing AI di AMD a dicembre, l'MI300X è l'acceleratore più avanzato dell'azienda di progettazione di chip fino ad oggi. IL Chip da 750 W utilizza una combinazione di packaging avanzato per unire 12 chiplet - 20 se si contano i moduli HBM3 - in una singola GPU che si dice sia il 32% più veloce dell'H100 di Nvidia.

Oltre a prestazioni in virgola mobile più elevate, il chip vanta anche una memoria HBM192 più grande da 3 GB in grado di fornire 5.3 TB/s di larghezza di banda rispetto agli 80 GB e 3.35 TB/s dichiarati dall'H100.

Come abbiamo visto dall'H200 di Nvidia – una versione dell'H100 potenziata dall'inclusione di HBM3e – la larghezza di banda della memoria è un contributore principale alle prestazioni dell’intelligenza artificiale, in particolare nell’inferenza su modelli linguistici di grandi dimensioni.

Proprio come i progetti HGX di Nvidia e OAM di Intel, le configurazioni standard dell'ultima GPU di AMD richiedono otto acceleratori per nodo.

Questa è la configurazione con cui i ragazzi di TensorWave sono impegnati a sistemare e impilare.

"Ne abbiamo centinaia in entrata adesso e migliaia nei mesi a venire", ha detto Tatarchuk.

Li accumula

In una foto postato sui social media, il team TensorWave ha mostrato quelli che sembravano essere tre Supermicro AS-8GS-TNMR8125 2U di riferimento collezionato. Ciò ci ha portato a chiederci se i rack di TensorWave fossero limitati dal punto di vista energetico o termico, dopotutto non è insolito che questi sistemi assorbano più di 10 kW quando sono a pieno carico.

Si scopre che i ragazzi di TensorWave non hanno finito di installare le macchine e che l'azienda punta a quattro nodi con una capacità totale di circa 40 kW per rack. Questi sistemi saranno raffreddati utilizzando scambiatori di calore delle porte posteriori (RDHx). Come abbiamo fatto noi discusso in passato si trattava di radiatori a rack attraverso i quali scorreva acqua fredda. Quando l'aria calda esce da un server convenzionale, passa attraverso il radiatore che la raffredda a livelli accettabili.

Questa tecnologia di raffreddamento è diventata una merce molto richiesta tra gli operatori di data center che cercano di supportare cluster GPU più densi e ha portato ad alcune sfide nella catena di fornitura, ha affermato Piotr Tomasik, COO di TensorWave.

"Al momento ci sono molti problemi di capacità, anche nelle apparecchiature ausiliarie dei data center", ha affermato, riferendosi specificamente a RDHx come punto critico. "Finora abbiamo avuto successo e siamo stati molto ottimisti sulla nostra capacità di schierarli."

A lungo termine, tuttavia, TensorWave punta sul raffreddamento diretto su chip, che può essere difficile da implementare nei data center che non sono stati progettati per ospitare GPU, ha affermato Tomasik. “Siamo entusiasti di implementare il raffreddamento diretto dei chip nella seconda metà dell'anno. Pensiamo che sarà molto meglio e più facile con la densità.

ansia da prestazione

Un'altra sfida è la fiducia nelle prestazioni di AMD. Secondo Tatarchuk, anche se c'è molto entusiasmo riguardo all'offerta di AMD come alternativa a Nvidia, i clienti non sono sicuri che godranno delle stesse prestazioni. "Ci sono anche molti 'Non siamo sicuri al 100% se sarà eccezionale come quello a cui siamo attualmente abituati su Nvidia'", ha detto.

Nell'interesse di rendere operativi i sistemi il più rapidamente possibile, TensorWave lancerà i suoi nodi MI300X utilizzando RDMA over Converged Ethernet (RoCE). Questi sistemi bare metal saranno disponibili per periodi di locazione fissi, apparentemente per un minimo di $ 1/ora/GPU.

Scalare

Nel corso del tempo, l’outfit mira a introdurre un livello di orchestrazione più simile al cloud per il provisioning delle risorse. All'ordine del giorno c'è anche l'implementazione della tecnologia FabreX basata su PCIe 5.0 di GigaIO per unire fino a 5,750 GPU in un singolo dominio con più di un petabyte di memoria a larghezza di banda elevata.

Questi cosiddetti TensorNODE si basano sull'architettura SuperNODE di GigaIO mostrato l'anno scorso, che utilizzava una coppia di dispositivi switch PCIe per connettere insieme fino a 32 GPU AMD MI210. In teoria, ciò dovrebbe consentire a un singolo nodo principale della CPU di indirizzare molto più degli otto acceleratori tipicamente visti oggi nei nodi GPU.

Questo approccio differisce dal design preferito di Nvidia, che utilizza NVLink per unire più superchip in un'unica grande GPU. Mentre NVLink è considerevolmente più veloce, raggiungendo 1.8 TB/s di larghezza di banda ultima iterazione rispetto ai soli 128GB/s del PCIe 5.0, supporta solo configurazioni fino a 576 GPU.

TensorWave finanzierà la sua costruzione utilizzando le sue GPU come garanzia per un ampio round di finanziamento del debito, un approccio utilizzato da altri operatori di data center. Proprio la settimana scorsa, Lambda rivelato si era assicurata un prestito di 500 milioni di dollari per finanziare l'implementazione di “decine di migliaia” degli acceleratori più veloci di Nvidia.

Nel frattempo CoreWeave, uno dei maggiori fornitori di GPU a noleggio, ha potuto farlo sicuro un massiccio prestito di 2.3 miliardi di dollari per espandere la presenza del proprio data center.

"Dovresti, dovresti aspettarti che avremo lo stesso tipo di annuncio qui entro la fine dell'anno", ha detto Tomasik. ®

spot_img

L'ultima intelligenza

spot_img