Logo Zephyrnet

TensorWave, startup zajmujący się chmurą AI, stawia na to, że AMD może pokonać Nvidię

Data:

Pojawiają się wyspecjalizowani operatorzy chmur, wykwalifikowani w obsłudze gorących i energochłonnych procesorów graficznych oraz innej infrastruktury sztucznej inteligencji i choć niektórzy z tych graczy, jak CoreWeave, Lambda czy Volunte Park, zbudowali swoje klastry przy użyciu dziesiątek tysięcy procesorów graficznych Nvidia, inni zwracają się w stronę Zamiast tego AMD.

Przykładem tego ostatniego jest startup Bit Barn TensorWave, który na początku tego miesiąca rozpoczął sprzedaż komputerów wyposażonych w procesor AMD Instinct MI300X, którego chipy planuje dzierżawić za ułamek kosztów pobieranych za dostęp do akceleratorów Nvidia.

Współzałożyciel TensorWave, Jeff Tatarchuk, wierzy, że najnowsze akceleratory AMD mają wiele zalet. Na początek faktycznie można je kupić. TensorWave zabezpieczył duży przydział części.

Do końca 2024 r. TensorWave planuje wdrożyć 20,000 300 akceleratorów MIXNUMXX w dwóch obiektach, a w przyszłym roku planuje udostępnić online dodatkowe systemy chłodzone cieczą.

Najnowszy krzem AI AMD jest także szybszy niż bardzo pożądany procesor H100 firmy Nvidia. „Tylko w surowych specyfikacjach MI300x dominuje nad H100” – powiedział Tatarchuk.

Zaprezentowany na grudniowej konferencji AMD Advancing AI, MI300X jest jak dotąd najbardziej zaawansowanym akceleratorem tej firmy projektującej chipy. The Układ o mocy 750 W wykorzystuje kombinację zaawansowanych rozwiązań, aby połączyć 12 chipletów – 20, jeśli liczyć moduły HBM3 – w jeden procesor graficzny, który ma być o 32 procent szybszy niż H100 Nvidii.

Oprócz wyższej wydajności zmiennoprzecinkowej, chip może poszczycić się także większą pamięcią HBM192 o pojemności 3 GB, która może zapewnić przepustowość na poziomie 5.3 TB/s w porównaniu do 80 GB i 3.35 TB/s deklarowanych przez H100.

Jak widzieliśmy w przypadku modelu H200 firmy Nvidia – wersji H100 wzmocnionej przez dodanie HBM3e – przepustowość pamięci jest główny kontrybutor na wydajność sztucznej inteligencji, szczególnie przy wnioskowaniu na temat dużych modeli językowych.

Podobnie jak projekty HGX firmy Nvidia i OAM firmy Intel, standardowe konfiguracje najnowszego procesora graficznego AMD wymagają ośmiu akceleratorów na węzeł.

Taką konfigurację ludzie w TensorWave zajmują się układaniem i układaniem w stosy.

„Teraz przyjdą setki osób, a w nadchodzących miesiącach przyjdą tysiące” – powiedział Tatarczuk.

Podnoszenie ich

Na zdjęciu napisali w mediach społecznościowych załoga TensorWave pokazała coś, co wyglądało na trzy 8U Supermicro AS-8125GS-TNMR2 systemy zgarnął. To skłoniło nas do zastanowienia się, czy szafy TensorWave mają w końcu ograniczoną moc, czy też temperaturę. Nie jest niczym niezwykłym, że te systemy pobierają ponad 10 kW przy pełnym obciążeniu.

Okazuje się, że ludzie z TensorWave nie skończyli instalowania maszyn i że firma koncentruje się na czterech węzłach o łącznej mocy około 40 kW na szafę. Systemy te będą chłodzone za pomocą wymienników ciepła w tylnych drzwiach (RDHx). Tak jak my omówione w przeszłości były to grzejniki wielkości szafy, przez które przepływa chłodna woda. Gorące powietrze opuszczające konwencjonalny serwer przechodzi przez chłodnicę, która chłodzi je do akceptowalnego poziomu.

Ta technologia chłodzenia stała się popularnym towarem wśród operatorów centrów danych chcących obsługiwać gęstsze klastry GPU i doprowadziła do pewnych wyzwań w łańcuchu dostaw, powiedział dyrektor operacyjny TensorWave Piotr Tomasik.

„Obecnie występuje wiele problemów z wydajnością, nawet w sprzęcie pomocniczym w centrach danych” – stwierdził, szczególnie wymieniając RDHx jako problem. „Jak dotąd odnosiliśmy sukcesy i byliśmy bardzo optymistyczni, jeśli chodzi o naszą zdolność do ich wdrożenia”.

Jednak w dłuższej perspektywie TensorWave skupia się na chłodzeniu bezpośrednio na chipie, co może być trudne do wdrożenia w centrach danych, które nie zostały zaprojektowane do obsługi procesorów graficznych, powiedział Tomasik. „Jesteśmy podekscytowani możliwością wdrożenia bezpośredniego chłodzenia chipów w drugiej połowie roku. Uważamy, że dzięki gęstości będzie to znacznie lepsze i łatwiejsze”.

Trema

Kolejnym wyzwaniem jest zaufanie do wydajności AMD. Zdaniem Tatarczuka, choć wokół propozycji AMD alternatywy dla Nvidii panuje duży entuzjazm, klienci nie są pewni, czy będą cieszyć się taką samą wydajnością. „Jest też wiele stwierdzeń: «Nie jesteśmy w 100% pewni, czy będzie tak wspaniale, jak to, do czego jesteśmy obecnie przyzwyczajeni w przypadku Nvidii»” – powiedział.

W trosce o jak najszybsze uruchomienie systemów, TensorWave uruchomi swoje węzły MI300X przy użyciu RDMA przez Converged Ethernet (RoCE). Te systemy typu bare metal będą dostępne na stałe okresy dzierżawy, najwyraźniej za jedyne 1 USD/godz./GPU.

Skalowanie

Z biegiem czasu zespół ma na celu wprowadzenie bardziej przypominającej chmurę warstwy orkiestracji do udostępniania zasobów. W planach jest również wdrożenie technologii FabreX opartej na PCIe 5.0 firmy GigaIO w celu połączenia do 5,750 procesorów graficznych w jednej domenie z ponad petabajtem pamięci o dużej przepustowości.

Te tak zwane TensorNODE są oparte na architekturze SuperNODE GigaIO pokazał w zeszłym roku, w ramach którego za pomocą pary przełączników PCIe połączono razem maksymalnie 32 procesory graficzne AMD MI210. Teoretycznie powinno to pozwolić pojedynczemu węzłowi głównemu procesora obsłużyć znacznie więcej niż osiem akceleratorów zwykle spotykanych obecnie w węzłach GPU.

To podejście różni się od preferowanego projektu Nvidii, który wykorzystuje NVLink do połączenia wielu superchipów w jeden duży procesor graficzny. Podczas gdy NVLink jest znacznie szybszy, osiągając przepustowość 1.8 TB/s w swojej sieci najnowsza iteracja w porównaniu do zaledwie 128 GB/s na PCIe 5.0, obsługuje tylko konfiguracje do 576 procesorów graficznych.

TensorWave sfinansuje budowę swojej stodoły bitowej, wykorzystując swoje procesory graficzne jako zabezpieczenie dużej rundy finansowania dłużnego, co jest podejściem stosowanym przez innych operatorów centrów danych. Tylko w zeszłym tygodniu, Lambda ujawnił zabezpieczyła pożyczkę w wysokości 500 milionów dolarów na sfinansowanie wdrożenia „dziesiątek tysięcy” najszybszych akceleratorów Nvidii.

Tymczasem CoreWeave, jeden z największych dostawców procesorów graficznych do wynajęcia, dał radę bezpieczne ogromną pożyczkę o wartości 2.3 miliarda dolarów na rozbudowę centrum danych.

„Mógłbyś się spodziewać, że jeszcze w tym roku ogłosimy tutaj takie samo ogłoszenie” – powiedział Tomasik. ®

spot_img

Najnowsza inteligencja

spot_img