Zephyrnet-Logo

Das KI-Cloud-Startup TensorWave setzt darauf, dass AMD Nvidia schlagen kann

Datum:

Es entstehen spezialisierte Cloud-Betreiber, die sich mit dem Betrieb heißer und stromhungriger GPUs und anderer KI-Infrastrukturen auskennen, und während einige dieser Akteure wie CoreWeave, Lambda oder Voltage Park ihre Cluster mit Zehntausenden von Nvidia-GPUs aufgebaut haben, wenden sich andere an Stattdessen AMD.

Ein Beispiel für Letzteres ist das Bit-Barn-Startup TensorWave, das Anfang dieses Monats damit begann, Systeme mit AMDs Instinct MI300X zu bauen und die Chips zu einem Bruchteil der Kosten zu leasen, die für den Zugriff auf Nvidia-Beschleuniger anfallen.

TensorWave-Mitbegründer Jeff Tatarchuk glaubt, dass die neuesten Beschleuniger von AMD viele gute Eigenschaften haben. Zunächst einmal kann man sie tatsächlich kaufen. TensorWave hat sich eine große Zuteilung der Teile gesichert.

Bis Ende 2024 will TensorWave 20,000 MI300X-Beschleuniger in zwei Einrichtungen bereitstellen und plant, im nächsten Jahr weitere flüssigkeitsgekühlte Systeme in Betrieb zu nehmen.

AMDs neuestes KI-Silizium ist außerdem schneller als Nvidias heiß begehrtes H100. „Allein in Bezug auf die Rohdaten dominiert der MI300x den H100“, sagte Tatarchuk.

Der MI300X wurde auf AMDs Advancing AI-Event im Dezember vorgestellt und ist der bislang fortschrittlichste Beschleuniger des Chipdesign-Unternehmens. Der 750-W-Chip nutzt eine Kombination aus fortschrittlicher Verpackung, um 12 Chiplets – 20, wenn man die HBM3-Module mitzählt – zu einer einzigen GPU zusammenzufügen, die angeblich 32 Prozent schneller ist als Nvidias H100.

Neben einer höheren Gleitkommaleistung verfügt der Chip auch über einen größeren 192 GB großen HBM3-Speicher, der eine Bandbreite von 5.3 TB/s liefern kann, im Vergleich zu den 80 GB und 3.35 TB/s, die der H100 beansprucht.

Wie wir bei Nvidias H200 gesehen haben – einer Version des H100, die durch die Integration von HBM3e verbessert wurde – ist die Speicherbandbreite ein Hauptbeitragender zur KI-Leistung, insbesondere bei der Inferenzierung großer Sprachmodelle.

Ähnlich wie Nvidias HGX- und Intels OAM-Designs erfordern Standardkonfigurationen der neuesten GPU von AMD acht Beschleuniger pro Knoten.

Das ist die Konfiguration, mit der die Leute bei TensorWave gerade beschäftigt sind, sie zusammenzustellen und zu stapeln.

„Wir haben jetzt Hunderte und Tausende in den kommenden Monaten“, sagte Tatarchuk.

Ich packe sie zusammen

Auf einem Foto gepostet In den sozialen Medien zeigte das TensorWave-Team scheinbar drei 8U Supermicro AS-8125GS-TNMR2 Systeme zerbrach. Dies führte uns zu der Frage, ob die Racks von TensorWave leistungs- oder thermisch begrenzt sind. Schließlich ist es nicht ungewöhnlich, dass diese Systeme bei voller Auslastung mehr als 10 kW ziehen.

Es stellt sich heraus, dass die Leute bei TensorWave die Installation der Maschinen noch nicht abgeschlossen hatten und dass das Unternehmen vier Knoten mit einer Gesamtkapazität von etwa 40 kW pro Rack anstrebt. Die Kühlung dieser Systeme erfolgt über Hecktür-Wärmetauscher (RDHx). So wie wir es getan haben diskutiert Früher handelte es sich dabei um regalgroße Heizkörper, durch die kühles Wasser strömte. Wenn heiße Luft aus einem herkömmlichen Server austritt, strömt sie durch den Kühler, der ihn auf ein akzeptables Niveau abkühlt.

Diese Kühltechnologie ist bei Rechenzentrumsbetreibern, die dichtere GPU-Cluster unterstützen möchten, zu einem begehrten Gut geworden und hat zu einigen Herausforderungen in der Lieferkette geführt, sagte Piotr Tomasik, COO von TensorWave.

„Im Moment gibt es viele Kapazitätsprobleme, sogar bei der Zusatzausrüstung rund um Rechenzentren“, sagte er und verwies insbesondere auf RDHx als einen Schwachpunkt. „Wir waren bisher erfolgreich und waren sehr optimistisch, was unsere Fähigkeit angeht, sie einzusetzen.“

Längerfristig hat TensorWave jedoch eine direkte Chip-Kühlung im Visier, die in Rechenzentren, die nicht für die Unterbringung von GPUs ausgelegt sind, schwierig einzusetzen sein kann, sagte Tomasik. „Wir freuen uns, in der zweiten Jahreshälfte die direkte Chip-Kühlung einzuführen. Wir glauben, dass das mit der Dichte viel besser und einfacher sein wird.“

Lampenfieber

Eine weitere Herausforderung ist das Vertrauen in die Leistung von AMD. Laut Tatarchuk herrscht zwar große Begeisterung darüber, dass AMD eine Alternative zu Nvidia anbietet, die Kunden sind jedoch nicht sicher, ob sie in den Genuss der gleichen Leistung kommen werden. „Es gibt auch eine Menge ‚Wir sind uns nicht hundertprozentig sicher, ob es so großartig sein wird wie das, was wir derzeit von Nvidia gewohnt sind‘“, sagte er.

Um die Systeme so schnell wie möglich zum Laufen zu bringen, wird TensorWave seine MI300X-Knoten mit RDMA über Converged Ethernet (RoCE) starten. Diese Bare-Metal-Systeme werden für feste Mietzeiträume verfügbar sein, offenbar für nur 1 US-Dollar/Stunde/GPU.

Hochskalieren

Im Laufe der Zeit strebt das Unternehmen die Einführung einer stärker cloudähnlichen Orchestrierungsebene für die Bereitstellung von Ressourcen an. Auf der Agenda steht auch die Implementierung der PCIe 5.0-basierten FabreX-Technologie von GigaIO, um bis zu 5,750 GPUs in einer einzigen Domäne mit mehr als einem Petabyte Speicher mit hoher Bandbreite zusammenzufassen.

Diese sogenannten TensorNODEs basieren auf der SuperNODE-Architektur von GigaIO angeben letztes Jahr, bei dem ein Paar PCIe-Switch-Appliances verwendet wurden, um bis zu 32 AMD MI210-GPUs miteinander zu verbinden. Theoretisch sollte dies einem einzelnen CPU-Hauptknoten ermöglichen, weit mehr als die acht Beschleuniger anzusprechen, die heute typischerweise in GPU-Knoten zu finden sind.

Dieser Ansatz unterscheidet sich vom bevorzugten Design von Nvidia, das NVLink verwendet, um mehrere Superchips zu einer großen GPU zusammenzufügen. Während NVLink deutlich schneller ist und eine Bandbreite von 1.8 TB/s erreicht neueste Iteration Im Vergleich zu nur 128 GB/s bei PCIe 5.0 werden nur Konfigurationen mit bis zu 576 GPUs unterstützt.

TensorWave wird den Bau seiner kleinen Scheune finanzieren, indem es seine GPUs als Sicherheit für eine große Schuldenfinanzierungsrunde verwendet, ein Ansatz, den auch andere Rechenzentrumsbetreiber verwenden. Erst letzte Woche, Lambda enthüllt Es hatte sich ein Darlehen in Höhe von 500 Millionen US-Dollar gesichert, um den Einsatz von „Zehntausenden“ der schnellsten Beschleuniger von Nvidia zu finanzieren.

Mittlerweile gelang es CoreWeave, einem der größten Anbieter von GPUs zur Miete, dies zu tun Verbindung ein massives Darlehen in Höhe von 2.3 Milliarden US-Dollar zur Erweiterung der Rechenzentrumsfläche.

„Sie sollten damit rechnen, dass wir hier später in diesem Jahr eine ähnliche Ankündigung machen“, sagte Tomasik. ®

spot_img

Neueste Intelligenz

spot_img