ゼファーネットのロゴ

AIクラウドスタートアップTensorWaveはAMDがNvidiaに勝てると賭けている

日付:

高温で電力を大量に消費する GPU やその他の AI インフラストラクチャの実行に熟練した専門のクラウド オペレーターが台頭しており、CoreWeave、Lambda、Voltage Park などの一部のプレーヤーは数万の Nvidia GPU を使用してクラスターを構築していますが、その他のプレーヤーは Nvidia GPU を使用するようになってきています。代わりにAMD。

後者の例としては、ビットバーンの新興企業である TensorWave が今月初め、AMD の Instinct MI300X を搭載したシステムの調達を開始しており、Nvidia アクセラレータへのアクセスにかかるコストの数分の XNUMX でチップをリースする予定です。

TensorWave の共同創設者 Jeff Tatarchuk は、AMD の最新アクセラレータには多くの優れた特性があると信じています。まず、実際に購入することができます。 TensorWave は大量のパーツの割り当てを確保しています。

TensorWave は、2024 年末までに 20,000 つの施設に 300 台の MIXNUMXX アクセラレータを導入することを目指しており、来年には追加の水冷システムを稼働させる予定です。

AMD の最新の AI シリコンは、切望されている Nvidia の H100 よりも高速です。 「生のスペックだけを見れば、MI300x が H100 を圧倒しています」と Tatarchuk 氏は言います。

300 月に AMD の Advancing AI イベントで発表された MIXNUMXX は、チップ設計会社のこれまでで最も先進的なアクセラレータです。の 750Wチップ は、高度なパッケージングの組み合わせを使用して、12 個のチップレット (HBM20 モジュールを含めると 3 個) を単一の GPU につなぎ合わせ、Nvidia の H32 よりも 100 パーセント高速であると言われています。

より高い浮動小数点パフォーマンスに加えて、このチップは、H192 が主張する 3GB および 5.3TB/s と比較して、80TB/s の帯域幅を提供できる 3.35GB の HBM100 メモリも備えています。

Nvidia の H200 (HBM100e を組み込むことで強化された H3 のバージョン) からわかるように、メモリ帯域幅は 主な貢献者 AI のパフォーマンス、特に大規模な言語モデルでの推論において。

Nvidia の HGX や Intel の OAM 設計と同様に、AMD の最新 GPU の標準構成ではノードごとに 8 つのアクセラレータが必要です。

TensorWave のスタッフがラックとスタッキングに忙しいのは、この構成です。

「現在数百人が入社し、今後数カ月以内に数千人が入社する」とタタルチュク氏は語った。

それらを積み上げる

写真で 掲示 TensorWave チームはソーシャル メディアに、8 つの 8125U Supermicro AS-2GS-TNMRXNUMX のように見えるものを公開しました。 システム 積み上げた。このため、結局 TensorWave のラックは電力または熱的に制限されているのではないかという疑問が生じました。これらのシステムがフル負荷のときに 10kW を超える電力を供給することは珍しいことではありません。

TensorWave の担当者がマシンの設置をまだ終えておらず、同社はラックあたり合計容量が約 40kW の XNUMX つのノードを目標としていることが判明しました。これらのシステムは、リアドア熱交換器 (RDHx) を使用して冷却されます。私たちがそうしてきたように 議論する 以前は、これらは冷水が流れるラックサイズのラジエーターでした。従来のサーバーから熱気が排出されると、ラジエーターを通過して許容レベルまで冷却されます。

TensorWave の COO である Piotr Tomasik 氏は、この冷却技術は、より高密度の GPU クラスターのサポートを検討しているデータセンター事業者の間で注目の商品となっており、サプライ チェーンのいくつかの課題につながっていると述べています。

同氏は、「現在、データセンター周辺の補助機器においてさえ、多くの容量問題が存在する」と述べ、特にRDHxを問題点として挙げた。 「私たちはこれまでのところ成功しており、それらを導入する能力については非常に強気でした。」

しかし、長期的には、TensorWave は、GPU を収容するように設計されていないデータセンターに導入するのが難しいチップへの直接冷却に照準を合わせていると、Tomasik 氏は述べました。 「私たちは、今年下半期にチップへの直接冷却を導入できることに興奮しています。密度を高めることで、それがずっと良くなり、より簡単になると私たちは考えています。」

パフォーマンス不安

もう 100 つの課題は、AMD のパフォーマンスに対する信頼です。 Tatarchuk 氏によると、AMD が Nvidia の代替製品を提供することに多くの熱意があふれていますが、顧客は同じパフォーマンスを享受できるかどうか確信が持てません。 「『NVIDIA で現在慣れているものと同じくらい素晴らしいものになるかどうかは XNUMX% わかりません』という意見もたくさんあります」と彼は言いました。

システムをできるだけ早く立ち上げて稼働させるため、TensorWave は RDMA over Converged Ethernet (RoCE) を使用して MI300X ノードを起動します。これらのベアメタル システムは固定リース期間で利用でき、GPU あたり 1 時間あたりわずか XNUMX ドルで利用できるようです。

スケールアップする

この組織は、時間の経過とともに、リソースをプロビジョニングするためのよりクラウドのようなオーケストレーション レイヤーを導入することを目指しています。 GigaIO の PCIe 5.0 ベースの FabreX テクノロジーを実装して、単一ドメイン内に最大 5,750 個の GPU をつなぎ合わせ、XNUMX ペタバイトを超える高帯域幅メモリを搭載することも議題となっています。

これらのいわゆる TensorNODE は、GigaIO の SuperNODE アーキテクチャに基づいています。 披露した 昨年は、32 組の PCIe スイッチ アプライアンスを使用して、最大 210 個の AMD MIXNUMX GPU を接続しました。理論的には、これにより、単一の CPU ヘッド ノードで、今日の GPU ノードで通常見られる XNUMX つのアクセラレータよりもはるかに多くのアクセラレータに対応できるようになります。

このアプローチは、NVLink を使用して複数のスーパーチップを 1.8 つの大きな GPU につなぎ合わせる Nvidia の推奨設計とは異なります。 NVLink の帯域幅は XNUMXTB/秒に達し、かなり高速です。 最新のイテレーション PCIe 128 ではわずか 5.0GB/秒であるのに対し、最大 576 個の GPU 構成しかサポートしません。

TensorWave は、他のデータセンター事業者が使用している手法である大規模な借入資金調達ラウンドの担保として GPU を使用することで、ビットバーンの構築に資金を提供します。つい先週、ラムダ 明らかになった Nvidia の「数万」の最速アクセラレータの導入資金として 500 億ドルの融資を確保していました。

一方、レンタル GPU の最大手プロバイダーの 1 つである CoreWeave は、次のことを行うことができました。 安全に データセンターの設置面積を拡大するための 2.3 億ドルという巨額の融資。

「今年後半に同様の発表がここで行われることを期待すべきでしょう」とトマシク氏は語った。 ®

スポット画像

最新のインテリジェンス

スポット画像