和風網標誌

AI 雲端新創公司 TensorWave 押注 AMD 可以擊敗 Nvidia

日期:

擅長運行熱且耗電的GPU 和其他人工智慧基礎設施的專業雲端營運商正在興起,雖然其中一些參與者(如CoreWeave、Lambda 或Voltage Park)已經使用數萬個Nvidia GPU 構建了自己的集群,但其他參與者正在轉向使用而是AMD。

後者的一個例子是 Bit Barn 新創公司 TensorWave,該公司本月早些時候開始部署由 AMD Instinct MI300X 驅動的系統,併計劃以訪問 Nvidia 加速器費用的一小部分來租賃這些晶片。

TensorWave 聯合創始人 Jeff Tatarchuk 認為 AMD 最新的加速器具有許多優良品質。對於初學者來說,您實際上可以購買它們。 TensorWave 已獲得大量零件分配。

到 2024 年底,TensorWave 的目標是在兩個設施中部署 20,000 個 MI300X 加速器,並計劃明年上線更多液冷系統。

AMD 最新的 AI 晶片也比 Nvidia 令人垂涎的 H100 更快。 「僅就原始規格而言,MI300x 優於 H100,」Tatarchuk 說道。

MI300X 於 XNUMX 月在 AMD 的 Advancing AI 活動中推出,是該晶片設計公司迄今最先進的加速器。這 750W晶片 使用先進的封裝組合將 12 個小晶片(如果算上 HBM20 模組的話就是 3 個)拼湊成一個 GPU,據稱比 Nvidia 的 H32 快 100%。

除了更高的浮點性能外,該晶片還擁有更大的 192GB HBM3 內存,能夠提供 5.3TB/s 的頻寬,而 H80 聲稱的頻寬為 3.35GB 和 100TB/s。

正如我們從 Nvidia 的 H200(透過包含 HBM100e 增強的 H3 版本)所看到的那樣,記憶體頻寬是 主要貢獻者 人工智慧效能,特別是在大型語言模型的推理方面。

與 Nvidia 的 HGX 和英特爾的 OAM 設計非常相似,AMD 最新 GPU 的標準配置需要每個節點八個加速器。

這就是 TensorWave 的人員正在忙著整理和堆疊的配置。

塔塔丘克說:“我們現在有數百人加入,未來幾個月將有數千人加入。”

把它們堆起來

在一張照片中 發布 TensorWave 團隊向社群媒體展示了三個 8U Supermicro AS-8125GS-TNMR2 系統 架起來了。這讓我們質疑 TensorWave 的機架是否受到功率或熱量限制,畢竟這些系統在滿載時拉動超過 10kW 的情況並不罕見。

事實證明,TensorWave 的人員尚未完成機器的安裝,該公司的目標是四個節點,每個機架的總容量約為 40kW。這些系統將使用後門熱交換器 (RDHx) 進行冷卻。正如我們已經 討論 過去,這些是機架大小的散熱器,冷水流經其中。當熱空氣從傳統伺服器中排出時,它會穿過散熱器,將其冷卻到可接受的水平。

TensorWave 營運長 Piotr Tomasik 表示,這種冷卻技術已成為尋求支援更密集 GPU 叢集的資料中心營運商的熱門商品,並帶來了一些供應鏈挑戰。

他說:「即使是現在資料中心周圍的輔助設備,也存在著許多容量問題。」他特別指出 RDHx 是一個痛點。 “到目前為止,我們已經取得了成功,我們非常看好我們部署它們的能力。”

然而,從長遠來看,TensorWave 的目標是直接晶片冷卻,這可能很難部署在不是為容納 GPU 設計的資料中心中,Tomasik 說。 「我們很高興能在今年下半年直接部署晶片冷卻。我們認為,隨著密度的增加,這會變得更好、更容易。

表現焦慮

另一個挑戰是對 AMD 性能的信心。 Tatarchuk 表示,雖然人們對 AMD 提供 Nvidia 的替代品抱有很大熱情,但客戶並不確定他們是否會享受相同的性能。 “還有很多人說‘我們不能 100% 確定它是否會像我們目前在 Nvidia 上使用的那樣出色’,”他說。

為了盡快啟動和運行系統,TensorWave 將推出使用基於融合乙太網路的 RDMA (RoCE) 的 MI300X 節點。這些裸機系統將提供固定租賃期,顯然價格低至 1 美元/小時/GPU。

擴大

隨著時間的推移,該公司的目標是引入一個更像雲端的編排層來配置資源。實施基於 GigaIO PCIe 5.0 的 FabreX 技術,將單一域中多達 5,750 個 GPU 與超過 XNUMX PB 的高頻寬記憶體拼接在一起,也已提上行程。

這些所謂的 TensorNODE 是基於 GigaIO 的 SuperNODE 架構的 炫耀 去年,該公司使用一對 PCIe 交換器設備將多達 32 個 AMD MI210 GPU 連接在一起。理論上,這應該允許單一 CPU 頭節點處理遠遠超過當今 GPU 節點中常見的八個加速器的位址。

這種方法不同於 Nvidia 的首選設計,後者使用 NVLink 將多個超級晶片拼接成一個大 GPU。雖然 NVLink 的速度要快得多,其頻寬達到 1.8TB/s 最新迭代 與 PCIe 128 上的僅 5.0GB/s 相比,它僅支援最多 576 個 GPU 的配置。

TensorWave 將使用其 GPU 作為一大輪債務融資的抵押品,為其比特倉建設提供資金,其他資料中心營運商也採用這種方法。就在上週,拉姆達 發現 它獲得了 500 億美元的貸款,用於資助「數以萬計」的 Nvidia 最快加速器的部署。

同時,最大的 GPU 租賃提供者之一 CoreWeave 能夠 安全 一筆 2.3 億美元的巨額貸款,用於擴大其資料中心的覆蓋範圍。

托馬西克說:“你會,你應該期望我們今年晚些時候會在這裡發布同樣的公告。” ®

現貨圖片

最新情報

現貨圖片