AI 雲端新創公司 TensorWave 押注 AMD 可以擊敗 Nvidia

擅長運行熱且耗電的GPU 和其他人工智慧基礎設施的專業雲端營運商正在興起，雖然其中一些參與者（如CoreWeave、Lambda 或Voltage Park）已經使用數萬個Nvidia GPU 構建了自己的集群，但其他參與者正在轉向使用而是AMD。

後者的一個例子是 Bit Barn 新創公司 TensorWave，該公司本月早些時候開始部署由 AMD Instinct MI300X 驅動的系統，併計劃以訪問 Nvidia 加速器費用的一小部分來租賃這些晶片。

TensorWave 聯合創始人 Jeff Tatarchuk 認為 AMD 最新的加速器具有許多優良品質。對於初學者來說，您實際上可以購買它們。 TensorWave 已獲得大量零件分配。

到 2024 年底，TensorWave 的目標是在兩個設施中部署 20,000 個 MI300X 加速器，並計劃明年上線更多液冷系統。

AMD 最新的 AI 晶片也比 Nvidia 令人垂涎的 H100 更快。「僅就原始規格而言，MI300x 優於 H100，」Tatarchuk 說道。

MI300X 於 XNUMX 月在 AMD 的 Advancing AI 活動中推出，是該晶片設計公司迄今最先進的加速器。這 750W晶片使用先進的封裝組合將 12 個小晶片（如果算上 HBM20 模組的話就是 3 個）拼湊成一個 GPU，據稱比 Nvidia 的 H32 快 100%。

除了更高的浮點性能外，該晶片還擁有更大的 192GB HBM3 內存，能夠提供 5.3TB/s 的頻寬，而 H80 聲稱的頻寬為 3.35GB 和 100TB/s。

正如我們從 Nvidia 的 H200（透過包含 HBM100e 增強的 H3 版本）所看到的那樣，記憶體頻寬是主要貢獻者人工智慧效能，特別是在大型語言模型的推理方面。

與 Nvidia 的 HGX 和英特爾的 OAM 設計非常相似，AMD 最新 GPU 的標準配置需要每個節點八個加速器。

這就是 TensorWave 的人員正在忙著整理和堆疊的配置。

塔塔丘克說：“我們現在有數百人加入，未來幾個月將有數千人加入。”

在一張照片中發布 TensorWave 團隊向社群媒體展示了三個 8U Supermicro AS-8125GS-TNMR2 系統架起來了。這讓我們質疑 TensorWave 的機架是否受到功率或熱量限制，畢竟這些系統在滿載時拉動超過 10kW 的情況並不罕見。

事實證明，TensorWave 的人員尚未完成機器的安裝，該公司的目標是四個節點，每個機架的總容量約為 40kW。這些系統將使用後門熱交換器 (RDHx) 進行冷卻。正如我們已經討論過去，這些是機架大小的散熱器，冷水流經其中。當熱空氣從傳統伺服器中排出時，它會穿過散熱器，將其冷卻到可接受的水平。

TensorWave 營運長 Piotr Tomasik 表示，這種冷卻技術已成為尋求支援更密集 GPU 叢集的資料中心營運商的熱門商品，並帶來了一些供應鏈挑戰。

他說：「即使是現在資料中心周圍的輔助設備，也存在著許多容量問題。」他特別指出 RDHx 是一個痛點。 “到目前為止，我們已經取得了成功，我們非常看好我們部署它們的能力。”

然而，從長遠來看，TensorWave 的目標是直接晶片冷卻，這可能很難部署在不是為容納 GPU 設計的資料中心中，Tomasik 說。「我們很高興能在今年下半年直接部署晶片冷卻。我們認為，隨著密度的增加，這會變得更好、更容易。

另一個挑戰是對 AMD 性能的信心。 Tatarchuk 表示，雖然人們對 AMD 提供 Nvidia 的替代品抱有很大熱情，但客戶並不確定他們是否會享受相同的性能。 “還有很多人說‘我們不能 100% 確定它是否會像我們目前在 Nvidia 上使用的那樣出色’，”他說。

為了盡快啟動和運行系統，TensorWave 將推出使用基於融合乙太網路的 RDMA (RoCE) 的 MI300X 節點。這些裸機系統將提供固定租賃期，顯然價格低至 1 美元/小時/GPU。

隨著時間的推移，該公司的目標是引入一個更像雲端的編排層來配置資源。實施基於 GigaIO PCIe 5.0 的 FabreX 技術，將單一域中多達 5,750 個 GPU 與超過 XNUMX PB 的高頻寬記憶體拼接在一起，也已提上行程。

這些所謂的 TensorNODE 是基於 GigaIO 的 SuperNODE 架構的炫耀去年，該公司使用一對 PCIe 交換器設備將多達 32 個 AMD MI210 GPU 連接在一起。理論上，這應該允許單一 CPU 頭節點處理遠遠超過當今 GPU 節點中常見的八個加速器的位址。

這種方法不同於 Nvidia 的首選設計，後者使用 NVLink 將多個超級晶片拼接成一個大 GPU。雖然 NVLink 的速度要快得多，其頻寬達到 1.8TB/s 最新迭代與 PCIe 128 上的僅 5.0GB/s 相比，它僅支援最多 576 個 GPU 的配置。

TensorWave 將使用其 GPU 作為一大輪債務融資的抵押品，為其比特倉建設提供資金，其他資料中心營運商也採用這種方法。就在上週，拉姆達發現它獲得了 500 億美元的貸款，用於資助「數以萬計」的 Nvidia 最快加速器的部署。

同時，最大的 GPU 租賃提供者之一 CoreWeave 能夠安全一筆 2.3 億美元的巨額貸款，用於擴大其資料中心的覆蓋範圍。

托馬西克說：“你會，你應該期望我們今年晚些時候會在這裡發布同樣的公告。” ®

SEO 支持的內容和 PR 分發。今天得到放大。
PlatoData.Network 垂直生成人工智能。賦予自己力量。訪問這裡。
柏拉圖愛流。 Web3 智能。知識放大。訪問這裡。
柏拉圖ESG。碳，清潔科技, 能源，環境，太陽能，廢物管理。訪問這裡。
柏拉圖健康。生物技術和臨床試驗情報。訪問這裡。
資源： https://go.theregister.com/feed/www.theregister.com/2024/04/16/amd_tensorwave_mi300x/

生成數據智能