和風網標誌

相干演示適用於更大 AI 集群的光開關

日期:

網路公司相干公司在周一的光纖通訊大會上推出了一款旨在支援高密度人工智慧集群的光路交換機。

該開關與您在人工智慧叢集中常見的開關不同,實際的開關完全透過光學方式處理,而不是使用收發器將光子轉換為電子並再次轉換回來。雷射只是進入一個端口並從另一個端口射出——當然,會有一點衰減。

器具預計明年批量發貨,具有 300 個輸入和 300 個輸出端口,基於相干公司的資料中心光波交叉連接技術。據我們了解,它的工作原理是操縱液晶單元來控制光的波長去哪裡。

相干公司在 OFC 上展示的最新光路交換器擁有 300 個輸入埠和 300 個輸出埠。

相干公司在 OFC 上展示的最新光路交換器擁有 300 個輸入埠和 300 個輸出埠 – 點擊放大

Dell'Oro Group 分析師 Sameh Boujelbene 表示 註冊 光路開關有幾個好處。除了高頻寬和低延遲網路之外,此類交換器的運作成本往往較低,因為它們需要的電氣交換器和光收發器要少得多。

此外,相干公司指出,這種光交換往往更可靠——這將在更大的集群中帶來紅利,在這些集群中,平均無故障時間往往相當短。

這就是 Google 為其 TPUv4 Pod 開發自己的光路開關的原因之一。去年,Google TPU 團隊的技術負責人 Andy Swing 在 Hot Chips 上發表講話, 解釋 [影片] 透過使用 OCS,Google 能夠將大量加速器切換到一起。

這些 Pod 由 64 個機架組成,每個機架包含 64 個張量處理單元 (TPU)。每個機架都透過光學方式連接回 Google 內部開發的 OCS 交換器之一,以實現全對全網格。

Swing 解釋說,這種方法有幾個好處——包括動態重新配置叢集大小的能力。另一個原因是所有加速器都相互連接,這提高了可靠性——這是一種理想的質量,因為訓練工作負載可以持續數月,具體取決於模型的參數計數和資料集的大小。

對於 Google 的 TPUv4 Pod,如果其中一個節點發生故障,可以重新配置交換器來解決該問題。

Swing 也指出,該方法允許根據模型使用各種網路拓撲。例如,在測試中,Google透過使用扭曲環面拓撲,看到了網路頻寬的大幅提升,其中加速器以類似於扭曲環的方式嚙合在一起。

不過,雖然 Coherent 的新型 OCS 設備可能允許其他公司建立類似 Google 的光交換集群,但 Dell Oro 的 Boujelbene 指出,OCS 在資料中心中仍然是一項相對較新的技術。

「到目前為止,只有谷歌經過多年的發展才能夠部署它 集體 在其數據中心網路中,」她說。 “此外,OCS 交換器可能需要改變光纖安裝基礎,具體取決於雲端服務提供者。” ®

現貨圖片

最新情報

現貨圖片