ゼファーネットのロゴ

Coherentは、さらに大規模なAIクラスター向けの光スイッチをデモします

日付:

ネットワーキング業界のコヒレントは、月曜日の光ファイバー通信カンファレンスで、高密度 AI クラスターをサポートするように設計された光回線スイッチを発表しました。

このスイッチは、実際のスイッチングがトランシーバーを使用して光子を電子に変換し、再び電子に変換するのではなく、完全に光学的に処理されるという点で、AI クラスターで通常見られるものとは異なります。レーザー光は単純に 1 つのポートに入り、別のポートから出ますが、もちろん多少の減衰はあります。

  アプライアンスは来年大量出荷される予定で、300 個の入力ポートと 300 個の出力ポートを備え、コヒレントのデータセンター ライトウェーブ クロスコネクト技術に基づいています。私たちが理解しているように、それは液晶セルを操作して、どの波長の光がどこに行くかを制御することによって機能します。

OFC で展示されているコヒレントの最新の光回線スイッチは、300 個の入力ポートと 300 個の出力ポートを備えています。

OFC で展示されているコヒレントの最新の光回線スイッチは、300 個の入力ポートと 300 個の出力ポートを誇ります – クリックして拡大

Dell'Oro Groupのアナリスト、Sameh Boujelbene氏はこう語った。 登録 光回線スイッチにはいくつかの利点があります。このタイプのスイッチは、高帯域幅と低遅延ネットワーキングに加えて、必要な電気スイッチや光トランシーバの数が大幅に少なくなるため、運用コストが低くなる傾向があります。

さらに、コヒレントは、この種の光スイッチングは信頼性が高くなる傾向にあると指摘しています。これは、平均故障時間が非常に短い傾向にある非常に大規模なクラスタで恩恵を受けることになります。

これが、Google が TPUv4 ポッド用に独自の光回線スイッチを開発した理由の XNUMX つです。昨年の Hot Chips で、Google の TPU グループの技術責任者である Andy Swing 氏は次のように講演しました。 説明 [ビデオ] Google は OCS を使用することで、非常に大量のアクセラレータを切り替えることができました。

これらのポッドは 64 個のラックで構成され、各ラックには 64 個の Tensor Processing Unit (TPU) が含まれています。これらの各ラックは、Google が社内で開発した OCS スイッチの XNUMX つに光学的に接続され、全対全メッシュが実現されました。

Swing 氏は、このアプローチにはクラスター サイズを動的に再構成できる機能など、いくつかの利点があると説明しました。もう 1 つは、すべてのアクセラレータが相互に接続されているため、信頼性が向上します。これは、モデルのパラメーター数とデータセットのサイズによっては、トレーニング ワークロードが数か月続く可能性があるため、望ましい品質です。

Google の TPUv4 ポッドの場合、ノードの XNUMX つで障害が発生した場合、スイッチを再構成して問題を回避できます。

Swing 氏はまた、このアプローチにより、モデルに応じてさまざまなネットワーク トポロジの使用が可能になると述べました。たとえば、Google はテストで、ツイスト トーラス トポロジを使用することにより、ネットワーク帯域幅が大幅に向上することを確認しました。ツイスト トーラス トポロジでは、アクセラレータがツイスト ループに似たものでメッシュされています。

しかし、Coherentの新しいOCSアプライアンスにより、他の企業もGoogleと同様の光スイッチクラスタを構築できるようになるかもしれないが、Dell OroのBoujelbene氏は、OCSはデータセンターにおいてはまだ比較的新しいテクノロジーであると指摘した。

「これまでのところ、長年の開発を経てこれを導入できたのは Google だけです 大挙して データセンターネットワーク内で。」と彼女は言いました。 「さらに、クラウド サービス プロバイダーによっては、OCS スイッチのファイバーの設置ベースの変更が必要になる場合があります。」 ®

スポット画像

最新のインテリジェンス

スポット画像