Zephyrnet-Logo

Kohärente Demos optischer Schalter für noch größere KI-Cluster

Datum:

Das Netzwerkunternehmen Coherent stellte am Montag auf der Optical Fiber Communication Conference einen optischen Schaltkreisschalter vor, der KI-Cluster mit hoher Dichte unterstützen soll.

Der Schalter unterscheidet sich von denen, die man normalerweise in KI-Clustern findet, da der eigentliche Schalter vollständig optisch gehandhabt wird und nicht Transceiver verwendet werden, um Photonen in Elektronen und wieder zurück umzuwandeln. Laserlicht tritt einfach in einen Port ein und verlässt einen anderen – natürlich mit etwas Dämpfung.

Das Gerät, dessen Massenauslieferung im nächsten Jahr geplant ist, verfügt über 300 Eingangs- und 300 Ausgangsanschlüsse und basiert auf der Datacenter Light Wave Cross Connect-Technologie von Coherent. So wie wir es verstehen, funktioniert es durch die Manipulation von Flüssigkristallzellen, um zu steuern, welche Wellenlänge des Lichts wohin gelangt.

Der neueste optische Schaltungsschalter von Coherent, der auf der OFC ausgestellt wird, verfügt über 300 Eingangs- und 300 Ausgangsanschlüsse.

Der neueste optische Schaltungsschalter von Coherent, der auf der OFC ausgestellt wird, verfügt über 300 Eingangs- und 300 Ausgangsanschlüsse – zum Vergrößern anklicken

Sameh Boujelbene, Analyst der Dell'Oro Group, sagte Das Register dass optische Schaltkreisschalter einige Vorteile bieten. Zusätzlich zu der hohen Bandbreite und der Vernetzung mit geringer Latenz sind Switches dieser Art tendenziell kostengünstiger im Betrieb, da sie wesentlich weniger elektrische Switches und optische Transceiver erfordern.

Darüber hinaus stellt Coherent fest, dass diese Art der optischen Umschaltung tendenziell zuverlässiger ist – etwas, das sich in sehr größeren Clustern auszahlt, in denen die mittlere Zeit bis zum Ausfall tendenziell recht gering ist.

Dies ist einer der Gründe, warum Google für seine TPUv4-Pods eigene optische Schaltkreisschalter entwickelt hat. Andy Swing, technischer Leiter der TPU-Gruppe von Google, sprach letztes Jahr bei Hot Chips: erklärt [Video] dass Google durch den Einsatz von OCS sehr große Mengen an Beschleunigern zusammenschalten konnte.

Diese Pods bestehen aus 64 Racks mit jeweils 64 Tensor Processing Units (TPUs). Jedes dieser Racks wurde optisch mit einem der intern von Google entwickelten OCS-Switches verbunden, um ein All-to-All-Mesh zu schaffen.

Swing erklärte, dass dieser Ansatz mehrere Vorteile hat – einschließlich der Möglichkeit, die Clustergröße dynamisch neu zu konfigurieren. Ein weiterer Grund ist, dass alle Beschleuniger miteinander verbunden sind, was die Zuverlässigkeit verbessert – eine wünschenswerte Qualität, da die Trainingsbelastung je nach Parameteranzahl des Modells und Größe des Datensatzes Monate dauern kann.

Sollte im Fall der TPUv4-Pods von Google einer der Knoten ausfallen, könnte der Switch neu konfiguriert werden, um das Problem zu umgehen.

Swing wies außerdem darauf hin, dass der Ansatz je nach Modell die Verwendung verschiedener Netzwerktopologien ermöglicht. Bei Tests konnte Google beispielsweise eine beträchtliche Steigerung der Netzwerkbandbreite durch die Verwendung einer Twisted-Torus-Topologie feststellen, bei der Beschleuniger in einer Art verdrehter Schleife miteinander verbunden sind.

Doch während die neuen OCS-Appliances von Coherent es anderen möglicherweise ermöglichen, ähnlich wie bei Google optisch geschaltete Cluster aufzubauen, bemerkte Boujelbene von Dell Oro, dass es sich bei OCS noch um eine relativ neue Technologie im Rechenzentrum handele.

„Bisher war nur Google nach vielen Jahren der Entwicklung in der Lage, es bereitzustellen en masse in seinen Rechenzentrumsnetzwerken“, sagte sie. „Darüber hinaus erfordern OCS-Switches je nach Cloud-Dienstanbieter möglicherweise eine Änderung der installierten Glasfaserbasis.“ ®

spot_img

Neueste Intelligenz

spot_img