Logo Zéphyrnet

Démonstrations cohérentes de commutateurs optiques pour des clusters d'IA encore plus grands

Date :

L'entreprise de mise en réseau Coherent a dévoilé lundi un commutateur de circuit optique conçu pour prendre en charge les clusters d'IA haute densité lors de la conférence sur les communications par fibre optique.

Le commutateur n'est pas comme ceux que l'on trouve généralement dans les clusters d'IA dans la mesure où la commutation réelle est entièrement gérée de manière optique, plutôt que d'utiliser des émetteurs-récepteurs pour convertir les photons en électrons et vice-versa. La lumière laser entre simplement dans un port et en sort dans un autre – avec un peu d’atténuation, bien sûr.

La appareil, qui devrait être expédié en volume l'année prochaine, comprend 300 ports d'entrée et 300 ports de sortie et est basé sur la technologie Datacenter Light Wave Cross Connect de Coherent. Tel que nous le comprenons, cela fonctionne en manipulant les cellules à cristaux liquides pour contrôler quelle longueur d’onde de la lumière va où.

Le dernier commutateur de circuit optique de Coherent exposé à l'OFC comprend 300 ports d'entrée et 300 ports de sortie.

Le dernier commutateur de circuit optique de Coherent exposé à l'OFC comprend 300 ports d'entrée et 300 ports de sortie – Cliquez pour agrandir

Sameh Boujelbene, analyste du groupe Dell'Oro, a déclaré Le registre que les commutateurs de circuits optiques offrent quelques avantages. En plus d'un réseau à bande passante élevée et à faible latence, les commutateurs de ce type ont tendance à être moins coûteux à exploiter, car ils nécessitent beaucoup moins de commutateurs électriques et d'émetteurs-récepteurs optiques.

De plus, Coherent note que ce type de commutation optique a tendance à être plus fiable – ce qui sera rentable dans des clusters très grands dans lesquels le temps moyen avant panne a tendance à être assez faible.

C'est l'une des raisons pour lesquelles Google a développé ses propres commutateurs de circuits optiques pour ses pods TPUv4. S'exprimant à Hot Chips l'année dernière, Andy Swing, responsable technique du groupe TPU de Google, expliqué [Vidéo] qui, grâce à OCS, Google a pu interconnecter de très grandes quantités d'accélérateurs.

Ces pods se composent de 64 racks, chacun contenant 64 unités de traitement tensoriel (TPU). Chacun de ces racks était connecté optiquement à l'un des commutateurs OCS développés en interne par Google, pour un maillage tout-à-tout.

Swing a expliqué que cette approche présente quelques avantages, notamment la possibilité de reconfigurer la taille du cluster de manière dynamique. Une autre raison est que tous les accélérateurs sont connectés les uns aux autres, ce qui améliore la fiabilité – une qualité souhaitable car les charges de travail de formation peuvent durer des mois en fonction du nombre de paramètres du modèle et de la taille de l'ensemble de données.

Dans le cas des pods TPUv4 de Google, si l'un des nœuds tombait en panne, le commutateur pourrait être reconfiguré pour contourner le problème.

Swing a également noté que l'approche permet d'utiliser diverses topologies de réseau en fonction du modèle. Par exemple, lors des tests, Google a constaté une augmentation considérable de la bande passante du réseau en utilisant une topologie en tore torsadé, dans laquelle les accélérateurs sont reliés entre eux dans quelque chose qui ressemble à une boucle torsadée.

Mais si les nouvelles appliances OCS de Coherent peuvent permettre à d'autres de créer des clusters à commutation optique similaires à ceux de Google, Boujelbene de Dell Oro a noté qu'OCS est encore une technologie relativement nouvelle dans le centre de données.

"Jusqu'à présent, seul Google, après de nombreuses années de développement, a pu le déployer massivement dans ses réseaux de centres de données », a-t-elle déclaré. "De plus, les commutateurs OCS peuvent nécessiter un changement dans la base installée de fibre en fonction du fournisseur de services cloud." ®

spot_img

Dernières informations

spot_img