Zephyrnet-logo

Sammenhengende demo optiske brytere for enda større AI-klynger

Dato:

Networking biz Coherent avduket en optisk kretsbryter designet for å støtte AI-klynger med høy tetthet på optisk fiberkommunikasjonskonferanse på mandag.

Bryteren er ikke som de du vanligvis finner i AI-klynger ved at selve svitsjen håndteres helt optisk, i stedet for å bruke transceivere til å konvertere fotoner til elektroner og tilbake igjen. Laserlys går rett og slett inn i en port og går ut av en annen – med litt demping, selvfølgelig.

De apparatet, som skal leveres i volum neste år, har 300 innganger og 300 utganger og er basert på Coherents Datacenter Light Wave Cross Connect-teknologi. Slik vi forstår det, fungerer det ved å manipulere flytende krystallceller for å kontrollere hvilken bølgelengde av lys som går hvor.

Coherents nyeste optiske kretsbryter som vises på OFC, har 300 innganger og 300 utganger.

Coherents nyeste optiske kretsbryter som vises på OFC har 300 innganger og 300 utganger – Klikk for å forstørre

Det fortalte analytiker Sameh Boujelbene fra Dell'Oro Group Registeret at optiske kretsbrytere gir et par fordeler. I tillegg til høy båndbredde og nettverk med lav ventetid, har brytere av denne typen en tendens til å være rimeligere å betjene – siden de krever betydelig færre elektriske brytere og optiske sendere.

I tillegg bemerker Coherent at denne typen optisk svitsjing har en tendens til å være mer pålitelig – noe som vil gi utbytte i svært større klynger, der gjennomsnittstiden til feil har en tendens til å være ganske lav.

Dette er en av grunnene til at Google utviklet sine egne optiske kretsbrytere for sine TPUv4-poder. Andy Swing, en teknisk leder for Googles TPU-gruppe, snakket på Hot Chips i fjor, forklarte [Video] som ved å bruke OCS var Google i stand til å bytte sammen svært store mengder akseleratorer.

Disse podene består av 64 stativer, som hver inneholder 64 Tensor Processing Units (TPUer). Hvert av disse stativene ble koblet optisk tilbake til en av Googles internt utviklede OCS-svitsjer, for et alt-til-alle-nettverk.

Swing forklarte at denne tilnærmingen har et par fordeler – inkludert muligheten til å rekonfigurere klyngestørrelsen dynamisk. En annen er at alle akseleratorene er koblet til hverandre, noe som forbedrer påliteligheten – en ønskelig kvalitet ettersom treningsarbeidsmengder kan vare måneder avhengig av modellens parameterantall og størrelsen på datasettet.

Når det gjelder Googles TPUv4-poder, hvis en av nodene skulle svikte, kan bryteren konfigureres på nytt for å omgå problemet.

Swing bemerket også at tilnærmingen gjør det mulig å bruke ulike nettverkstopologier avhengig av modellen. For eksempel, i testing, så Google en betydelig økning i nettverksbåndbredde ved å bruke en vridd torus-topologi, der akseleratorer er masket sammen i noe som ligner en vridd sløyfe.

Men mens Coherents nye OCS-apparater kan tillate andre å bygge optisk svitsjede klynger som ligner på Googles, bemerket Dell Oros Boujelbene at OCS fortsatt er en relativt ny teknologi i datasenteret.

«Foreløpig var det bare Google, etter mange år i utvikling, som var i stand til å distribuere det hopetall i sine datasenternettverk,» sa hun. "I tillegg kan OCS-svitsjer kreve en endring i installert fiberbase avhengig av skytjenesteleverandøren." ®

spot_img

VC kafé

LifeSciVC

Siste etterretning

VC kafé

LifeSciVC

spot_img