Zephyrnet-logotyp

Sammanhängande demo optiska switchar för ännu större AI-kluster

Datum:

Networking biz Coherent presenterade en optisk kretsswitch designad för att stödja högdensitets AI-kluster vid Optical Fiber Communication Conference på måndagen.

Omkopplaren är inte som de du vanligtvis kan hitta i AI-kluster genom att själva omkopplingen hanteras helt optiskt, snarare än att använda transceivrar för att omvandla fotoner till elektroner och tillbaka igen. Laserljus går helt enkelt in i en port och går ut från en annan – med lite dämpning förstås.

Smakämnen apparat, som planeras att levereras i volym nästa år, har 300 ingångar och 300 utgångsportar och är baserad på Coherents Datacenter Light Wave Cross Connect-teknik. Som vi förstår det fungerar det genom att manipulera flytande kristallceller för att kontrollera vilken våglängd av ljus som går vart.

Coherents senaste optiska kretsomkopplare som visas på OFC har 300 ingångar och 300 utgångsportar.

Coherents senaste optiska kretsomkopplare som visas på OFC har 300 ingångar och 300 utgångsportar – Klicka för att förstora

Dell'Oro Group analytiker Sameh Boujelbene berättade Registret att optiska kretsomkopplare erbjuder ett par fördelar. Förutom hög bandbredd och nätverk med låg latens, tenderar switchar av denna typ att vara billigare att använda – eftersom de kräver avsevärt färre elektriska switchar och optiska transceivrar.

Dessutom noterar Coherent att den här typen av optisk omkoppling tenderar att vara mer tillförlitlig – något som kommer att ge utdelning i mycket större kluster där medeltiden till misslyckande tenderar att vara ganska låg.

Detta är en av anledningarna till att Google utvecklade sina egna optiska kretsomkopplare för sina TPUv4-pods. Andy Swing, en teknisk ledare för Googles TPU-grupp, talade på Hot Chips förra året, förklarade [Video] som genom att använda OCS kunde Google koppla ihop väldigt stora mängder acceleratorer.

Dessa kapslar består av 64 rack, som var och en innehåller 64 Tensor Processing Units (TPU). Var och en av dessa rack kopplades optiskt tillbaka till en av Googles internt utvecklade OCS-switchar, för ett allt-till-alla-nät.

Swing förklarade att detta tillvägagångssätt har ett par fördelar – inklusive möjligheten att konfigurera om klusterstorleken dynamiskt. En annan är att alla acceleratorer är anslutna till varandra, vilket förbättrar tillförlitligheten – en önskvärd kvalitet eftersom träningsbelastningar kan pågå i månader beroende på modellens parameterantal och datauppsättningens storlek.

När det gäller Googles TPUv4-poddar, om en av noderna skulle misslyckas, kan switchen konfigureras om för att lösa problemet.

Swing noterade också att tillvägagångssättet tillåter att olika nätverkstopologier kan användas beroende på modell. Till exempel, i tester, såg Google en avsevärd ökning av nätverkets bandbredd genom att använda en vriden torus-topologi, där acceleratorer är sammankopplade i något som liknar en tvinnad slinga.

Men medan Coherents nya OCS-apparater kan tillåta andra att bygga optiskt kopplade kluster liknande Googles, noterade Dell Oros Boujelbene att OCS fortfarande är en relativt ny teknik i datacentret.

"Än så länge har bara Google, efter många år i utveckling, kunnat implementera det en masse i sina datacenternätverk”, sa hon. "Dessutom kan OCS-switchar kräva en förändring av den installerade basen av fiber beroende på molntjänstleverantören." ®

plats_img

Senaste intelligens

plats_img