Logo Zephyrnet

Interruttori ottici demo coerenti per cluster AI ancora più grandi

Data:

Lunedì, Networking biz Coherent ha presentato un interruttore di circuito ottico progettato per supportare cluster AI ad alta densità alla conferenza sulla comunicazione in fibra ottica.

La commutazione non è come quelle che potresti trovare tipicamente nei cluster di intelligenza artificiale in quanto la commutazione effettiva viene gestita interamente otticamente, anziché utilizzare ricetrasmettitori per convertire i fotoni in elettroni e viceversa. La luce laser entra semplicemente in una porta ed esce da un'altra, ovviamente con un po' di attenuazione.

I apparecchio, la cui distribuzione in volumi è prevista per il prossimo anno, presenta 300 porte di input e 300 di output e si basa sulla tecnologia Datacenter Light Wave Cross Connect di Coherent. Per come lo comprendiamo, funziona manipolando le celle a cristalli liquidi per controllare quale lunghezza d'onda della luce va dove.

L'ultimo interruttore a circuito ottico di Coherent in mostra all'OFC vanta 300 porte di ingresso e 300 di uscita.

L'ultimo interruttore del circuito ottico di Coherent in mostra all'OFC vanta 300 porte di ingresso e 300 porte di uscita – Clicca per ingrandire

Lo ha detto l'analista del Gruppo Dell'Oro, Sameh Boujelbene Il registro che gli interruttori del circuito ottico offrono un paio di vantaggi. Oltre alla larghezza di banda elevata e alla rete a bassa latenza, gli switch di questo tipo tendono ad essere meno costosi da utilizzare, poiché richiedono un numero sostanzialmente inferiore di switch elettrici e ricetrasmettitori ottici.

Inoltre, Coherent osserva che questo tipo di commutazione ottica tende ad essere più affidabile, qualcosa che ripagherà i dividendi in cluster molto più grandi in cui il tempo medio al guasto tende ad essere piuttosto basso.

Questo è uno dei motivi per cui Google ha sviluppato i propri interruttori del circuito ottico per i suoi pod TPUv4. Intervenendo a Hot Chips lo scorso anno, Andy Swing, responsabile tecnico del gruppo TPU di Google, ha spiegato [Video] che utilizzando OCS Google è riuscito a commutare insieme grandissime quantità di acceleratori.

Questi pod sono costituiti da 64 rack, ciascuno contenente 64 unità di elaborazione tensore (TPU). Ciascuno di questi rack è stato collegato otticamente a uno degli switch OCS sviluppati internamente da Google, per un mesh all-to-all.

Swing ha spiegato che questo approccio presenta un paio di vantaggi, inclusa la possibilità di riconfigurare dinamicamente le dimensioni del cluster. Un altro è che tutti gli acceleratori sono collegati tra loro, il che migliora l'affidabilità, una qualità desiderabile poiché i carichi di lavoro di addestramento possono durare mesi a seconda del conteggio dei parametri del modello e della dimensione del set di dati.

Nel caso dei pod TPUv4 di Google, se uno dei nodi dovesse guastarsi, lo switch potrebbe essere riconfigurato per risolvere il problema.

Swing ha inoltre osservato che l'approccio consente l'utilizzo di varie topologie di rete a seconda del modello. Ad esempio, durante i test, Google ha riscontrato un aumento considerevole della larghezza di banda della rete utilizzando una topologia a toro ritorto, in cui gli acceleratori sono intrecciati insieme in qualcosa di simile a un anello ritorto.

Ma mentre i nuovi dispositivi OCS di Coherent potrebbero consentire ad altri di costruire cluster a commutazione ottica simili a quelli di Google, Boujelbene di Dell Oro ha osservato che OCS è ancora una tecnologia relativamente nuova nei data center.

“Finora solo Google, dopo molti anni di sviluppo, è stata in grado di implementarlo in massa nelle sue reti di data center", ha affermato. "Inoltre, gli switch OCS potrebbero richiedere una modifica nella base di fibra installata a seconda del fornitore di servizi cloud." ®

spot_img

L'ultima intelligenza

spot_img