Zephyrnet Logo

Demonstrações coerentes de switches ópticos para clusters de IA ainda maiores

Data:

A Networking biz Coherent revelou um switch de circuito óptico projetado para suportar clusters de IA de alta densidade na Conferência de Comunicação de Fibra Óptica na segunda-feira.

A mudança não é como aquelas que você normalmente encontra em clusters de IA, pois a mudança real é feita inteiramente opticamente, em vez de usar transceptores para converter fótons em elétrons e vice-versa. A luz do laser simplesmente entra por uma porta e sai por outra – com um pouco de atenuação, é claro.

A utensílio, que está programado para ser lançado em grande volume no próximo ano, possui 300 portas de entrada e 300 portas de saída e é baseado na tecnologia Datacenter Light Wave Cross Connect da Coherent. Tal como o entendemos, ele funciona manipulando células de cristal líquido para controlar qual comprimento de onda da luz vai para onde.

O mais recente switch de circuito óptico da Coherent em exibição na OFC possui 300 portas de entrada e 300 portas de saída.

O mais recente switch de circuito óptico da Coherent em exibição na OFC possui 300 portas de entrada e 300 portas de saída – Clique para ampliar

O analista do Grupo Dell'Oro, Sameh Boujelbene, disse O registro que os interruptores de circuito óptico oferecem alguns benefícios. Além da alta largura de banda e da rede de baixa latência, os switches desse tipo tendem a ser mais baratos de operar – pois exigem substancialmente menos switches elétricos e transceptores ópticos.

Além disso, Coherent observa que esse tipo de comutação óptica tende a ser mais confiável – algo que renderá dividendos em clusters muito maiores, nos quais o tempo médio até a falha tende a ser bastante baixo.

Esta é uma das razões pelas quais o Google desenvolveu seus próprios switches de circuito óptico para seus pods TPUv4. Falando na Hot Chips no ano passado, Andy Swing, líder técnico do grupo TPU do Google, explicado [Vídeo] que, usando o OCS, o Google conseguiu alternar grandes quantidades de aceleradores.

Esses pods consistem em 64 racks, cada um contendo 64 unidades de processamento de tensor (TPUs). Cada um desses racks foi conectado opticamente a um dos switches OCS desenvolvidos internamente pelo Google, para uma malha completa.

Swing explicou que essa abordagem tem alguns benefícios – incluindo a capacidade de reconfigurar o tamanho do cluster dinamicamente. Outra é que todos os aceleradores estão conectados uns aos outros, o que melhora a confiabilidade – uma qualidade desejável, já que as cargas de trabalho de treinamento podem durar meses, dependendo da contagem de parâmetros do modelo e do tamanho do conjunto de dados.

No caso dos pods TPUv4 do Google, se um dos nós falhar, o switch poderá ser reconfigurado para solucionar o problema.

Swing também observou que a abordagem permite o uso de várias topologias de rede dependendo do modelo. Por exemplo, em testes, o Google observou um aumento considerável na largura de banda da rede ao usar uma topologia de toro torcido, na qual os aceleradores são interligados em algo semelhante a um loop torcido.

Mas embora os novos dispositivos OCS da Coherent possam permitir que outros construam clusters comutados opticamente semelhantes aos do Google, Boujelbene da Dell Oro observou que o OCS ainda é uma tecnologia relativamente nova no datacenter.

“Até agora, apenas o Google, depois de muitos anos de desenvolvimento, conseguiu implantá-lo em massa em suas redes de datacenter”, disse ela. “Além disso, os switches OCS podem exigir uma mudança na base instalada de fibra, dependendo do provedor de serviços de nuvem.” ®

local_img

Café VC

Café VC

Inteligência mais recente

local_img