A Networking biz Coherent revelou um switch de circuito óptico projetado para suportar clusters de IA de alta densidade na Conferência de Comunicação de Fibra Óptica na segunda-feira.
A mudança não é como aquelas que você normalmente encontra em clusters de IA, pois a mudança real é feita inteiramente opticamente, em vez de usar transceptores para converter fótons em elétrons e vice-versa. A luz do laser simplesmente entra por uma porta e sai por outra – com um pouco de atenuação, é claro.
A utensílio, que está programado para ser lançado em grande volume no próximo ano, possui 300 portas de entrada e 300 portas de saída e é baseado na tecnologia Datacenter Light Wave Cross Connect da Coherent. Tal como o entendemos, ele funciona manipulando células de cristal líquido para controlar qual comprimento de onda da luz vai para onde.
O mais recente switch de circuito óptico da Coherent em exibição na OFC possui 300 portas de entrada e 300 portas de saída – Clique para ampliar
O analista do Grupo Dell'Oro, Sameh Boujelbene, disse O registro que os interruptores de circuito óptico oferecem alguns benefícios. Além da alta largura de banda e da rede de baixa latência, os switches desse tipo tendem a ser mais baratos de operar – pois exigem substancialmente menos switches elétricos e transceptores ópticos.
Além disso, Coherent observa que esse tipo de comutação óptica tende a ser mais confiável – algo que renderá dividendos em clusters muito maiores, nos quais o tempo médio até a falha tende a ser bastante baixo.
Esta é uma das razões pelas quais o Google desenvolveu seus próprios switches de circuito óptico para seus pods TPUv4. Falando na Hot Chips no ano passado, Andy Swing, líder técnico do grupo TPU do Google, explicado [Vídeo] que, usando o OCS, o Google conseguiu alternar grandes quantidades de aceleradores.
Esses pods consistem em 64 racks, cada um contendo 64 unidades de processamento de tensor (TPUs). Cada um desses racks foi conectado opticamente a um dos switches OCS desenvolvidos internamente pelo Google, para uma malha completa.
Swing explicou que essa abordagem tem alguns benefícios – incluindo a capacidade de reconfigurar o tamanho do cluster dinamicamente. Outra é que todos os aceleradores estão conectados uns aos outros, o que melhora a confiabilidade – uma qualidade desejável, já que as cargas de trabalho de treinamento podem durar meses, dependendo da contagem de parâmetros do modelo e do tamanho do conjunto de dados.
No caso dos pods TPUv4 do Google, se um dos nós falhar, o switch poderá ser reconfigurado para solucionar o problema.
Swing também observou que a abordagem permite o uso de várias topologias de rede dependendo do modelo. Por exemplo, em testes, o Google observou um aumento considerável na largura de banda da rede ao usar uma topologia de toro torcido, na qual os aceleradores são interligados em algo semelhante a um loop torcido.
Mas embora os novos dispositivos OCS da Coherent possam permitir que outros construam clusters comutados opticamente semelhantes aos do Google, Boujelbene da Dell Oro observou que o OCS ainda é uma tecnologia relativamente nova no datacenter.
“Até agora, apenas o Google, depois de muitos anos de desenvolvimento, conseguiu implantá-lo em massa em suas redes de datacenter”, disse ela. “Além disso, os switches OCS podem exigir uma mudança na base instalada de fibra, dependendo do provedor de serviços de nuvem.” ®
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
- PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
- PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
- PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
- Fonte: https://go.theregister.com/feed/www.theregister.com/2024/03/25/coherent_optical_circuit_switch/