Zephyrnet Logo

TensorWave, startup de nuvem de IA, aposta que a AMD pode vencer a Nvidia

Data:

Operadores de nuvem especializados, qualificados para executar GPUs que consomem muita energia e outras infraestruturas de IA estão surgindo e, embora alguns desses players, como CoreWeave, Lambda ou Voltage Park, tenham construído seus clusters usando dezenas de milhares de GPUs Nvidia, outros estão recorrendo a Em vez disso, AMD.

Um exemplo deste último é a startup TensorWave, que no início deste mês começou a acumular sistemas alimentados pelo Instinct MI300X da AMD, que planeja alugar os chips por uma fração do custo cobrado para acessar os aceleradores Nvidia.

O cofundador da TensorWave, Jeff Tatarchuk, acredita que os aceleradores mais recentes da AMD têm muitas qualidades excelentes. Para começar, você pode comprá-los. TensorWave garantiu uma grande alocação de peças.

Até o final de 2024, a TensorWave pretende ter 20,000 aceleradores MI300X implantados em duas instalações e planeja colocar sistemas adicionais de refrigeração líquida online no próximo ano.

O mais recente silício AI da AMD também é mais rápido que o tão cobiçado H100 da Nvidia. “Apenas nas especificações brutas, o MI300x domina o H100”, disse Tatarchuk.

Lançado no evento Advancing AI da AMD em dezembro, o MI300X é o acelerador mais avançado da empresa de design de chips até o momento. O Chip de 750W usa uma combinação de pacotes avançados para unir 12 chips – 20 se você contar os módulos HBM3 – em uma única GPU que é considerada 32% mais rápida que o H100 da Nvidia.

Além do maior desempenho de ponto flutuante, o chip também possui 192 GB de memória HBM3 maior, capaz de fornecer 5.3 TB/s de largura de banda contra os 80 GB e 3.35 TB/s reivindicados pelo H100.

Como vimos no H200 da Nvidia – uma versão do H100 impulsionada pela inclusão do HBM3e – a largura de banda da memória é um contribuidor principal ao desempenho da IA, particularmente na inferência em grandes modelos de linguagem.

Assim como os designs HGX da Nvidia e OAM da Intel, as configurações padrão da GPU mais recente da AMD exigem oito aceleradores por nó.

Essa é a configuração que o pessoal da TensorWave está ocupado armazenando e empilhando.

“Temos centenas entrando agora e milhares nos próximos meses”, disse Tatarchuk.

Acumulando-os

Em uma foto publicado nas redes sociais, a equipe da TensorWave mostrou o que pareciam ser três 8U Supermicro AS-8125GS-TNMR2 sistemas acumulou. Isso nos levou a questionar se os racks do TensorWave eram limitados em termos de energia ou termicamente, afinal, não é incomum que esses sistemas extraiam mais de 10 kW quando totalmente carregados.

Acontece que o pessoal da TensorWave não terminou de instalar as máquinas e que a empresa tem como meta quatro nós com capacidade total de cerca de 40kW por rack. Esses sistemas serão resfriados por meio de trocadores de calor nas portas traseiras (RDHx). Como nós discutido no passado, eram radiadores do tamanho de um rack através dos quais flui água fria. À medida que o ar quente sai de um servidor convencional, ele passa pelo radiador que o resfria a níveis aceitáveis.

Essa tecnologia de resfriamento se tornou uma mercadoria importante entre os operadores de datacenter que buscam oferecer suporte a clusters de GPU mais densos e levou a alguns desafios na cadeia de suprimentos, disse o COO da TensorWave, Piotr Tomasik.

“Há muitos problemas de capacidade, mesmo nos equipamentos auxiliares em torno dos data centers neste momento”, disse ele, referindo-se especificamente ao RDHx como um ponto problemático. “Tivemos sucesso até agora e estávamos muito otimistas quanto à nossa capacidade de implantá-los.”

No longo prazo, no entanto, o TensorWave tem como objetivo o resfriamento direto no chip, que pode ser difícil de implantar em datacenters que não foram projetados para abrigar GPUs, disse Tomasik. “Estamos entusiasmados com a implantação do resfriamento direto no chip no segundo semestre do ano. Achamos que isso será muito melhor e mais fácil com a densidade.”

A ansiedade do desempenho

Outro desafio é a confiança no desempenho da AMD. De acordo com Tatarchuk, embora haja muito entusiasmo em torno da AMD oferecer uma alternativa à Nvidia, os clientes não têm certeza se irão desfrutar do mesmo desempenho. “Também há muito ‘não temos 100 por cento de certeza se será tão bom quanto estamos acostumados atualmente na Nvidia’”, disse ele.

No interesse de colocar os sistemas em funcionamento o mais rápido possível, a TensorWave lançará seus nós MI300X usando RDMA sobre Ethernet Convergente (RoCE). Esses sistemas bare metal estarão disponíveis por períodos fixos de locação, aparentemente por apenas US$ 1/hora/GPU.

Aumentando

Com o tempo, a empresa pretende introduzir uma camada de orquestração mais semelhante à nuvem para provisionamento de recursos. A implementação da tecnologia FabreX baseada em PCIe 5.0 da GigaIO para unir até 5,750 GPUs em um único domínio com mais de um petabyte de memória de alta largura de banda também está na agenda.

Esses chamados TensorNODEs são baseados na arquitetura SuperNODE da GigaIO. mostrou-se no ano passado, que usou um par de dispositivos de switch PCIe para conectar até 32 GPUs AMD MI210. Em teoria, isso deveria permitir que um único nó principal da CPU endereçasse muito mais do que os oito aceleradores normalmente vistos nos nós da GPU hoje.

Esta abordagem difere do design preferido da Nvidia, que usa NVLink para unir vários superchips em uma grande GPU. Embora o NVLink seja consideravelmente mais rápido, atingindo 1.8 TB/s de largura de banda em seu última iteração em comparação com apenas 128 GB/s no PCIe 5.0, ele suporta apenas configurações de até 576 GPUs.

A TensorWave financiará a construção de seu celeiro de bits usando suas GPUs como garantia para uma grande rodada de financiamento de dívida, uma abordagem usada por outras operadoras de datacenter. Na semana passada, Lambda revelou garantiu um empréstimo de US$ 500 milhões para financiar a implantação de “dezenas de milhares” dos aceleradores mais rápidos da Nvidia.

Enquanto isso, a CoreWeave, um dos maiores fornecedores de GPUs para aluguel, conseguiu seguro um enorme empréstimo de US$ 2.3 bilhões para expandir a presença de seu datacenter.

“Você deveria esperar que tivéssemos o mesmo tipo de anúncio aqui ainda este ano”, disse Tomasik. ®

local_img

Inteligência mais recente

local_img