제퍼넷 로고

AI 클라우드 스타트업 TensorWave는 AMD가 Nvidia를 이길 수 있다고 확신합니다.

시간

뜨겁고 전력 소모가 많은 GPU 및 기타 AI 인프라를 실행하는 데 능숙한 전문 클라우드 운영자가 등장하고 있으며 CoreWeave, Lambda 또는 Volttage Park와 같은 일부 플레이어는 수만 개의 Nvidia GPU를 사용하여 클러스터를 구축했지만 다른 일부는 Nvidia GPU로 전환하고 있습니다. 대신 AMD.

후자의 예로는 이번 달 초 AMD의 Instinct MI300X로 구동되는 시스템을 구축하기 시작한 Bit Barn 스타트업 TensorWave가 있으며, Nvidia 가속기에 액세스하는 데 부과되는 비용의 일부만으로 칩을 임대할 계획입니다.

TensorWave 공동 창업자인 Jeff Tatarchuk는 AMD의 최신 가속기가 많은 우수한 품질을 갖고 있다고 믿습니다. 우선, 실제로 구매할 수 있습니다. TensorWave는 많은 부분 할당을 확보했습니다.

TensorWave는 2024년 말까지 두 시설에 20,000개의 MI300X 가속기를 배치하는 것을 목표로 하고 있으며 내년에는 추가 수냉식 시스템을 온라인으로 가져올 계획입니다.

AMD의 최신 AI 실리콘은 Nvidia가 많이 탐내는 H100보다 빠릅니다. Tatarchuk은 "기본 사양만 보면 MI300x가 H100을 압도합니다."라고 말했습니다.

지난 300월 AMD의 Advancing AI 이벤트에서 출시된 MIXNUMXX는 칩 설계 회사의 현재까지 가장 발전된 가속기입니다. 그만큼 750W 칩 고급 패키징의 조합을 사용하여 12개의 칩렛(HBM20 모듈을 포함하면 3개)을 Nvidia의 H32보다 100% 더 빠른 단일 GPU로 결합합니다.

더 높은 부동 소수점 성능 외에도 이 칩은 H192이 주장하는 3GB 및 5.3TB/s에 비해 80TB/s의 대역폭을 제공할 수 있는 더 큰 3.35GB HBM100 메모리를 자랑합니다.

HBM200e를 포함하여 향상된 H100 버전인 Nvidia의 H3에서 볼 수 있듯이 메모리 대역폭은 주요 기여자 특히 대규모 언어 모델을 추론할 때 AI 성능에 영향을 미칩니다.

Nvidia의 HGX 및 Intel의 OAM 설계와 마찬가지로 AMD 최신 GPU의 표준 구성에는 노드당 8개의 가속기가 필요합니다.

이것이 TensorWave 직원들이 랙킹 및 스태킹에 바쁜 구성입니다.

Tatarchuk은 "지금은 수백 명이 들어가고 앞으로 몇 달 안에 수천 명이 들어갈 것"이라고 말했습니다.

그것들을 쌓는다

사진 속 게시 TensorWave 팀은 소셜 미디어에 8개의 8125U Supermicro AS-2GS-TNMRXNUMX로 보이는 것을 보여주었습니다. 시스템 쌓였다. 이로 인해 TensorWave의 랙이 전력 제한이 있는지 또는 열 제한이 있는지 의문이 생겼습니다. 이러한 시스템이 완전히 로드되었을 때 10kW를 초과하는 전력을 끌어내는 것은 드문 일이 아닙니다.

TensorWave 직원은 기계 설치를 완료하지 않았으며 회사는 랙당 총 용량이 약 40kW인 XNUMX개의 노드를 목표로 하고 있는 것으로 나타났습니다. 이러한 시스템은 후면 도어 열 교환기(RDHx)를 사용하여 냉각됩니다. 우리가 그랬듯이 논의 된 과거에는 시원한 물이 흐르는 랙 크기의 라디에이터였습니다. 뜨거운 공기가 기존 서버에서 빠져나오면 라디에이터를 통과하여 허용 가능한 수준으로 냉각됩니다.

TensorWave COO인 Piotr Tomasik은 "이 냉각 기술은 밀도가 높은 GPU 클러스터를 지원하려는 데이터 센터 운영자 사이에서 인기 있는 필수품이 되었으며 일부 공급망 문제를 야기했습니다"라고 말했습니다.

그는 “현재 데이터 센터 주변의 보조 장비에도 용량 문제가 많이 있습니다.”라고 말하면서 특히 RDHx를 문제점으로 언급했습니다. "우리는 지금까지 성공했으며 이를 배포하는 능력에 대해 매우 낙관적이었습니다."

그러나 장기적으로 TensorWave는 GPU를 수용하도록 설계되지 않은 데이터 센터에 배포하기 어려울 수 있는 직접 칩 냉각을 목표로 삼고 있다고 Tomasik은 말했습니다. “올해 하반기에 칩 냉각에 직접 배포하게 되어 기쁘게 생각합니다. 밀도가 높아지면 훨씬 더 좋고 쉬워질 것이라고 생각합니다.”

실적 불안

또 다른 과제는 AMD의 성능에 대한 자신감이다. Tatarchuk에 따르면 AMD가 Nvidia에 대한 대안을 제공하는 것에 대해 많은 열정이 있지만 고객은 동일한 성능을 누릴 수 있을지 확신하지 못합니다. “'현재 Nvidia에서 사용하는 것만큼 훌륭할지 100% 확신할 수 없다'는 의견도 많이 있습니다.”라고 그는 말했습니다.

시스템을 최대한 빨리 가동하고 실행하기 위해 TensorWave는 RoCE(RDMA over Converged Ethernet)를 사용하여 MI300X 노드를 출시할 예정입니다. 이러한 베어 메탈 시스템은 고정 임대 기간 동안 GPU당 시간당 1달러 정도의 비용으로 사용할 수 있습니다.

스케일링

시간이 지남에 따라 이 조직은 리소스 프로비저닝을 위해 보다 클라우드와 유사한 오케스트레이션 계층을 도입하는 것을 목표로 합니다. 페타바이트 이상의 고대역폭 메모리를 갖춘 단일 도메인에서 최대 5.0개의 GPU를 결합하기 위해 GigaIO의 PCIe 5,750 기반 FabreX 기술을 구현하는 것도 의제입니다.

이러한 소위 TensorNODE는 GigaIO의 SuperNODE 아키텍처를 기반으로 합니다. 보이다 작년에는 한 쌍의 PCIe 스위치 어플라이언스를 사용하여 최대 32개의 AMD MI210 GPU를 함께 연결했습니다. 이론적으로 이는 단일 CPU 헤드 노드가 오늘날 GPU 노드에서 일반적으로 볼 수 있는 XNUMX개의 가속기보다 훨씬 더 많은 주소를 처리할 수 있도록 허용해야 합니다.

이 접근 방식은 NVLink를 사용하여 여러 슈퍼칩을 하나의 큰 GPU로 결합하는 Nvidia가 선호하는 디자인과 다릅니다. NVLink는 1.8TB/s의 대역폭으로 훨씬 더 빠르지만 최신 반복 PCIe 128의 5.0GB/s와 비교하면 최대 576개의 GPU 구성만 지원됩니다.

TensorWave는 다른 데이터 센터 운영자가 사용하는 접근 방식인 대규모 부채 조달을 위한 담보로 GPU를 사용하여 비트 헛간 구축에 자금을 지원할 것입니다. 바로 지난주에 람다 공개 Nvidia의 가장 빠른 가속기 "수만 개"를 배포하는 데 자금을 지원하기 위해 500억 달러의 대출을 확보했습니다.

한편, 최대 임대용 GPU 공급업체 중 하나인 CoreWeave는 다음과 같은 작업을 수행할 수 있었습니다. 안전해야합니다. 데이터 센터 공간을 확장하기 위해 2.3억 달러의 막대한 대출을 받았습니다.

Tomasik은 “올해 말에 여기서도 같은 종류의 발표가 있을 것으로 예상해야 합니다.”라고 말했습니다. ®

spot_img

최신 인텔리전스

spot_img