Logo Zephyrnet

Công ty khởi nghiệp đám mây AI TensorWave đặt cược AMD có thể đánh bại Nvidia

Ngày:

Các nhà khai thác đám mây chuyên nghiệp có kỹ năng chạy các GPU nóng và ngốn điện cũng như cơ sở hạ tầng AI khác đang nổi lên và trong khi một số nhà khai thác như CoreWeave, Lambda hoặc Volt Park — đã xây dựng cụm của họ bằng cách sử dụng hàng chục nghìn GPU Nvidia, thì những người khác đang chuyển sang sử dụng Thay vào đó là AMD.

Một ví dụ sau đó là công ty khởi nghiệp bit Barn TensorWave, công ty khởi nghiệp đầu tháng này đã bắt đầu lắp đặt các hệ thống được cung cấp bởi Instinct MI300X của AMD, công ty dự định cho thuê chip với một phần chi phí phải trả để truy cập bộ tăng tốc Nvidia.

Người đồng sáng lập TensorWave Jeff Tatarchuk tin rằng các bộ tăng tốc mới nhất của AMD có nhiều phẩm chất tốt. Để bắt đầu, bạn thực sự có thể mua chúng. TensorWave đã đảm bảo sự phân bổ lớn các bộ phận.

Đến cuối năm 2024, TensorWave đặt mục tiêu triển khai 20,000 máy gia tốc MI300X trên hai cơ sở và có kế hoạch đưa thêm các hệ thống làm mát bằng chất lỏng vào hoạt động vào năm tới.

Silicon AI mới nhất của AMD cũng nhanh hơn H100 mà Nvidia rất thèm muốn. “Chỉ xét về thông số kỹ thuật thô, MI300x đã vượt trội hơn H100,” Tatarchuk nói.

Ra mắt tại sự kiện Advancing AI của AMD vào tháng 300, MIXNUMXX là bộ tăng tốc tiên tiến nhất của hãng thiết kế chip này cho đến nay. Các chip 750W sử dụng kết hợp bao bì tiên tiến để ghép 12 chiplet lại với nhau - 20 nếu bạn tính các mô-đun HBM3 - vào một GPU duy nhất được cho là nhanh hơn 32% so với H100 của Nvidia.

Ngoài hiệu năng dấu phẩy động cao hơn, con chip này còn tự hào có bộ nhớ HBM192 3GB lớn hơn có khả năng cung cấp băng thông 5.3TB/s so với 80GB và 3.35TB/s mà H100 tuyên bố.

Như chúng ta đã thấy từ H200 của Nvidia – một phiên bản của H100 được tăng cường nhờ có HBM3e – băng thông bộ nhớ là một người đóng góp chính đến hiệu suất của AI, đặc biệt là trong việc suy luận trên các mô hình ngôn ngữ lớn.

Giống như các thiết kế HGX của Nvidia và OAM của Intel, cấu hình tiêu chuẩn của GPU mới nhất của AMD yêu cầu tám bộ tăng tốc trên mỗi nút.

Đó là cấu hình mà mọi người ở TensorWave đang bận rộn sắp xếp và xếp chồng.

Tatarchuk nói: “Hiện tại chúng tôi có hàng trăm người đăng ký và hàng nghìn người sẽ tham gia trong những tháng tới.

Xếp chúng lên

Trong một bức ảnh đăng trên phương tiện truyền thông xã hội, nhóm TensorWave đã cho thấy thứ dường như là ba 8U Supermicro AS-8125GS-TNMR2 hệ thống được xếp lên. Điều này khiến chúng tôi đặt câu hỏi liệu các giá đỡ của TensorWave bị giới hạn về điện hay về nhiệt. Không có gì lạ khi các hệ thống này vượt quá 10kW khi được tải đầy đủ.

Hóa ra là những người ở TensorWave vẫn chưa hoàn tất việc cài đặt máy và công ty đang nhắm mục tiêu vào bốn nút với tổng công suất khoảng 40kW mỗi giá. Các hệ thống này sẽ được làm mát bằng bộ trao đổi nhiệt cửa sau (RDHx). Như chúng tôi đã thảo luận trước đây, đây là những bộ tản nhiệt có kích thước bằng giá đỡ để nước mát chảy qua. Khi không khí nóng thoát ra khỏi máy chủ thông thường, nó sẽ đi qua bộ tản nhiệt để làm mát máy chủ đến mức có thể chấp nhận được.

COO Piotr Tomasik của TensorWave cho biết công nghệ làm mát này đã trở thành một mặt hàng hot trong số các nhà khai thác trung tâm dữ liệu đang tìm cách hỗ trợ các cụm GPU dày đặc hơn và dẫn đến một số thách thức về chuỗi cung ứng.

Ông nói: “Hiện tại có rất nhiều vấn đề về năng lực, ngay cả trong các thiết bị phụ trợ xung quanh các trung tâm dữ liệu,” và đặc biệt coi RDHx là một điểm khó khăn. “Cho đến nay, chúng tôi đã thành công và chúng tôi rất lạc quan về khả năng triển khai chúng.”

Tuy nhiên, về lâu dài, TensorWave đặt mục tiêu làm mát trực tiếp trên chip, điều này có thể khó triển khai ở các trung tâm dữ liệu không được thiết kế để chứa GPU, Tomasik cho biết. “Chúng tôi rất vui mừng được triển khai hệ thống làm mát trực tiếp cho chip vào nửa cuối năm nay. Chúng tôi nghĩ rằng điều đó sẽ tốt hơn và dễ dàng hơn rất nhiều với mật độ.”

Hiệu suất lo lắng

Một thách thức khác là niềm tin vào hiệu suất của AMD. Theo Tatarchuk, mặc dù có rất nhiều sự hào hứng xung quanh việc AMD đưa ra giải pháp thay thế cho Nvidia, nhưng khách hàng không chắc chắn rằng họ sẽ được hưởng hiệu suất tương tự. “Cũng có rất nhiều câu hỏi 'Chúng tôi không chắc chắn 100% liệu nó có tuyệt vời như những gì chúng tôi hiện đang sử dụng trên Nvidia hay không'," ông nói.

Để thiết lập và chạy hệ thống nhanh nhất có thể, TensorWave sẽ khởi chạy các nút MI300X sử dụng RDMA qua Ethernet hội tụ (RoCE). Các hệ thống kim loại trần này sẽ có sẵn trong thời gian thuê cố định, dường như chỉ với $1/giờ/GPU.

Mở rộng quy mô

Theo thời gian, nhóm này nhằm mục đích giới thiệu một lớp điều phối giống đám mây hơn để cung cấp tài nguyên. Việc triển khai công nghệ FabreX dựa trên PCIe 5.0 của GigaIO để kết hợp tối đa 5,750 GPU trong một miền duy nhất với bộ nhớ băng thông cao hơn XNUMX petabyte cũng nằm trong kế hoạch.

Những cái gọi là TensorNODE này dựa trên kiến ​​trúc SuperNODE của GigaIO. thể hiện năm ngoái đã sử dụng một cặp thiết bị chuyển mạch PCIe để kết nối tối đa 32 GPU AMD MI210 với nhau. Về lý thuyết, điều này sẽ cho phép một nút đầu CPU duy nhất xử lý nhiều hơn so với tám bộ tăng tốc thường thấy trong các nút GPU hiện nay.

Cách tiếp cận này khác với thiết kế ưa thích của Nvidia, vốn sử dụng NVLink để ghép nhiều siêu chip lại với nhau thành một GPU lớn. Mặc dù NVLink nhanh hơn đáng kể với băng thông 1.8 TB/s trong lần lặp lại mới nhất so với chỉ 128GB/s trên PCIe 5.0, nó chỉ hỗ trợ cấu hình lên tới 576 GPU.

TensorWave sẽ tài trợ cho việc xây dựng kho lưu trữ bit của mình bằng cách sử dụng GPU làm tài sản thế chấp cho một vòng tài trợ nợ lớn, một cách tiếp cận được các nhà khai thác trung tâm dữ liệu khác sử dụng. Mới tuần trước thôi, Lambda tiết lộ nó đã đảm bảo khoản vay 500 triệu đô la để tài trợ cho việc triển khai “hàng chục nghìn” bộ tăng tốc nhanh nhất của Nvidia.

Trong khi đó, CoreWeave, một trong những nhà cung cấp GPU cho thuê lớn nhất, đã có thể an toàn khoản vay khổng lồ trị giá 2.3 tỷ USD để mở rộng phạm vi hoạt động của trung tâm dữ liệu.

Tomasik nói: “Bạn sẽ mong đợi chúng tôi sẽ có loại thông báo tương tự ở đây vào cuối năm nay. ®

tại chỗ_img

Tin tức mới nhất

tại chỗ_img