Logo Zephyrnet

Startup cloud AI TensorWave bertaruh AMD dapat mengalahkan Nvidia

Tanggal:

Operator cloud spesialis yang ahli dalam menjalankan GPU yang panas dan haus daya serta infrastruktur AI lainnya mulai bermunculan, dan meskipun beberapa pemain seperti CoreWeave, Lambda, atau Tegangan Park — telah membangun cluster mereka menggunakan puluhan ribu GPU Nvidia, yang lain beralih ke AMD sebagai gantinya.

Contoh dari yang terakhir adalah startup Bit Barn, TensorWave, yang awal bulan ini mulai menyiapkan sistem yang didukung oleh AMD Instinct MI300X, yang berencana untuk menyewa chip dengan biaya yang lebih murah untuk mengakses akselerator Nvidia.

Salah satu pendiri TensorWave Jeff Tatarchuk yakin akselerator terbaru AMD memiliki banyak kualitas bagus. Sebagai permulaan, Anda sebenarnya bisa membelinya. TensorWave telah mengamankan alokasi komponen dalam jumlah besar.

Pada akhir tahun 2024, TensorWave menargetkan 20,000 akselerator MI300X diterapkan di dua fasilitas, dan berencana untuk menghadirkan sistem berpendingin cairan tambahan secara online tahun depan.

Silikon AI terbaru AMD juga lebih cepat daripada H100 yang banyak diidamkan Nvidia. “Dalam spesifikasi mentah, MI300x mendominasi H100,” kata Tatarchuk.

Diluncurkan pada acara Advancing AI AMD pada bulan Desember, MI300X adalah akselerator paling canggih dari perusahaan desain chip tersebut hingga saat ini. Itu chip 750W menggunakan kombinasi kemasan canggih untuk menyatukan 12 chiplet — 20 jika Anda menghitung modul HBM3 — menjadi satu GPU yang diklaim 32 persen lebih cepat dibandingkan Nvidia H100.

Selain kinerja floating point yang lebih tinggi, chip ini juga menawarkan memori HBM192 3GB yang lebih besar yang mampu memberikan bandwidth 5.3TB/dtk dibandingkan 80GB dan 3.35TB/dtk yang diklaim oleh H100.

Seperti yang telah kita lihat dari Nvidia H200 – versi H100 yang ditingkatkan dengan penyertaan HBM3e – bandwidth memori adalah kontribusi besar terhadap kinerja AI, khususnya dalam menyimpulkan model bahasa besar.

Sama seperti desain Nvidia HGX dan Intel OAM, konfigurasi standar GPU terbaru AMD memerlukan delapan akselerator per node.

Itulah konfigurasi yang sedang disusun dan disusun oleh orang-orang di TensorWave.

“Kami memiliki ratusan pengungsi saat ini dan ribuan pengungsi di bulan-bulan mendatang,” kata Tatarchuk.

Memukul mereka

Dalam sebuah foto diposting ke media sosial, kru TensorWave menunjukkan apa yang tampak seperti tiga 8U Supermicro AS-8125GS-TNMR2 sistem disiksa. Hal ini membuat kami mempertanyakan apakah rak TensorWave memiliki daya atau terbatas secara termal. Bukan hal yang aneh jika sistem ini menghasilkan daya lebih dari 10kW saat terisi penuh.

Ternyata orang-orang di TensorWave belum selesai memasang mesin tersebut dan perusahaan tersebut menargetkan empat node dengan total kapasitas sekitar 40kW per rak. Sistem ini akan didinginkan menggunakan penukar panas pintu belakang (RDHx). Seperti yang telah kita lakukan dibahas di masa lalu, ini adalah radiator berukuran rak yang mengalirkan air dingin. Saat udara panas keluar dari server konvensional, ia melewati radiator yang mendinginkannya hingga tingkat yang dapat diterima.

Teknologi pendinginan ini telah menjadi komoditas populer di kalangan operator pusat data yang ingin mendukung cluster GPU yang lebih padat dan menyebabkan beberapa tantangan rantai pasokan, kata COO TensorWave Piotr Tomasik.

“Ada banyak masalah kapasitas, bahkan pada peralatan tambahan di sekitar pusat data saat ini,” katanya, secara khusus menyebut RDHx sebagai kendalanya. “Kami telah berhasil sejauh ini dan kami sangat optimis dengan kemampuan kami untuk menerapkannya.”

Namun, dalam jangka panjang, TensorWave menargetkan pendinginan langsung ke chip yang mungkin sulit diterapkan di pusat data yang tidak dirancang untuk menampung GPU, kata Tomasik. “Kami sangat bersemangat untuk menerapkan pendinginan langsung ke chip pada paruh kedua tahun ini. Kami pikir hal ini akan menjadi jauh lebih baik dan lebih mudah dengan kepadatan.”

Kecemasan kinerja

Tantangan lainnya adalah kepercayaan terhadap kinerja AMD. Menurut Tatarchuk, meskipun ada banyak antusiasme terhadap AMD yang menawarkan alternatif selain Nvidia, pelanggan tidak yakin mereka akan menikmati kinerja yang sama. “Ada juga banyak pertanyaan 'Kami tidak 100 persen yakin apakah ini akan sehebat yang biasa kami lakukan di Nvidia',” katanya.

Demi menyiapkan dan menjalankan sistem secepat mungkin, TensorWave akan meluncurkan node MI300X menggunakan RDMA melalui Converged Ethernet (RoCE). Sistem bare metal ini akan tersedia untuk periode sewa tetap, tampaknya hanya dengan $1/jam/GPU.

Menaikkan skala

Seiring waktu, perusahaan ini bertujuan untuk memperkenalkan lapisan orkestrasi yang lebih mirip cloud untuk penyediaan sumber daya. Mengimplementasikan teknologi FabreX berbasis PCIe 5.0 GigaIO untuk menyatukan hingga 5,750 GPU dalam satu domain dengan memori bandwidth tinggi lebih dari satu petabyte juga ada dalam agenda.

Yang disebut TensorNODE ini didasarkan pada arsitektur SuperNODE GigaIO pamer tahun lalu, yang menggunakan sepasang peralatan switch PCIe untuk menghubungkan hingga 32 GPU AMD MI210 secara bersamaan. Secara teori, hal ini memungkinkan satu node kepala CPU untuk menangani lebih dari delapan akselerator yang biasanya terlihat pada node GPU saat ini.

Pendekatan ini berbeda dari desain pilihan Nvidia, yang menggunakan NVLink untuk menggabungkan beberapa superchip menjadi satu GPU besar. Sementara NVLink jauh lebih cepat dengan bandwidth 1.8TB/dtk iterasi terbaru dibandingkan dengan hanya 128GB/s pada PCIe 5.0, ini hanya mendukung konfigurasi hingga 576 GPU.

TensorWave akan mendanai pembangunan gudang kecilnya dengan menggunakan GPU-nya sebagai jaminan untuk sejumlah besar pembiayaan utang, sebuah pendekatan yang digunakan oleh operator pusat data lainnya. Baru minggu lalu, Lambda mengungkapkan mereka telah mendapatkan pinjaman $500 juta untuk mendanai penerapan “puluhan ribu” akselerator tercepat Nvidia.

Sementara itu, CoreWeave, salah satu penyedia penyewaan GPU terbesar, mampu melakukannya aman pinjaman besar-besaran sebesar $2.3 miliar untuk memperluas jangkauan pusat datanya.

“Anda mungkin mengharapkan kami mendapatkan pengumuman serupa di sini pada akhir tahun ini,” kata Tomasik. ®

tempat_img

Intelijen Terbaru

tempat_img