Zephyrnet Logosu

Yapay zeka bulut girişimi TensorWave, AMD'nin Nvidia'yı yenebileceğine inanıyor

Tarih:

Sıcak ve güce aç GPU'ları ve diğer yapay zeka altyapılarını çalıştırma konusunda yetenekli uzman bulut operatörleri ortaya çıkıyor ve CoreWeave, Lambda veya Voltaj Park gibi bu oyunculardan bazıları onbinlerce Nvidia GPU'yu kullanarak kümelerini oluştururken, diğerleri de buna yöneliyor. Bunun yerine AMD'yi tercih edin.

İkincisinin bir örneği, bu ayın başlarında AMD'nin Instinct MI300X tarafından desteklenen sistemleri toplamaya başlayan ve Nvidia hızlandırıcılarına erişim için tahsil edilen maliyetin çok küçük bir kısmı karşılığında çipleri kiralamayı planlayan bit ambarı girişimi TensorWave'dir.

TensorWave kurucu ortağı Jeff Tatarchuk, AMD'nin en yeni hızlandırıcılarının birçok üstün özelliğe sahip olduğuna inanıyor. Yeni başlayanlar için aslında bunları satın alabilirsiniz. TensorWave parçaların büyük bir kısmını tahsis etti.

TensorWave, 2024 yılı sonuna kadar iki tesise 20,000 MI300X hızlandırıcı yerleştirmeyi hedefliyor ve gelecek yıl ek sıvı soğutmalı sistemleri devreye almayı planlıyor.

AMD'nin en yeni yapay zeka silikonu, Nvidia'nın çok beğenilen H100'ünden de daha hızlı. Tatarchuk, "Sadece ham özelliklerde MI300x, H100'e hakimdir" dedi.

Aralık ayında AMD'nin Advancing AI etkinliğinde lansmanı yapılan MI300X, çip tasarım firmasının bugüne kadarki en gelişmiş hızlandırıcısıdır. 750W çip Nvidia'nın H12'ünden yüzde 20 daha hızlı olduğu iddia edilen tek bir GPU'da 3 yongayı (HBM32 modüllerini sayarsanız 100) bir araya getirmek için gelişmiş paketleme kombinasyonunu kullanıyor.

Daha yüksek kayan nokta performansına ek olarak çip, H192'ün iddia ettiği 3 GB ve 5.3 TB/s'ye kıyasla 80 TB/s bant genişliği sunabilen daha büyük bir 3.35 GB HBM100 belleğe de sahip.

Nvidia'nın H200'ünde (H100'ün HBM3e'nin dahil edilmesiyle güçlendirilmiş bir versiyonu) gördüğümüz gibi, bellek bant genişliği Büyük katkıda bulunan kişi Özellikle büyük dil modellerinden çıkarım yapma konusunda yapay zeka performansına.

Nvidia'nın HGX ve Intel'in OAM tasarımlarına benzer şekilde, AMD'nin en yeni GPU'sunun standart yapılandırmaları, düğüm başına sekiz hızlandırıcı gerektirir.

TensorWave'deki kişilerin rafa kaldırmak ve istiflemekle meşgul olduğu konfigürasyon budur.

Tatarçuk, "Şu anda yüzlerce, önümüzdeki aylarda ise binlerce kişi girecek" dedi.

Onları rafa kaldırmak

bir fotoğrafta posted TensorWave ekibi sosyal medyaya üç adet 8U Supermicro AS-8125GS-TNMR2 gibi görünen şeyi gösterdi sistemler yemlemek. Bu bizi TensorWave'in raflarının gücü mü yoksa termal olarak sınırlı mı olduğu konusunda sorgulamaya yöneltti; sonuçta bu sistemlerin tam yükte 10kW'ı aşması olağandışı bir durum değil.

TensorWave'deki kişilerin makinelerin kurulumunu henüz tamamlamadığı ve firmanın raf başına yaklaşık 40kW toplam kapasiteye sahip dört düğümü hedeflediği ortaya çıktı. Bu sistemler arka kapı ısı eşanjörleri (RDHx) kullanılarak soğutulacaktır. bizim yaptığımız gibi tartışılan geçmişte bunlar içinden soğuk suyun aktığı raf boyutlu radyatörlerdi. Sıcak hava geleneksel bir sunucudan çıkarken radyatörden geçer ve bu da onu kabul edilebilir seviyelere kadar soğutur.

TensorWave COO'su Piotr Tomasik, bu soğutma teknolojisinin daha yoğun GPU kümelerini desteklemek isteyen veri merkezi operatörleri arasında popüler bir ürün haline geldiğini ve bazı tedarik zinciri zorluklarına yol açtığını söyledi.

RDHx'e özellikle bir sıkıntı noktası olarak atıfta bulunarak, "Şu anda veri merkezleri etrafındaki yardımcı ekipmanlarda bile çok fazla kapasite sorunu var" dedi. "Şu ana kadar başarılı olduk ve bunları konuşlandırma yeteneğimiz konusunda oldukça iyimserdik."

Ancak Tomasik, uzun vadede TensorWave'in gözünün GPU'ları barındıracak şekilde tasarlanmamış veri merkezlerinde konuşlandırılması zor olabilecek doğrudan çipe soğutmaya diktiğini söyledi. “Yılın ikinci yarısında doğrudan çip soğutmaya geçiş yapmaktan heyecan duyuyoruz. Yoğunlukla bunun çok daha iyi ve kolay olacağını düşünüyoruz.”

Performans kaygısı

Bir diğer zorluk ise AMD'nin performansına olan güvendir. Tatarchuk'a göre AMD'nin Nvidia'ya alternatif sunması konusunda büyük bir heyecan olsa da müşteriler aynı performanstan keyif alacaklarından emin değiller. "Ayrıca 'Nvidia'nın şu anda alışık olduğumuz kadar harika olup olmayacağından yüzde 100 emin değiliz' diye bir düşünce var" dedi.

Sistemleri mümkün olduğu kadar hızlı bir şekilde çalışır hale getirmek amacıyla TensorWave, MI300X düğümlerini Yakınsanmış Ethernet (RoCE) üzerinden RDMA kullanarak başlatacak. Bu yalın donanım sistemleri sabit kiralama süreleri boyunca, görünüşe göre saat başına 1$/GPU kadar düşük bir ücret karşılığında satışa sunulacak.

Ölçeklendirme

Zamanla ekip, kaynakların sağlanması için daha bulut benzeri bir düzenleme katmanı sunmayı hedefliyor. GigaIO'nun PCIe 5.0 tabanlı FabreX teknolojisinin, bir petabayttan fazla yüksek bant genişliğine sahip belleğe sahip tek bir alanda 5,750'ye kadar GPU'yu bir araya getirmek için uygulanması da gündemde.

TensorNODE olarak adlandırılan bu birimler GigaIO'nun SuperNODE mimarisini temel alır. gösteriş yaptı geçen yıl, 32 adede kadar AMD MI210 GPU'yu birbirine bağlamak için bir çift PCIe anahtar cihazı kullandı. Teorik olarak bu, tek bir CPU baş düğümünün, günümüzde GPU düğümlerinde tipik olarak görülen sekiz hızlandırıcıdan çok daha fazlasını ele almasına olanak tanıyacaktır.

Bu yaklaşım, birden fazla süper çipi tek bir büyük GPU'da birleştirmek için NVLink'i kullanan Nvidia'nın tercih ettiği tasarımdan farklıdır. NVLink, 1.8 TB/sn bant genişliğiyle önemli ölçüde daha hızlı olmasına rağmen en son yineleme PCIe 128'daki yalnızca 5.0 GB/sn ile karşılaştırıldığında yalnızca 576 GPU'ya kadar yapılandırmaları destekler.

TensorWave, diğer veri merkezi operatörleri tarafından kullanılan bir yaklaşım olan, büyük miktarda borç finansmanı için teminat olarak GPU'larını kullanarak bit ambarı inşasını finanse edecek. Daha geçen hafta Lambda ortaya Nvidia'nın en hızlı hızlandırıcılarının "onbinlerce" konuşlandırılmasını finanse etmek için 500 milyon dolarlık bir kredi sağladı.

Bu arada, en büyük kiralık GPU sağlayıcılarından biri olan CoreWeave, güvenli veri merkezi ayak izini genişletmek için 2.3 milyar dolarlık devasa bir kredi.

Tomasik, "Bu yılın sonlarında burada aynı tür bir duyuru yapmamızı beklemelisiniz" dedi. ®

spot_img

En Son İstihbarat

spot_img