Zephyrnet Logosu

Nvidia yazılım yöneticisi Kari Briski ile röportaj

Tarih:

görüşme Nvidia'nın GPU Teknoloji Konferansı geçen hafta sona erdi ve şirketin Blackwell çipleri ve çokça seslendirilen yapay zeka harikaları ile pahalıya satın alınan GPU donanımları hakkında haberler geldi.

Makine öğrenimi modellerinin mümkün kıldığı otomasyonla birçok yaratıcı çabanın daha iyi olmasa da daha hızlı gerçekleştirilebileceği fikrine dayanarak, hisse senedi fiyatlarının rekor seviyelerle flört ettiği şirket çevresinde öyle bir söylenti var ki.

Bu hala piyasada test ediliyor.

George Santayana bir zamanlar yazdı: “Geçmişini hatırlayamayan, onu tekrarlamaya mahkumdur.” Sık sık tekrarlanan bir cümledir. Ancak geçmişin hatırlanması, yapay zeka modellerini gerçekten farklı kılmıyor. Geçmişi hatırlayabiliyorlar ama yine de onu istendiğinde, bazen yanlış bir şekilde tekrar etmeye mahkumlar.

Yine de pek çok kişi, özellikle de yapay zeka donanımı veya bulut hizmetleri satanlar, üstün yapay zekaya güveniyor. Diğerlerinin yanı sıra Nvidia da bu konuda büyük yatırım yapıyor. Böylece Kayıt Bütün bu yaygaranın neyle ilgili olduğunu görmek için GPU konferansına kısa bir ziyarette bulundu. Sorun kesinlikle perşembe günü sergi salonunda servis edilen limon barlarıyla ilgili değildi; bunların birçoğu ilk halka arzlarını sergi katındaki kutularda yarım bırakarak sonlandırdı.

Çok daha ilgi çekici bir konuşmaydı Kayıt Nvidia'da yapay zeka ve HPC yazılım geliştirme kitleri ürün yönetiminden sorumlu başkan yardımcısı Kari Briski ile görüştük. Şirketin temel modelleri, kitaplıkları, SDK'ları ve şimdi de yeni duyurulan gibi eğitim ve çıkarımla ilgilenen mikro hizmetler için yazılım ürün yönetimini yönetiyor. O mikro hizmetler ve daha iyi kurulmuş Nemo dağıtım çerçevesi.

Kayıt: Şirketler bu mikro hizmetleri bulutta veya şirket içinde nasıl kullanacak?

Briski: Aslında NIM'leri neden inşa ettiğimizin güzelliği de bu. "NIM'ler" demek biraz komik. Ama biz bu yolculuğa çok uzun zaman önce başladık. Başladığımdan beri çıkarım üzerinde çalışıyoruz; 1.0'ya başladığımda sanırım TensorRT 2016'dı.

Yıllar geçtikçe çıkarım yığınımızı büyütüyoruz, bilgisayarlı görme ve derin öneri sistemleri ve konuşma, otomatik konuşma tanıma ve konuşma sentezi ve şimdi de büyük dil modelleri ile başlayarak her farklı iş yükü türü hakkında daha fazla şey öğreniyoruz. Gerçekten geliştirici odaklı bir yığın oldu. Artık işletmeler OpenAI ve ChatGPT'yi gördüklerine göre, bu büyük dil modellerinin kurumsal verilerinin yanında veya kurumsal uygulamalarında çalıştırılması gerektiğini anlıyorlar.

Ortalama bir bulut hizmet sağlayıcısının, yönetilen hizmetleri için çıkarım ve optimizasyon teknikleri üzerinde çalışan yüzlerce mühendisi vardır. İşletmeler bunu yapamaz. Değer elde etme zamanını hemen almaları gerekiyor. Bu nedenle yıllar boyunca öğrendiğimiz her şeyi TensorRT, geniş dil modelleri, Triton Çıkarım Sunucumuz, standart API ve sağlık kontrolleriyle özetledik. [Fikir, sıfırdan büyük bir dil modeli uç noktasına beş dakikadan kısa sürede ulaşabilmeniz için tüm bunları kapsayabilmektir.

[Şirket içi veri merkezi ve bulut veri merkezi açısından] müşterilerimizin çoğu hibrit buluttan oluşuyor. Bilgisayarı tercih ettiler. Böylece verileri yönetilen bir hizmete göndermek yerine, mikro hizmeti verilerinin yakınında çalıştırabilir ve istedikleri yerde çalıştırabilirler.

Kayıt: Nvidia'nın yapay zekaya yönelik yazılım yığını, programlama dilleri açısından nasıl görünüyor? Hala büyük ölçüde CUDA, Python, C ve C++ mı? Daha fazla hız ve verimlilik için başka bir yer mi arıyorsunuz?

Briski: Her zaman geliştiricilerin kullandığı her yeri araştırıyoruz. Bu her zaman bizim anahtarımız oldu. Nvidia'ya başladığımdan beri hızlandırılmış matematik kütüphaneleri üzerinde çalıştım. Öncelikle paralellik elde etmek için CUDA'da programlamanız gerekiyordu. Ve sonra C API'lerimiz vardı. Ve bir Python API'miz vardı. Yani önemli olan platformu geliştiricilerin olduğu yere götürmek. Şu anda geliştiriciler sadece curl komutu veya Python komutu veya benzeri bir şeyle gerçekten basit bir API uç noktasına ulaşmak istiyor. Bu yüzden çok basit olmalı çünkü bugün geliştiricilerle bu noktada buluşuyoruz.

Kayıt: CUDA'nın GPU hesaplamasını etkili hale getirmede büyük bir rol oynadığı açıktır. Nvidia CUDA'yı geliştirmek için ne yapıyor?

Briski: CUDA tüm GPU'larımızın temelidir. CUDA özellikli, CUDA programlanabilir bir GPU'dur. Birkaç yıl önce buna CUDA-X adını verdik çünkü bu alana özgü dillere sahiptiniz. Yani eğer bir tıbbi görüntüleme [uygulamanız] varsa, cuCIM. Otomatik konuşma tanımanız varsa, sonunda CUDA hızlandırılmış ışın arama kod çözücünüz olur. Ve CUDA tarafından hızlandırılan her farklı iş yükü türü için tüm bu spesifik şeyler var. Yıllar boyunca tüm bu uzmanlaşmış kütüphaneleri oluşturduk CuDF ve cuMLve şu-bu-bu. Tüm bu CUDA kütüphaneleri yıllar içinde inşa ettiğimiz şeyin temelidir ve şimdi bir nevi bunun üzerine inşa ediyoruz.

Kayıt: Nvidia, yazılım ve donanım tasarımında maliyet hususlarına nasıl bakıyor? Nvidia AI Enterprise gibi bir şeyde GPU başına yıllık 4,500 dolar, bu da oldukça önemli bir rakam.

Briski: Öncelikle, küçük şirketler için her zaman Inception programı. Her zaman müşterilerimizle çalışıyoruz; 90 günlük ücretsiz deneme sürümü, sizin için gerçekten değerli mi? Gerçekten buna değer mi? Daha sonra, bunu satın aldığınızda maliyetlerinizi azaltmak için yazılımımızı her zaman optimize ediyoruz. Yani, lisans başına CPU başına yıllık 4,500 ABD Doları satın alıyorsanız ve A100'de çalıştırıyorsanız ve yarın H100'de çalıştırıyorsanız, bu aynı fiyattır; maliyetiniz [verim miktarınıza göre] düşmüştür. Bu yüzden her zaman bu optimizasyonları, toplam sahip olma maliyetini ve performansı yazılıma geri dönüştürüyoruz.

Hem eğitimi hem de çıkarımı düşündüğümüzde, eğitim biraz daha zaman alır ancak şunu söyleyebilecek otomatik yapılandırıcılara sahibiz: "Ne kadar veriniz var? Ne kadar hesaplamaya ihtiyacınız var? Ne kadar sürmesini istiyorsun?” Böylece daha küçük bir bilgi işlem alanına sahip olabilirsiniz, ancak modelinizi eğitmek daha uzun sürebilir… Onu bir hafta içinde eğitmek ister misiniz? Yoksa bir günde mi eğitmek istersiniz? Ve böylece bu takasları yapabilirsiniz.

Kayıt: Mevcut sorunlar açısından çözmek istediğiniz özel bir konu var mı ya da üstesinden gelmek istediğiniz teknik bir zorluk var mı?

Briski: Şu anda olay odaklı RAG'ler [bu, yapay zeka modellerini harici bir kaynaktan alınan verilerle güçlendirmenin bir yoludur]. Pek çok işletme, bir yanıt üretmek için yalnızca klasik yönlendirmeyi düşünüyor. Ama gerçekte yapmak istediğimiz şey, tüm bu geri kazanımla artırılmış üretken sistemlerin hepsini bir arada [zincirlemek]. Çünkü kendinizi ve yapmak isteyebileceğiniz bir görevi düşünürseniz: “Ah, gidip veritabanı ekibiyle konuşmam lazım. Ve bu veritabanı ekibinin Tableau ekibiyle konuşması gerekiyor. Beni bir kontrol paneli yapmaları lazım” ve görevi gerçekten tamamlayabilmeniz için tüm bunların gerçekleşmesi gerekiyor. Ve bu bir nevi olay odaklı RAG. RAG'ların RAG'larla konuştuğunu söyleyemem ama esasen bu; ajanların gidip çok iş yapması ve geri gelmesi. Ve biz bunun eşiğindeyiz. Sanırım bu, 2024'te göreceğim için gerçekten heyecanlandığım bir şey.

Kayıt: Nvidia kendi yapay zekasının test sürümünü mü kullanıyor? Yapay zekayı şirket içinde yararlı buldunuz mu?

Briski: Aslında yola çıktık ve geçen yıl, 2023 keşif yılı olduğundan, Nvidia'da bulduğum 150 takım vardı - daha fazlası da olabilirdi - ve biz de şunu söylemeye çalışıyorduk, araçlarımızı nasıl kullanıyorsunuz, ne tür araçlar kullanıyorsunuz? kullanım örnekleri ve binlerce çiçeğin açtığı gibi tüm öğrendiklerimizi birleştirmeye başladık ve bir bakıma onların tüm öğrendiklerini en iyi uygulamalarda tek bir depoda birleştirdik. Aslında bu, adlandırdığımız şey olarak yayınladığımız şey Üretken Yapay Zeka Örnekleri GitHub'da çünkü en iyi uygulamaların tümünü tek bir yerde toplamak istedik.

Yapısal olarak böyle yaptık. Ancak açık bir örnek olarak, gerçekten harika bir makale yazdığımızı düşünüyorum: ChipNeMove aslında bu tamamen EDA, VLSI tasarım ekibimizle ve temel modeli nasıl alıp onu bizim özel verilerimiz üzerinde eğittikleriyle ilgili. VLSI için kendi kodlama dillerimiz var. Bu nedenle, özel dilimizi oluşturabilmek ve VLSI tasarım çipi yazma kodumuzu tam olarak bilmeyen yeni mühendislerin üretkenliğine yardımcı olmak için yardımcı pilotları [açık kaynak kod oluşturma modelleri] kodluyorlardı.

Ve bu her müşteriye yansıdı. Yani SAP ile konuşursanız, veritabanlarına özel bir SQL gibi olan BOP'a [Backorder Processing] sahip olduklarını görürsünüz. Ve farklı özel dillere sahip üç müşteriyle daha konuştum; SQL'in bile yüzlerce lehçesi var. Dolayısıyla kod oluşturmayı başarmak, RAG tarafından hemen çözülebilecek bir kullanım durumu değildir. Evet, RAG belgelerin ve bazı kod parçacıklarının alınmasına yardımcı olur, ancak belirteçleri o dilde oluşturmak üzere eğitilmediği sürece yalnızca kod oluşturamaz.

Kayıt: Büyük dil modellerine ve bunların uygulamalarla birlikte zincirlenme şekline baktığınızda, ortaya çıkabilecek gecikmeyi ve bununla nasıl başa çıkacağınızı düşünüyor musunuz? Bir karar ağacını basit bir şekilde kodlamanın daha anlamlı göründüğü zamanlar var mı?

Briski: Haklısınız, belirli bir soru sorduğunuzda veya soru sorduğunuz zaman, sadece bir soru için bile beş veya yedi model başlatılmış olabilir, böylece anında yeniden yazmaya, korkuluklara, geri getiriciye ve yeniden sıralamaya sahip olabilirsiniz. ve sonra jeneratör. NIM'in bu kadar önemli olmasının nedeni budur çünkü gecikmeyi optimize ettik.

Temel modellerin farklı versiyonlarını da bu nedenle sunuyoruz çünkü belirli bir dizi görev için daha iyi olan küçük bir dil modeli olan bir SLM'ye sahip olabilirsiniz ve sonunda daha fazla doğruluk için daha büyük modeli isteyebilirsiniz. Ancak tüm bunları gecikme pencerenize sığacak şekilde zincirlemek, birçok hiper ölçek veya yönetilen hizmet için yıllardır çözdüğümüz bir sorundur. Bu gecikme pencereleri var ve çoğu zaman bir soru sorduğunuzda veya bir arama yaptığınızda, aslında soruyu birden çok kez yanıtlıyorlar. Dolayısıyla "toplam yanıtın her bir küçük kısmı için gecikme pencerem nedir?" gibi birçok yarış koşulu var. Yani evet, her zaman buna bakıyoruz.

Sabit kodlamayla ilgili olarak, bugün bir müşteriyle bunun hakkında konuştum. Sabit kodlamanın çok ötesindeyiz… Bir diyalog yöneticisi kullanabilir ve if-then-else seçeneğini kullanabilirsiniz. [Fakat] binlerce kuralı yönetmek gerçekten ama gerçekten imkansızdır. İşte bu yüzden korkuluk gibi şeyleri seviyoruz çünkü korkuluklar klasik diyalog yöneticisinin yerine geçen bir şeyi temsil ediyor. "Beyzbol hakkında konuşma, softbol hakkında konuşma, futbol hakkında konuşma" demek ve bunları sıralamak yerine sadece "Spor hakkında konuşma" diyebilirsiniz. Ve LLM bir sporun ne olduğunu biliyor. Zaman tasarrufu ve bu kodu daha sonra yönetebilmek çok daha iyi. ®

spot_img

En Son İstihbarat

spot_img