Logo Zephyrnet

Wawancara dengan eksekutif perangkat lunak Nvidia Kari Briski

Tanggal:

Wawancara Konferensi Teknologi GPU Nvidia berakhir minggu lalu, menyampaikan kabar tentang chip Blackwell perusahaan dan keajaiban AI yang banyak dipuji, dengan semua perangkat keras GPU yang dibeli dengan harga mahal.

Begitulah desas-desus di sekitar perusahaan bahwa harga sahamnya sedang mendekati rekor tertinggi, berdasarkan gagasan bahwa banyak upaya kreatif dapat dilakukan lebih cepat atau bahkan lebih baik dengan otomatisasi yang dimungkinkan oleh model pembelajaran mesin.

Itu masih diuji di pasar.

George Santayana sekali menulis: “Mereka yang tidak dapat mengingat masa lalu, dikutuk untuk mengulanginya.” Itu adalah ungkapan yang sering diulang-ulang. Namun mengingat masa lalu belum benar-benar membedakan model AI. Mereka dapat mengingat masa lalu namun mereka tetap dikutuk untuk mengulanginya sesuai permintaan, terkadang dengan cara yang salah.

Meski begitu, banyak yang bersumpah demi AI yang maha kuasa, khususnya mereka yang menjual perangkat keras AI atau layanan cloud. Nvidia, antara lain, bertaruh besar untuk itu. Jadi Pendaftaran melakukan kunjungan singkat ke konferensi GPU untuk melihat apa yang sebenarnya terjadi. Ini tentu saja bukan tentang batangan lemon yang disajikan di ruang pameran pada hari Kamis, banyak di antaranya mengakhiri penawaran umum perdana mereka yang belum selesai di tempat pameran.

Yang jauh lebih menarik adalah percakapan Pendaftaran lakukan dengan Kari Briski, wakil presiden manajemen produk untuk kit pengembangan perangkat lunak AI dan HPC di Nvidia. Dia mengepalai manajemen produk perangkat lunak untuk model dasar perusahaan, perpustakaan, SDK, dan sekarang layanan mikro yang menangani pelatihan dan inferensi, seperti yang baru diumumkan NIM layanan mikro dan yang lebih mapan nemo kerangka penerapan.

Pendaftaran: Bagaimana perusahaan akan menggunakan layanan mikro ini – di cloud, di lokasi?

Cepat: Itulah sebenarnya alasan kami membangun NIM. Agak lucu untuk mengatakan “NIM.” Tapi kami memulai perjalanan ini sejak lama. Kami telah mengerjakan inferensi sejak saya mulai – saya pikir itu adalah TensorRT 1.0 ketika saya memulainya pada tahun 2016.

Selama bertahun-tahun kami telah mengembangkan tumpukan inferensi kami, mempelajari lebih lanjut tentang setiap jenis beban kerja, dimulai dengan visi komputer dan sistem serta ucapan rekomendasi yang mendalam, pengenalan ucapan otomatis dan sintesis ucapan, dan kini model bahasa besar. Ini merupakan tumpukan yang benar-benar berfokus pada pengembang. Dan kini setelah perusahaan [telah melihat] OpenAI dan ChatGPT, mereka memahami perlunya menjalankan model bahasa besar ini di samping data perusahaan atau dalam aplikasi perusahaan mereka.

Rata-rata penyedia layanan cloud, untuk layanan terkelolanya, mereka memiliki ratusan insinyur yang mengerjakan teknik inferensi dan pengoptimalan. Perusahaan tidak bisa melakukan itu. Mereka perlu segera mendapatkan nilai waktu. Itu sebabnya kami merangkum semua yang telah kami pelajari selama bertahun-tahun dengan TensorRT, model bahasa besar, Server Inferensi Triton, API standar, dan pemeriksaan kesehatan. [Idenya adalah untuk] dapat merangkum semua itu sehingga Anda dapat beralih dari nol ke titik akhir model bahasa yang besar dalam waktu kurang dari lima menit.

[Sehubungan dengan pusat data lokal versus pusat data cloud], sebagian besar pelanggan kami adalah cloud hybrid. Mereka lebih menyukai komputasi. Jadi, alih-alih mengirimkan data ke layanan terkelola, mereka dapat menjalankan layanan mikro di dekat datanya dan menjalankannya di mana pun mereka mau.

Pendaftaran: Seperti apa tumpukan perangkat lunak Nvidia untuk AI dalam hal bahasa pemrograman? Apakah sebagian besar masih CUDA, Python, C, dan C++? Apakah Anda mencari tempat lain untuk kecepatan dan efisiensi yang lebih tinggi?

Cepat: Kami selalu menjelajahi di mana pun pengembang menggunakan. Itu selalu menjadi kunci kami. Jadi sejak saya mulai di Nvidia, saya telah mengerjakan perpustakaan matematika yang dipercepat. Pertama, Anda harus memprogram dalam CUDA untuk mendapatkan paralelisme. Dan kemudian kami memiliki C API. Dan kami memiliki API Python. Jadi ini tentang membawa platform ke mana pun pengembangnya berada. Saat ini, pengembang hanya ingin mencapai titik akhir API yang sangat sederhana, seperti dengan perintah curl atau perintah Python atau yang serupa. Jadi ini harus sangat sederhana, karena di situlah kita bertemu dengan para pengembang hari ini.

Pendaftaran: CUDA jelas memainkan peran besar dalam membuat komputasi GPU menjadi efektif. Apa yang dilakukan Nvidia untuk memajukan CUDA?

Cepat: CUDA adalah fondasi untuk semua GPU kami. Ini adalah GPU berkemampuan CUDA dan dapat diprogram CUDA. Beberapa tahun yang lalu, kami menyebutnya CUDA-X, karena Anda memiliki bahasa khusus domain tersebut. Jadi jika Anda memiliki [aplikasi] pencitraan medis, Anda punya cuCIM. Jika Anda memiliki pengenalan ucapan otomatis, Anda memiliki dekoder pencarian sinar yang dipercepat CUDA di bagian akhir. Jadi, ada semua hal spesifik ini untuk setiap jenis beban kerja berbeda yang telah dipercepat oleh CUDA. Kami telah membangun semua perpustakaan khusus ini selama bertahun-tahun cuDF dan cumML, dan cu-ini-itu. Semua perpustakaan CUDA ini adalah fondasi dari apa yang kami bangun selama bertahun-tahun dan sekarang kami sedang membangun di atasnya.

Pendaftaran: Bagaimana Nvidia mempertimbangkan pertimbangan biaya dalam hal cara merancang perangkat lunak dan perangkat kerasnya? Dengan sesuatu seperti Nvidia AI Enterprise, biayanya $4,500 per GPU setiap tahun, dan itu cukup besar.

Cepat: Pertama, untuk perusahaan kecil, kami selalu memiliki Lahirnya program. Kami selalu bekerja sama dengan pelanggan – uji coba gratis selama 90 hari, apakah ini benar-benar berharga bagi Anda? Apakah itu sangat berharga? Kemudian, untuk mengurangi biaya saat Anda membelinya, kami selalu mengoptimalkan perangkat lunak kami. Jadi jika Anda membeli $4,500 per CPU per tahun per lisensi, dan Anda menggunakan A100, dan besok Anda menggunakan H100, harganya sama – biaya Anda telah turun [relatif terhadap throughput Anda]. Jadi kami selalu membangun pengoptimalan tersebut dan total biaya kepemilikan serta kinerja kembali ke dalam perangkat lunak.

Saat kami memikirkan tentang pelatihan dan inferensi, pelatihannya memerlukan waktu lebih lama, namun kami memiliki konfigurator otomatis yang dapat mengatakan, “Berapa banyak data yang Anda miliki? Berapa banyak komputasi yang Anda perlukan? Berapa lama waktu yang Anda inginkan?” Jadi Anda bisa memiliki jejak komputasi yang lebih kecil, namun mungkin memerlukan waktu lebih lama untuk melatih model Anda… Apakah Anda ingin melatihnya dalam seminggu? Atau apakah Anda ingin melatihnya dalam sehari? Jadi Anda bisa melakukan pengorbanan tersebut.

Pendaftaran: Terkait permasalahan saat ini, apakah ada hal khusus yang ingin Anda selesaikan atau ada tantangan teknis yang ingin Anda atasi?

Cepat: Saat ini, ini didorong oleh peristiwa RAG [yang merupakan cara untuk menambah model AI dengan data yang diambil dari sumber eksternal]. Banyak perusahaan hanya memikirkan pertanyaan klasik untuk menghasilkan jawaban. Namun sebenarnya, yang ingin kami lakukan adalah [merangkai] semua sistem generatif yang ditambah pengambilan ini secara bersamaan. Karena jika Anda memikirkan tentang Anda, dan tugas yang mungkin ingin Anda selesaikan: “Oh, saya harus berbicara dengan tim database. Dan tim database itu harus berbicara dengan tim Tableau. Mereka harus membuatkan saya dasbor,” dan semua hal ini harus terjadi sebelum Anda benar-benar dapat menyelesaikan tugas tersebut. Jadi itu semacam RAG yang digerakkan oleh peristiwa. Saya tidak akan mengatakan RAG berbicara dengan RAG, tetapi pada dasarnya adalah – agen pergi dan melakukan banyak pekerjaan dan kembali lagi. Dan kita berada di titik puncak hal itu. Jadi menurut saya itu adalah sesuatu yang sangat membuat saya bersemangat untuk melihatnya di tahun 2024.

Pendaftaran: Apakah Nvidia melakukan dogfood pada AI-nya sendiri? Apakah menurut Anda AI berguna secara internal?

Cepat: Sebenarnya kami berangkat dan tahun lalu, karena tahun 2023 adalah tahun eksplorasi, ada 150 tim di Nvidia yang saya temukan – mungkin lebih banyak lagi – dan kami mencoba mengatakan, bagaimana Anda menggunakan alat kami, jenis apa kasus penggunaan dan kami mulai menggabungkan semua pembelajaran, seperti ribuan bunga yang mekar, dan kami menggabungkan semua pembelajaran mereka menjadi praktik terbaik ke dalam satu repo. Itu sebenarnya yang kami rilis, yang kami sebut Contoh AI Generatif di GitHub, karena kami hanya ingin memiliki semua praktik terbaik di satu tempat.

Itulah yang kami lakukan secara struktural. Namun sebagai contoh eksplisit, saya pikir kami menulis makalah yang sangat bagus berjudul ChipNeMo, dan ini sebenarnya tentang EDA kami, tim desain VLSI, dan bagaimana mereka mengambil model dasar dan melatihnya berdasarkan data milik kami. Kami memiliki bahasa pengkodean sendiri untuk VLSI. Jadi mereka membuat kode kopilot [model pembuatan kode sumber terbuka] agar dapat menghasilkan bahasa milik kami dan untuk membantu produktivitas para insinyur baru yang belum begitu mengetahui kode penulisan chip desain VLSI kami.

Dan itu selaras dengan setiap pelanggan. Jadi jika Anda berbicara dengan SAP, mereka memiliki BOP [Backorder Processing], yang seperti hak milik SQL untuk database mereka. Dan saya berbicara dengan tiga pelanggan lain yang memiliki bahasa kepemilikan berbeda – bahkan SQL memiliki ratusan dialek. Jadi mampu melakukan pembuatan kode bukanlah kasus penggunaan yang bisa langsung diselesaikan oleh RAG. Ya, RAG membantu mengambil dokumentasi dan beberapa cuplikan kode, tetapi kecuali jika dilatih untuk menghasilkan token dalam bahasa tersebut, RAG tidak dapat hanya membuat kode.

Pendaftaran: Saat Anda melihat model bahasa besar dan cara mereka dihubungkan dengan aplikasi, apakah Anda memikirkan tentang latensi yang mungkin timbul dan bagaimana cara mengatasinya? Adakah saat-saat ketika hanya melakukan hardcoding pada pohon keputusan tampak lebih masuk akal?

Cepat: Anda benar, ketika Anda menanyakan pertanyaan tertentu, atau prompt, mungkin ada, bahkan untuk satu pertanyaan, mungkin ada lima atau tujuh model yang sudah dimulai sehingga Anda bisa mendapatkan penulisan ulang dan pagar pembatas serta pengambilan dan pemeringkatan ulang yang cepat dan kemudian generatornya. Itu sebabnya NIM sangat penting, karena kami telah mengoptimalkan latensi.

Itu juga mengapa kami menawarkan versi model dasar yang berbeda karena Anda mungkin memiliki SLM, model bahasa kecil yang lebih baik untuk serangkaian tugas tertentu, dan kemudian Anda menginginkan model yang lebih besar agar lebih akurat pada akhirnya. Namun menyatukan semuanya agar sesuai dengan jendela latensi Anda adalah masalah yang telah kami selesaikan selama bertahun-tahun untuk banyak layanan skala besar atau layanan terkelola. Mereka memiliki jendela latensi ini dan sering kali ketika Anda mengajukan pertanyaan atau melakukan penelusuran, mereka benar-benar melontarkan pertanyaan tersebut berkali-kali. Jadi mereka punya banyak kondisi perlombaan "berapa jendela latensi saya untuk setiap bagian kecil dari total respons?" Jadi ya, kami selalu memperhatikannya.

Mengenai pendapat Anda tentang hardcoding, saya baru saja membicarakannya dengan pelanggan hari ini. Kami jauh melampaui hardcoding… Anda dapat menggunakan manajer dialog dan memiliki if-then-else. [Tetapi] mengelola ribuan aturan benar-benar mustahil. Dan itulah mengapa kami menyukai hal-hal seperti pagar pembatas, karena pagar pembatas mewakili semacam pengganti manajer dialog klasik. Daripada berkata, “Jangan bicara soal bisbol, jangan bicara soal softball, jangan bicara tentang sepak bola,” dan menyebutkannya, Anda bisa mengatakan, “Jangan bicara tentang olahraga.” Dan kemudian LLM mengetahui apa itu olahraga. Penghematan waktu, dan kemampuan mengelola kode itu nanti, jauh lebih baik. ®

tempat_img

Intelijen Terbaru

tempat_img