和風網標誌

訪問 Nvidia 軟體主管 Kari Briski

日期:

Q&A Nvidia 的 GPU 技術會議於上週結束,帶來了該公司的 Blackwell 晶片和大肆宣傳的人工智慧奇蹟的消息,以及所有昂貴購買的 GPU 硬體。

該公司的股價正不斷刷新歷史新高,因為機器學習模型實現的自動化可以使許多創意工作更快,甚至更好。

這還有待市場檢驗。

喬治桑塔亞納曾經 寫道::“那些不記得過去的人注定要重蹈覆轍。”這是經常被重複的一句話。然而,對過去事物的記憶並沒有真正使人工智慧模型與眾不同。他們可以記住過去,但他們仍然注定要按需重複,有時甚至是錯誤的。

即便如此,許多人仍然堅信全能的人工智慧,尤其是那些銷售人工智慧硬體或雲端服務的人。 英偉達等公司對此下了大注。 所以 註冊 短暫參觀了 GPU 會議,看看到底有什麼好大驚小怪的。這當然與週四展廳內供應的檸檬棒無關,其中許多檸檬棒在展廳的垃圾箱中未完成首次公開募股就結束了。

對話更具吸引力 註冊 與 Nvidia 人工智慧和 HPC 軟體開發套件產品管理副總裁 Kari Briski 進行了交流。她負責公司基礎模型、函式庫、SDK 以及現在處理訓練和推理的微服務的軟體產品管理,例如新發布的 NIM 微服務和更完善的服務 尼莫 部署框架。

註冊:公司將如何在雲端、本地使用這些微服務?

布里斯基:這其實就是我們建構 NIM 的美妙之處。說“NIM”有點有趣。但我們很久以前就開始了這段旅程。自從我開始工作以來,我們一直在從事推理工作——我認為 1.0 年我開始工作的時候是 TensorRT 2016。

多年來,我們一直在發展我們的推理堆疊,更多地了解每種不同類型的工作負載,從計算機視覺和深度推薦系統和語音、自動語音識別和語音合成以及現在的大型語言模型開始。這是一個真正以開發人員為中心的堆疊。現在,企業[已經看到了] OpenAI 和 ChatGPT,他們了解需要讓這些大型語言模型在其企業資料旁邊或在企業應用程式中運行。

一般的雲端服務供應商,對於他們的託管服務,他們有數百名工程師致力於推理、優化技術。企業做不到這一點。他們需要立即實現價值。這就是為什麼我們透過 TensorRT、大型語言模型、Triton 推理伺服器、標準 API 和健康檢查封裝了多年來學到的所有內容。 [想法是]能夠封裝所有這些,以便您可以在五分鐘內從零獲得大型語言模型端點。

[關於本地資料中心與雲端資料中心],我們的許多客戶都是混合雲。他們更喜歡計算。因此,他們不必將資料發送到託管服務,而是可以在靠近資料的地方運行微服務,並且可以在任何需要的地方運行它。

註冊:就程式語言而言,Nvidia 的 AI 軟體堆疊是什麼樣的?仍然主要是 CUDA、Python、C 和 C++ 嗎?您是否在其他地方尋求更快的速度和效率?

布里斯基:我們一直在探索開發人員使用的任何地方。這一直是我們的關鍵。自從我加入 Nvidia 以來,我就一直致力於加速數學庫的工作。首先,您必須使用 CUDA 進行程式設計才能獲得並行性。然後我們有了 C API。我們有一個 Python API。因此,無論開發人員在哪裡,都可以使用該平台。現在,開發人員只想存取一個非常簡單的 API 端點,例如使用curl命令或Python命令或類似的命令。所以它必須非常簡單,因為這就是我們今天與開發人員會面的地方。

註冊:CUDA 顯然在提高 GPU 運算效率方面發揮巨大作用。 Nvidia 正在採取哪些措施來推進 CUDA?

布里斯基:CUDA 是我們所有 GPU 的基礎。它是一款支援 CUDA、CUDA 可編程的 GPU。幾年前,我們將其稱為 CUDA-X,因為您擁有這些特定於領域的語言。因此,如果您有醫學影像[應用程式],那麼您就擁有了 銅CIM。如果您有自動語音辨識功能,那麼最後您就會有一個 CUDA 加速波束搜尋解碼器。因此,對於 CUDA 加速的每種不同類型的工作負載,都有所有這些特定的東西。多年來我們已經建立了所有這些專業圖書館,例如 銅纖維立方體語言和 cu-這個-那個。所有這些 CUDA 庫都是我們多年來構建的基礎,現在我們是在此基礎上進行構建的。

註冊:Nvidia 在設計軟體和硬體時如何考慮成本因素?像 Nvidia AI Enterprise 這樣的產品,每個 GPU 每年的售價為 4,500 美元,這是相當可觀的。

布里斯基:首先,對於較小的公司,我們總是有 盜夢空間 程式.我們始終與客戶合作-90天免費試用,對您來說真的有價值嗎?是不是真的值得嗎?然後,為了降低您購買時的成本,我們一直在優化我們的軟體。因此,如果您購買每個 CPU 每年每個許可證 4,500 美元,並且您在 A100 上運行,並且明天在 H100 上運行,那麼價格是相同的 – 您的成本已經下降(相對於您的吞吐量)。因此,我們總是將這些最佳化以及總擁有成本和效能重新建構到軟體中。

當我們考慮訓練和推理時,訓練確實需要多一點,但我們有這些自動配置器可以說:「你有多少資料?您需要多少運算能力?你想要多長時間?”因此,您可以使用較小的運算資源,但訓練模型可能需要更長的時間…您想在一周內訓練它嗎?或者你想在一天內訓練它嗎?所以你可以做出這些權衡。

註冊:就目前的問題而言,您有什麼特別想解決的問題或有什麼技術挑戰是您想克服的嗎?

布里斯基:現在是事件驅動的 RAG [這是一種利用從外部來源獲取的數據來增強人工智慧模型的方法]。很多企業只是想用經典的提示來產生答案。但實際上,我們想要做的是將所有這些檢索增強生成系統[連結]在一起。因為如果你想到你自己,以及你可能想要完成的任務:「哦,我得去和資料庫團隊談談。這個資料庫團隊必須與 Tableau 團隊交談。他們得給我做一個儀表板,」所有這些事情都必須發生才能真正完成任務。這是一種事件驅動的 RAG。我不會說 RAG 與 RAG 交談,但本質上就是這樣——特工離開並執行大量工作然後回來。我們正處於這一點的風口浪尖。所以我認為這是我對 2024 年看到的事情感到非常興奮的事情。

註冊:Nvidia 正在測試自己的 AI 嗎?您發現人工智慧在內部有用嗎?

布里斯基:實際上,我們去年就開始了,因為 2023 年是探索之年,我發現 Nvidia 內部有 150 個團隊 - 可能還會更多 - 我們試圖說,你們如何使用我們的工具,什麼樣的工具用例,我們開始將所有的學習內容結合起來,就像一千朵花盛開一樣,我們將他們所有的學習內容合併到一個儲存庫中的最佳實踐中。這實際上就是我們所說的發布的 生成式人工智慧範例 在 GitHub 上,因為我們只是想將所有最佳實踐集中在一個地方。

這就是我們在結構上所做的事情。但作為一個明確的例子,我認為我們寫了一篇非常偉大的論文,名為 晶片NeMo,這實際上都是關於我們的 EDA、VLSI 設計團隊,以及他們如何採用基礎模型並根據我們的專有資料對其進行訓練。我們有自己的 VLSI 編碼語言。因此,他們是編碼副駕駛(開源程式碼產生模型),能夠產生我們的專有語言,並幫助不太了解我們的 VLSI 設計晶片編寫程式碼的新工程師提高工作效率。

這引起了每位客戶的共鳴。因此,如果您與 SAP 交談,您會發現他們有 BOP [缺貨處理],這就像他們資料庫的專有 SQL。我與其他三個擁有不同專有語言的客戶進行了交談——甚至 SQL 也有數百種方言。因此,能夠進行程式碼產生並不是 RAG 可以立即解決的用例。是的,RAG 可以幫助檢索文件和一些程式碼片段,但除非經過訓練可以用該語言產生標記,否則它不能只是編寫程式碼。

註冊:當您查看大型語言模型以及它們與應用程式連結在一起的方式時,您是否考慮可能引入的延遲以及如何處理它?有時,簡單地對決策樹進行硬編碼似乎更有意義嗎?

布里斯基:你是對的,當你問一個特定的問題或提示時,即使只是一個問題,也可能有五到七個模型已經啟動,這樣你就可以得到及時的重寫、護欄、檢索器和重新排名然後是發電機。這就是 NIM 如此重要的原因,因為我們已經針對延遲進行了最佳化。

這也是我們提供不同版本的基礎模型的原因,因為您可能有一個 SLM,一種更適合特定任務集的小型語言模型,然後您最終需要更大的模型以獲得更高的準確性。但是,將所有這些連結起來以適應您的延遲視窗是我們多年來一直為許多超大規模或託管服務解決的問題。他們有這些延遲窗口,很多時候當你提出問題或進行搜索時,他們實際上會多次將問題外包出去。因此,他們有很多競爭條件:“總響應的每一小部分的延遲視窗是多少?”所以是的,我們一直在關注這一點。

關於硬編碼的觀點,我今天剛與一位客戶討論過。我們遠遠超出了硬編碼的範圍…您可以使用對話管理器並使用 if-then-else。 [但是]管理數千條規則確實非常不可能。這就是為什麼我們喜歡護欄之類的東西,因為護欄代表了經典對話管理器的替代品。不要說“不要談論棒球,不要談論壘球,不要談論足球”,然後將它們列出來,你可以說“不要談論體育”。然後法學碩士知道什麼是運動。節省時間並且能夠在以後管理該程式碼要好得多。 ®

現貨圖片

最新情報

現貨圖片