和風網標誌

為什麼 Copilot 目前只能在 AI PC 上本地運行

日期:

評論 微軟對人工智慧電腦的定義正在形成中。借助最新版本的 Windows、專用的 Copilot 鍵以及每秒至少能夠執行 40 兆次操作的 NPU,您很快就可以在電腦上本地運行 Microsoft Copilot。

雷德蒙德的 要求 英特爾是人工智慧 PC 領域最強大的啦啦隊之一,在這家晶片巨頭的 Windows 上的人工智慧模型被正式宣布。 人工智能峰會 本週在台北。

在本地運行大型語言模型 (LLM) 有一些內在的好處。最終用戶應該具有更低的延遲,從而縮短回應時間,因為理論上不需要向遠端資料中心發送查詢或從遠端資料中心發送查詢,而且理論上還需要更多的隱私。同時,對微軟來說,將更多的人工智慧工作負載轉移到客戶設備上可以釋放自己的資源來執行其他任務,例如幫助訓練下一個 OpenAI 模型或將其作為雲端 API 提供。

微軟希望最終完全在人們的 Windows AI PC 中的 NPU(即神經處理單元)上運行其 Copilot LLM,從以下方面來看 顯然評論 英特爾高層在峰會上提出的。我們可以想像 x86 巨頭推動這條路線,讓所有人相信它的晶片功能強大,足以在家中或辦公室運行 Redmond 的產品。

雖然將 Copilot 從 Azure 臍帶上解開的想法可能對某些人有吸引力,但似乎並不是每個人都喜歡 剪輯化身 在可預見的未來,至少部分處理幾乎肯定會在雲端完成。

英特爾高層也曾說:更快的硬體將使 Copilot 的更多「元素」能夠在本地運行。換句話說,至少部分功能仍需要依賴網路連接,而其餘功能則由 AI PC 自行處理。

其原因應該不足為奇。這些 AI PC 的資源有限,而為 Copilot 提供動力的模型——OpenAI 的 GPT-4——非常龐大。我們不知道微軟使用的具體版本有多大,但是 估計 將完整的 GPT-4 模型設定為約 1.7 兆個參數。即使進行量化或以 INT4 運行模型,您也需要大約 900GB 的記憶體。

我們認為它會如何運作

GPT-4 是所謂的專家混合模型。簡而言之,這意味著它實際上是由許多較小的、專門的預訓練模型組裝而成的,查詢將路由到這些模型。透過針對文字生成、摘要、程式碼建立等優化多個模型,可以提高推理效能,因為不需要運行整個模型來完成任務。

英特爾使用術語「元素」來描述本地運行的 Copilot 功能,這表明其中一些專家可以替代能夠在筆記型電腦硬體上運行的更小、更靈活的模型。正如我們之前所探討的,現有的個人硬體完全能夠運行 Mistral 或 Meta 等較小的人工智慧模型。

無獨有偶,微軟最近 向法國迷你模型建構商 Mistral AI 投資 15 萬歐元(16.3 萬美元),計劃將其作品提供給 Azure 客戶。 Mistral-7B 的參數大小僅為 7 億個,當然足夠小,可以輕鬆裝入 AI PC 的內存中,在使用 4 位量化時需要大約 4GB 內存。

這是通用模型。可以想像,您可以使用為原始程式碼生成而調整的更小的模型,這些模型僅在啟動應用程式(例如 Visual Studio Code)並且檢測到活動的 Github Copilot 訂閱時才載入到記憶體中。請記住,Copilot 不只是一個聊天機器人;它也是一個聊天機器人。它是一套人工智慧功能,已融入微軟的作業系統和軟體庫中。

雷德蒙尚未透露其 AI PC 規格需要多少內存,但根據我們的經驗 本地法學碩士, 16GB 高速 DDR5 應該夠了。

無論微軟最終採取什麼路線,本地和遠端模型的結合都可能會導致一些有趣的行為。我們還不知道在什麼情況下這些本地模型將接管,但微軟 Windows 設備公司副總裁 Pavan Davuluri 表示,這種組合可能是動態的。

「我們希望能夠在雲端和客戶端之間進行負載轉移,以在這兩個世界中提供最好的運算,」他在 AMD 推進人工智慧大會的舞台上說道 項目 在十二月。 “它結合了本地運算的優勢,例如透過雲端的力量增強隱私性、響應能力和延遲、高效能模型、大數據集、跨平台推理。”

因此,我們可以看到微軟如何使用本地人工智慧的幾個場景。第一個是減輕 Microsoft 伺服器的工作負擔並縮短回應時間。隨著硬體的改進,更多的 Copilot 功能可以從雲端推送到用戶設備。

第二個是在網路中斷的情況下將其作為後備措施。你可以想像你的人工智慧電腦在與網路斷開時只是變得更加愚蠢而不是完全停止。

硬件限制

在你對裂腦人工智慧電腦起草離網宣言感到太興奮之前,目前還沒有任何機器能夠滿足硬體要求,而且這並不是因為缺乏副駕駛鑰匙。

問題在於,NPU 在 x86 晶片中仍然相對較新,而且現有的功能還不夠強大。 AMD 是最早在其行動處理器中添加 NPU 的公司之一,早在 2023 年初就推出了 Ryzen 7040 系列晶片。

該陣容在 12 月的 House of Zen 的 Advancing AI 活動期間得到了時鐘調整。 AMD 也透過推出 NPU 將其 NPU 引入桌面 8000G APU 今年 1 月的 CES 上。

英特爾推出專用人工智慧加速器模組 流星湖 十二月下旬微處理器零件。這些 Core Ultra 晶片配備源自英特爾 Movidius 視覺處理單元 (VPU) 的 NPU,英特爾 降級 去年的創新活動期間運行各種工作負載。

不幸的是,晶片每秒只能執行 10 到 16 兆次(通常是 INT4)操作,遠低於 Microsoft 的 40 TOPS 規格。這意味著市場上大多數所謂的人工智慧電腦都無法滿足要求——除非依靠 GPU 來彌補差異。

英特爾和 AMD 都擁有更強大的晶片,分別採用 Lunar Lake 和 Strix Point 晶片。然而,在短期內,高通似乎將壟斷市場。

搭載高通 Snapdragon X Elite 的筆記型電腦 移動處理器 預計將於 2024 年中期推出,並將配備能夠處理 45 TOPS 的 NPU。高通表示,結合具有4.6 teraFLOPS FP32 性能的Adreno GPU,該器件將能夠完全在設備上運行多達13 億個參數的AI 模型,並在運行較小的30 億個參數的LLM 時每秒生成7 個代幣。

隨著具有更高性能 NPU 和更大內存存儲的 PC 的出現,以及小型型號的功能變得越來越強大,我們懷疑微軟將開始將更多功能轉移到本地設備 - 一旦硬體能夠處理它。 ®

現貨圖片

最新情報

現貨圖片