和風網標誌

如何在 10 分鐘內在您的 PC 上本地運行 LLM

日期:

手上 談到大規模機器學習訓練叢集和人工智慧 PC,您會認為自己需要某種特殊硬體來在家中使用文字和程式碼產生大型語言模型 (LLM),這是可以理解的。

事實上,您正在閱讀本文的桌面系統很可能是 更有能力 運行各種法學碩士,包括像 Mistral 這樣的聊天機器人或像 Codellama 這樣的原始碼產生器。

事實上,借助 Ollama、LM Suite 和 Llama.cpp 等公開可用的工具,在您的系統上運行這些模型相對容易。

為了簡單性和跨平台相容性,我們將考慮 奧拉馬,安裝後在 Windows、Linux 和 Mac 上的工作方式大致相同。

關於效能、相容性和 AMD GPU 支援的一句話:

一般來說,像 Mistral 或 Llama 2 這樣的大型語言模型在使用專用加速器時運作效果最佳。資料中心營運商在 10,000 個或更多的叢集中購買和部署 GPU 是有原因的,儘管您只需要此類資源的一小部分。

Ollama 為 Nvidia 和 Apple 的 M 系列 GPU 提供本機支援。具有至少 4GB 記憶體的 Nvidia GPU 應該可以工作。我們使用 12GB RTX 3060 進行測試,但我們建議 M 系列 Mac 至少使用 16GB 記憶體。

Linux 用戶需要先安裝 Nvidia 最新的專有驅動程序,並且可能還需要安裝 CUDA 二進位。有關設置的更多信息 点击這裡.

如果您使用的是 Radeon 7000 系列 GPU 或更新版本,AMD 提供了有關在您的系統上運行 LLM 的完整指南,您可以找到該指南 点击這裡.

好消息是,如果您沒有受支援的顯示卡,Ollama 仍將在 AVX2 相容的 CPU 上運行,儘管比有支援的 GPU 時慢很多。雖然建議使用 16GB 內存,但透過選擇量化模型,您也許可以使用更少的內存——稍後會詳細介紹。

安裝奧拉瑪

無論您的基本作業系統是什麼,安裝 Ollama 都非常簡單。它是開源的,您可以查看 点击這裡.

對於那些運行 Windows 或 Mac OS 的用戶,請前往 olama.com 並像任何其他應用程式一樣下載並安裝它。

對於那些運行 Linux 的用戶來說,這甚至更簡單:只需執行此命令 — 您可以找到手動安裝說明 点击這裡,如果你想要它們——那麼你就可以參加比賽了。

捲曲-fsSL https://ollama.com/install.sh |噓

安裝您的第一個模型

無論您使用哪種作業系統,使用 Ollama 的工作基本上相同。 Ollama 建議從 羊駝 2 7B,一個基於 70 億參數的 Transformer 神經網絡,但在本指南中,我們將看看 米斯特拉爾7B 因為它非常有能力並且是一些的來源 爭議 在最近幾個星期。

首先開啟 PowerShell 或終端模擬器並執行以下命令以互動式聊天模式下載並啟動模型。

奧拉馬·倫·米斯特拉爾

下載後,您將進入聊天提示,您可以在其中開始與模型交互,就像 ChatGPT、Copilot 或 Google Gemini 一樣。

LLM,如 Mistral 7B,在這台已經使用了 2 年的 M1 Max MacBook Pro 上運行得出奇的好

LLM,如 Mistral 7B,在這台已有 2 年曆史的 M1 Max MacBook Pro 上運行得出奇地好 – 點擊放大

如果您沒有得到任何信息,您可能需要先從 Windows 上的開始功能表或 Mac 上的應用程式資料夾啟動 Ollama。

模型、標籤和量化

Mistal 7B 只是多個可使用 Ollama 存取的法學碩士(包括該模型的其他版本)之一。您可以找到完整清單以及運行每個清單的說明 点击這裡,但一般語法是這樣的:

ollama 運行模型名稱:模型標籤

模型標籤用於指定您要下載的模型版本。如果您不選擇它,Ollama 會認為您需要最新版本。根據我們的經驗,這往往是模型的 4 位元量化版本。

例如,如果您想在 FP2 上執行 Meta 的 Llama7 16B,它看起來像這樣:

llama 運行 llama2:7b-chat-fp16

但在嘗試之前,您可能需要仔細檢查您的系統是否有足夠的記憶體。我們先前的 Mistral 範例使用了 4 位元量化,這表示模型每 1 億個參數需要 XNUMX GB 記憶體。不要忘記:它有 XNUMX 億個參數。

量化是一種透過將模型的權重和活化轉換為較低精度來壓縮模型的技術。這使得 Mistral 7B 可以在 4GB GPU 或系統 RAM 內運行,通常對輸出品質的影響最小,儘管您的情況可能會有所不同。

上面使用的 Llama 2 7B 範例以半精度 (FP16) 運行。因此,每十億個參數實際上需要 2GB 內存,在本例中,實際上需要 14GB 多一點。除非您擁有具有 16GB 或更多 vRAM 的較新 GPU,否則您可能沒有足夠的資源以該精度運行模型。

管理奧拉馬

對於以前使用過 Docker CLI 等工具的任何人來說,使用 Ollama 管理、更新和刪除已安裝的模型應該會感到很自在。

在本節中,我們將介紹您可能想要執行的一些更常見的任務。

若要取得已安裝模型的列表,請執行:

烏拉馬名單

要刪除模型,您可以運行:

ollama rm 型號名稱:型號標籤

若要拉取或更新現有模型,請執行:

ollama pull 模型名稱:模型標籤

可以透過執行以下命令找到其他 Ollama 命令:

烏拉馬——幫助

正如我們之前提到的,Ollama 只是用於運行和測試本地 LLM 的眾多框架之一。如果你在這方面遇到麻煩,你可能會在其他方面找到更多的運氣。不,這不是人工智慧寫的。

註冊 旨在在不久的將來為您帶來更多關於利用 LLM 的信息,因此請務必在評論部分分享您迫切需要解決的 AI PC 問題。並且不要忘記 供應鏈安全。 ®

現貨圖片

最新情報

現貨圖片