Cách chạy LLM cục bộ trên PC của bạn trong vòng chưa đầy 10 phút

Hands On Với tất cả các cuộc thảo luận về các cụm đào tạo máy học khổng lồ và PC AI, bạn sẽ được tha thứ khi nghĩ rằng mình cần một loại phần cứng đặc biệt nào đó để chơi với các mô hình ngôn ngữ lớn tạo văn bản và mã (LLM) tại nhà.

Trên thực tế, rất có thể hệ thống máy tính để bàn mà bạn đang đọc nội dung này đang hoạt động hơn cả khả năng chạy nhiều loại LLM, bao gồm các bot trò chuyện như Mistral hoặc các trình tạo mã nguồn như Codellama.

Trên thực tế, với các công cụ có sẵn công khai như Ollama, LM Suite và Llama.cpp, việc chạy các mô hình này trên hệ thống của bạn là tương đối dễ dàng.

Vì sự đơn giản và khả năng tương thích đa nền tảng, chúng ta sẽ xem xét Ollama, sau khi được cài đặt sẽ hoạt động ít nhiều giống nhau trên Windows, Linux và Mac.

Đôi lời về hiệu suất, khả năng tương thích và hỗ trợ GPU AMD:

Nhìn chung, các mô hình ngôn ngữ lớn như Mistral hay Llama 2 chạy tốt nhất với các bộ tăng tốc chuyên dụng. Có lý do khiến các nhà khai thác trung tâm dữ liệu mua và triển khai GPU theo cụm từ 10,000 trở lên, mặc dù bạn sẽ chỉ cần một phần nhỏ nhất của các tài nguyên đó.

Ollama cung cấp hỗ trợ riêng cho GPU dòng M của Nvidia và Apple. GPU Nvidia có bộ nhớ ít nhất 4GB sẽ hoạt động. Chúng tôi đã thử nghiệm với RTX 12 3060GB, mặc dù chúng tôi khuyên dùng ít nhất 16GB bộ nhớ cho máy Mac dòng M.

Người dùng Linux sẽ muốn có trình điều khiển độc quyền mới nhất của Nvidia và có thể cài đặt các tệp nhị phân CUDA trước tiên. Có thêm thông tin về cách thiết lập tại đây.

Nếu bạn đang sử dụng GPU Radeon 7000-series hoặc mới hơn, AMD có hướng dẫn đầy đủ về cách chạy LLM trên hệ thống của bạn mà bạn có thể tìm thấy. tại đây.

Tin vui là nếu bạn không có card đồ họa được hỗ trợ, Ollama vẫn sẽ chạy trên CPU tương thích AVX2, mặc dù chậm hơn rất nhiều so với khi bạn có GPU được hỗ trợ. Và mặc dù được khuyến nghị sử dụng bộ nhớ 16GB, nhưng bạn có thể sử dụng ít hơn bằng cách chọn mô hình lượng tử hóa — nhiều hơn thế trong một phút.

Cài đặt Olama

Quá trình cài đặt Ollama khá đơn giản, bất kể hệ điều hành cơ bản của bạn là gì. Đó là nguồn mở, bạn có thể kiểm tra tại đây.

Đối với những người chạy Windows hoặc Mac OS, hãy truy cập ollama.com và tải xuống và cài đặt nó như bất kỳ ứng dụng nào khác.

Đối với những người chạy Linux, việc này thậm chí còn đơn giản hơn: Chỉ cần chạy lớp lót này - bạn có thể tìm thấy hướng dẫn cài đặt thủ công tại đây, nếu bạn muốn — và bạn sẽ tham gia cuộc đua.

cuộn tròn -fsSL https://ollama.com/install.sh | sh

Cài đặt mô hình đầu tiên của bạn

Bất kể hệ điều hành của bạn là gì, làm việc với Ollama phần lớn đều giống nhau. Ollama khuyên bạn nên bắt đầu với Lạc đà 2 7B, một mạng nơ-ron dựa trên máy biến áp có bảy tỷ tham số, nhưng đối với hướng dẫn này, chúng ta sẽ xem xét Mistral 7B vì nó khá có khả năng và là nguồn gốc của một số tranh cãi trong những tuần gần đây.

Bắt đầu bằng cách mở PowerShell hoặc trình mô phỏng thiết bị đầu cuối và thực hiện lệnh sau để tải xuống và khởi động mô hình ở chế độ trò chuyện tương tác.

ollama chạy mistral

Sau khi tải xuống, bạn sẽ được đưa đến lời nhắc trò chuyện nơi bạn có thể bắt đầu tương tác với mô hình, giống như ChatGPT, Copilot hoặc Google Gemini.

LLM, như Mistral 7B, chạy tốt một cách đáng ngạc nhiên trên chiếc MacBook Pro M2 Max 1 tuổi này – Bấm để phóng to

Nếu không nhận được gì, trước tiên bạn có thể cần khởi chạy Ollama từ menu bắt đầu trên Windows hoặc thư mục ứng dụng trên máy Mac.

Mô hình, thẻ và lượng tử hóa

Mistal 7B chỉ là một trong một số LLM, bao gồm các phiên bản khác của mô hình, có thể truy cập được bằng Ollama. Bạn có thể tìm thấy danh sách đầy đủ cùng với hướng dẫn chạy từng tại đây, nhưng cú pháp chung sẽ giống như thế này:

ollama chạy model-name:model-tag

Thẻ mô hình được sử dụng để chỉ định phiên bản mô hình nào bạn muốn tải xuống. Nếu bạn tắt nó đi, Ollama cho rằng bạn muốn có phiên bản mới nhất. Theo kinh nghiệm của chúng tôi, đây có xu hướng là phiên bản lượng tử hóa 4 bit của mô hình.

Ví dụ: nếu bạn muốn chạy Llama2 7B của Meta tại FP16, nó sẽ trông như thế này:

ollama chạy llama2:7b-chat-fp16

Nhưng trước khi thử điều đó, bạn có thể muốn kiểm tra kỹ xem hệ thống của mình có đủ bộ nhớ hay không. Ví dụ trước đây của chúng tôi với Mistral đã sử dụng lượng tử hóa 4 bit, có nghĩa là mô hình cần nửa gigabyte bộ nhớ cho mỗi 1 tỷ tham số. Và đừng quên: Nó có bảy tỷ thông số.

Lượng tử hóa là một kỹ thuật được sử dụng để nén mô hình bằng cách chuyển đổi trọng số và kích hoạt của nó sang độ chính xác thấp hơn. Điều này cho phép Mistral 7B chạy trong 4GB GPU hoặc RAM hệ thống, thường với sự hy sinh tối thiểu về chất lượng đầu ra, mặc dù quãng đường của bạn có thể thay đổi.

Ví dụ Llama 2 7B được sử dụng ở trên chạy ở độ chính xác một nửa (FP16). Kết quả là, bạn thực sự cần 2GB bộ nhớ cho mỗi tỷ thông số, trong trường hợp này chỉ có hơn 14GB. Trừ khi bạn có GPU mới hơn với 16GB vRAM trở lên, bạn có thể không có đủ tài nguyên để chạy mô hình ở độ chính xác đó.

Quản lý Ollama

Việc quản lý, cập nhật và xóa các mô hình đã cài đặt bằng Ollama sẽ mang lại cảm giác như ở nhà đối với những ai đã từng sử dụng những thứ như Docker CLI trước đây.

Trong phần này chúng ta sẽ điểm qua một số tác vụ phổ biến hơn mà bạn có thể muốn thực hiện.

Để có danh sách các mô hình đã cài đặt, hãy chạy:

danh sách olama

Để xóa một mô hình, bạn sẽ chạy:

ollama rm tên mẫu:model-tag

Để lấy hoặc cập nhật một mô hình hiện có, hãy chạy:

ollama pull tên mô hình:model-tag

Các lệnh Ollama bổ sung có thể được tìm thấy bằng cách chạy:

olma --giúp đỡ

Như chúng tôi đã lưu ý trước đó, Ollama chỉ là một trong nhiều khung để chạy và thử nghiệm LLM cục bộ. Nếu bạn gặp rắc rối với điều này, bạn có thể gặp nhiều may mắn hơn với những người khác. Và không, AI không viết điều này.

Đăng ký nhằm mục đích mang lại cho bạn nhiều hơn về cách sử dụng LLM trong tương lai gần, vì vậy hãy nhớ chia sẻ các câu hỏi hóc búa về PC AI của bạn trong phần nhận xét. Và đừng quên về an ninh chuỗi cung ứng. ®

Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
nguồn: https://go.theregister.com/feed/www.theregister.com/2024/03/17/ai_pc_local_llm/

Trí thông minh dữ liệu tạo

Cách chạy LLM cục bộ trên PC của bạn trong vòng chưa đầy 10 phút

Cài đặt Olama

Cài đặt mô hình đầu tiên của bạn

Mô hình, thẻ và lượng tử hóa

Quản lý Ollama

Đưa tin trực tiếp: SpaceX phóng 23 vệ tinh Starlink trên chuyến bay Falcon 9 từ Cape Canaveral

Ba chìa khóa để người dân trên đảo giành chiến thắng trong ván thứ năm

Tin tức mới nhất

Lakers có được chiến thắng đáng mơ ước trước Denver, hiện đang dẫn trước 3-1 trong loạt trận

Falcon 9 phóng vệ tinh dẫn đường Galileo

Những người đam mê Dogecoin và Pepecoin tập hợp đằng sau Token AI mới được phát hành bởi nền tảng trao đổi Wahoo – CryptoInfoNet

Bài học từ phiên tòa FTX: Việc quản lý CEX có thể không đủ để ngăn chặn những kẻ xấu | Ý kiến – CryptoInfoNet

Giải thích về kỹ thuật đi sâu vào “Bánh răng” của Ioniq 5 N và các tính năng hiệu suất khác – CleanTechnica

Theo nhà phân tích Benjamin Cowen, vàng có thể vừa báo hiệu sự kết thúc của cuộc biểu tình Bitcoin (BTC) – Đây là ý của ông – The Daily Hodl