제퍼넷 로고

10분 이내에 PC에서 로컬로 LLM을 실행하는 방법

시간

손에 대규모 기계 학습 훈련 클러스터와 AI PC에 대한 모든 이야기를 통해 집에서 텍스트 및 코드 생성 LLM(대형 언어 모델)을 사용하려면 일종의 특별한 하드웨어가 필요하다고 생각하는 것이 용서될 것입니다.

실제로 이 글을 읽고 있는 데스크탑 시스템이 다음과 같을 가능성이 높습니다. 능력 이상 Mistral과 같은 채팅 봇이나 Codellama와 같은 소스 코드 생성기를 포함하여 광범위한 LLM을 실행합니다.

실제로 Ollama, LM Suite 및 Llama.cpp와 같이 공개적으로 사용 가능한 도구를 사용하면 이러한 모델을 시스템에서 실행하는 것이 상대적으로 쉽습니다.

단순성과 크로스 플랫폼 호환성을 위해 우리는 다음을 살펴볼 것입니다. 올라마, 일단 설치되면 Windows, Linux 및 Mac에서 거의 동일하게 작동합니다.

성능, 호환성 및 AMD GPU 지원에 대한 한마디:

일반적으로 Mistral 또는 Llama 2와 같은 대규모 언어 모델은 전용 가속기를 사용할 때 가장 잘 실행됩니다. 데이터 센터 운영자가 10,000개 이상의 클러스터에 GPU를 구입하고 배포하는 데는 이유가 있습니다. 하지만 이러한 리소스 중 극히 일부만 필요합니다.

Ollama는 Nvidia 및 Apple의 M 시리즈 GPU에 대한 기본 지원을 제공합니다. 최소 4GB의 메모리를 갖춘 Nvidia GPU가 작동해야 합니다. 12GB RTX 3060으로 테스트했지만 M 시리즈 Mac의 경우 최소 16GB 메모리를 권장합니다.

Linux 사용자는 Nvidia의 최신 독점 드라이버와 아마도 CUDA 바이너리가 먼저 설치되기를 원할 것입니다. 설정에 대한 추가 정보가 있습니다. 여기에서 지금 확인해 보세요..

Radeon 7000 시리즈 GPU 이상을 사용하는 경우 AMD에서 시스템에서 LLM을 실행하는 방법에 대한 전체 가이드를 찾을 수 있습니다. 여기에서 지금 확인해 보세요..

좋은 소식은 지원되는 그래픽 카드가 없는 경우에도 Ollama는 지원되는 GPU가 있는 경우보다 훨씬 느리긴 하지만 여전히 AVX2 호환 CPU에서 실행된다는 것입니다. 16GB의 메모리가 권장되지만 양자화 모델을 선택하면 더 적은 메모리로 사용할 수 있습니다. 자세한 내용은 XNUMX분 안에 설명합니다.

올라마 설치

기본 운영 체제에 관계없이 Ollama 설치는 매우 간단합니다. 오픈 소스이므로 확인해 볼 수 있습니다. 여기에서 지금 확인해 보세요..

Windows 또는 Mac OS를 실행하는 경우 ollama.com 다른 응용 프로그램처럼 다운로드하여 설치하세요.

Linux를 실행하는 경우 훨씬 더 간단합니다. 이 한 줄만 실행하면 됩니다. 수동 설치 지침을 찾을 수 있습니다. 여기에서 지금 확인해 보세요., 원하신다면 경주에 참여하세요.

컬 -fsSL https://ollama.com/install.sh | 쉿

첫 번째 모델 설치

운영 체제에 관계없이 Ollama로 작업하는 방법은 거의 동일합니다. Ollama는 다음으로 시작하는 것을 권장합니다. 라마 2 7B, 70억 개의 매개변수 변환기 기반 신경망이지만 이 가이드에서는 다음을 살펴보겠습니다. 미스트랄 7B 왜냐하면 그것은 꽤 유능하고 일부의 소스였기 때문입니다. 논쟁 최근 몇 주입니다.

PowerShell 또는 터미널 에뮬레이터를 열고 다음 명령을 실행하여 대화형 채팅 모드에서 모델을 다운로드하고 시작합니다.

올라마 런 미스트랄

다운로드하면 ChatGPT, Copilot 또는 Google Gemini와 마찬가지로 모델과 상호 작용을 시작할 수 있는 채팅 프롬프트가 표시됩니다.

Mistral 7B와 같은 LLM은 이 2년 된 M1 Max MacBook Pro에서 놀라울 정도로 잘 실행됩니다.

Mistral 7B와 같은 LLM은 이 2년 된 M1 Max MacBook Pro에서 놀라울 정도로 잘 실행됩니다. – 확대하려면 클릭하세요.

아무 것도 얻지 못하면 먼저 Windows의 시작 메뉴나 Mac의 응용 프로그램 폴더에서 Ollama를 실행해야 할 수도 있습니다.

모델, 태그 및 양자화

Mistal 7B는 다른 버전의 모델을 포함하여 Ollama를 사용하여 액세스할 수 있는 여러 LLM 중 하나입니다. 각 실행에 대한 지침과 함께 전체 목록을 찾을 수 있습니다. 여기에서 지금 확인해 보세요., 그러나 일반적인 구문은 다음과 같습니다.

ollama 실행 모델 이름:모델-태그

모델 태그는 다운로드하려는 모델의 버전을 지정하는 데 사용됩니다. 그대로 두면 Ollama는 사용자가 최신 버전을 원한다고 가정합니다. 우리의 경험에 따르면 이는 모델의 4비트 양자화된 버전인 경향이 있습니다.

예를 들어 Meta의 Llama2 7B를 FP16에서 실행하려는 경우 다음과 같습니다.

올라마는 llama2:7b-chat-fp16을 실행합니다.

하지만 시도하기 전에 시스템에 메모리가 충분한지 다시 한 번 확인하는 것이 좋습니다. Mistral의 이전 예에서는 4비트 양자화를 사용했습니다. 즉, 모델에는 1억 개의 매개변수마다 XNUMXGB의 메모리가 필요합니다. 그리고 잊지 마세요: 여기에는 XNUMX억 개의 매개변수가 있습니다.

양자화는 가중치와 활성화를 더 낮은 정밀도로 변환하여 모델을 압축하는 데 사용되는 기술입니다. 이를 통해 Mistral 7B는 일반적으로 출력 품질의 희생을 최소화하면서 4GB의 GPU 또는 시스템 RAM 내에서 실행될 수 있지만 마일리지는 다를 수 있습니다.

위에 사용된 Llama 2 7B 예제는 절반 정밀도(FP16)로 실행됩니다. 결과적으로 실제로 2억 개의 매개변수당 14GB의 메모리가 필요하며, 이 경우에는 16GB가 조금 넘습니다. XNUMXGB 이상의 vRAM을 갖춘 최신 GPU가 없으면 해당 정밀도로 모델을 실행할 리소스가 충분하지 않을 수 있습니다.

올라마 관리

Ollama를 사용하여 설치된 모델을 관리, 업데이트 및 제거하는 것은 이전에 Docker CLI와 같은 기능을 사용해 본 사람이라면 누구나 쉽게 느낄 수 있을 것입니다.

이 섹션에서는 실행하고 싶은 몇 가지 일반적인 작업을 살펴보겠습니다.

설치된 모델 목록을 얻으려면 다음을 실행하십시오.

올라마 목록

모델을 제거하려면 다음을 실행합니다.

ollama rm 모델 이름:모델-태그

기존 모델을 가져오거나 업데이트하려면 다음을 실행하세요.

올라마 풀 모델 이름:모델-태그

추가 Ollama 명령은 다음을 실행하여 찾을 수 있습니다.

올라마 --도움말

앞서 언급했듯이 Ollama는 로컬 LLM을 실행하고 테스트하기 위한 많은 프레임워크 중 하나일 뿐입니다. 이 문제로 인해 문제가 발생하면 다른 사람들과 함께 더 많은 행운을 찾을 수 있습니다. 그리고 아니요, AI가 이것을 쓴 것이 아닙니다.

등록 가까운 시일 내에 LLM 활용에 대해 더 많은 정보를 제공하는 것을 목표로 하므로 댓글 섹션에서 AI PC 관련 질문을 꼭 공유해 주세요. 그리고 잊지 마세요 공급망 보안. ®

spot_img

최신 인텔리전스

spot_img