Zephyrnet-logotyp

Hur man kör en LLM lokalt på din PC på mindre än 10 minuter

Datum:

Praktisk Med allt prat om massiva träningskluster för maskininlärning och AI-datorer skulle du bli förlåten att du tror att du behöver någon form av speciell hårdvara för att leka med text- och kodgenererande stora språkmodeller (LLM) hemma.

I verkligheten finns det en god chans att skrivbordssystemet du läser detta på är mer än kapabel att köra ett brett utbud av LLM:er, inklusive chattrobotar som Mistral eller källkodsgeneratorer som Codellama.

Faktum är att med öppet tillgängliga verktyg som Ollama, LM Suite och Llama.cpp är det relativt enkelt att få dessa modeller att köra på ditt system.

I intresse av enkelhet och plattformsoberoende kompatibilitet kommer vi att titta på Ollama, som en gång installerat fungerar ungefär likadant på Windows, Linux och Mac.

Ett ord om prestanda, kompatibilitet och AMD GPU-stöd:

I allmänhet fungerar stora språkmodeller som Mistral eller Llama 2 bäst med dedikerade acceleratorer. Det finns en anledning till att datacenteroperatörer köper och distribuerar GPU:er i kluster på 10,000 XNUMX eller fler, även om du behöver bara bråkdelen av sådana resurser.

Ollama erbjuder inbyggt stöd för Nvidia och Apples GPU:er i M-serien. Nvidia GPU:er med minst 4 GB minne borde fungera. Vi testade med en 12 GB RTX 3060, även om vi rekommenderar minst 16 GB minne för Mac-datorer i M-serien.

Linux-användare vill ha Nvidias senaste proprietära drivrutin och förmodligen CUDA-binärfilerna installerade först. Det finns mer information om hur du ställer in det här..

Om du skaffar en Radeon 7000-serie GPU eller nyare, har AMD en fullständig guide om hur du får en LLM att köra på ditt system, som du kan hitta här..

Den goda nyheten är att om du inte har ett grafikkort som stöds, kommer Ollama fortfarande att köras på en AVX2-kompatibel CPU, även om det är mycket långsammare än om du hade en GPU som stöds. Och även om 16 GB minne rekommenderas, kanske du kan klara dig med mindre genom att välja en kvantifierad modell - mer om det på en minut.

Installerar Ollama

Att installera Ollama är ganska enkelt, oavsett ditt basoperativsystem. Det är öppen källkod, som du kan kolla in här..

För de som kör Windows eller Mac OS, gå över ollama.com och ladda ner och installera det som alla andra program.

För de som kör Linux är det ännu enklare: Kör bara denna ena liner - du kan hitta manuella installationsinstruktioner här., om du vill ha dem — och du är iväg till tävlingarna.

curl -fsSL https://ollama.com/install.sh | sh

Installera din första modell

Oavsett ditt operativsystem är arbetet med Ollama i stort sett detsamma. Ollama rekommenderar att börja med Lama 2 7B, ett transformatorbaserat neuralt nätverk med sju miljarder parametrar, men för den här guiden ska vi ta en titt på Mistral 7B eftersom det är ganska kapabelt och varit källan till vissa kontrovers under de senaste veckorna.

Börja med att öppna PowerShell eller en terminalemulator och köra följande kommando för att ladda ner och starta modellen i ett interaktivt chattläge.

ollama kör mistral

Vid nedladdning kommer du att hamna i en chattprompt där du kan börja interagera med modellen, precis som ChatGPT, Copilot eller Google Gemini.

LLM, som Mistral 7B, fungerar förvånansvärt bra på denna 2-åriga M1 Max MacBook Pro

LLM, som Mistral 7B, fungerar förvånansvärt bra på denna 2-åriga M1 Max MacBook Pro – Klicka för att förstora

Om du inte får något kan du behöva starta Ollama från startmenyn på Windows eller programmappen på Mac först.

Modeller, taggar och kvantisering

Mistal 7B är bara en av flera LLM, inklusive andra versioner av modellen, som är tillgängliga med Ollama. Du kan hitta hela listan, tillsammans med instruktioner för att köra var och en här., men den allmänna syntaxen är ungefär så här:

ollama kör modellnamn:modelltagg

Modelltaggar används för att ange vilken version av modellen du vill ladda ner. Om du lämnar det, antar Ollama att du vill ha den senaste versionen. Enligt vår erfarenhet tenderar detta att vara en 4-bitars kvantifierad version av modellen.

Om du till exempel vill köra Metas Llama2 7B på FP16, skulle det se ut så här:

ollama kör llama2:7b-chat-fp16

Men innan du försöker det, kanske du vill dubbelkolla att ditt system har tillräckligt med minne. Vårt tidigare exempel med Mistral använde 4-bitars kvantisering, vilket innebär att modellen behöver en halv gigabyte minne för varje miljard parametrar. Och glöm inte: Den har sju miljarder parametrar.

Kvantisering är en teknik som används för att komprimera modellen genom att konvertera dess vikter och aktiveringar till en lägre precision. Detta gör att Mistral 7B kan köras inom 4 GB GPU eller system-RAM, vanligtvis med minimal uppoffring av kvaliteten på resultatet, även om din körsträcka kan variera.

Exemplet Llama 2 7B som används ovan körs med halv precision (FP16). Som ett resultat skulle du faktiskt behöva 2 GB minne per miljard parametrar, vilket i det här fallet blir drygt 14 GB. Om du inte har en nyare GPU med 16 GB eller mer vRAM, kanske du inte har tillräckligt med resurser för att köra modellen med den precisionen.

Hantera Ollama

Att hantera, uppdatera och ta bort installerade modeller med Ollama borde kännas som hemma för alla som har använt saker som Docker CLI tidigare.

I det här avsnittet kommer vi att gå över några av de vanligaste uppgifterna du kanske vill utföra.

För att få en lista över installerade modeller kör:

ollama lista

För att ta bort en modell, kör du:

ollama rm modellnamn:modelltagg

För att hämta eller uppdatera en befintlig modell, kör:

ollama pull modellnamn:modelltagg

Ytterligare Ollama-kommandon kan hittas genom att köra:

ollama --hjälp

Som vi noterade tidigare är Ollama bara ett av många ramverk för att köra och testa lokala LLM:er. Om du stöter på problem med den här, kan du hitta mer tur med andra. Och nej, en AI skrev inte detta.

Registret syftar till att ge dig mer om hur du använder LLM inom en snar framtid, så se till att dela dina brinnande AI PC-frågor i kommentarsfältet. Och glöm inte bort försörjningskedjans säkerhet. ®

plats_img

Senaste intelligens

plats_img