Zephyrnet-logo

Hoe u een LLM lokaal op uw pc kunt uitvoeren in minder dan 10 minuten

Datum:

Hands-on Met al het gepraat over enorme trainingsclusters voor machinaal leren en AI-pc's zou je haast denken dat je speciale hardware nodig hebt om thuis met tekst- en code-genererende grote taalmodellen (LLM's) te kunnen spelen.

In werkelijkheid is de kans groot dat het desktopsysteem waarop je dit leest dat is meer dan capabel van het runnen van een breed scala aan LLM's, waaronder chatbots zoals Mistral of broncodegeneratoren zoals Codellama.

Met openlijk verkrijgbare tools als Ollama, LM Suite en Llama.cpp is het zelfs relatief eenvoudig om deze modellen op uw systeem te laten werken.

In het belang van de eenvoud en platformonafhankelijke compatibiliteit gaan we kijken naar Ollama, dat eenmaal geïnstalleerd min of meer hetzelfde werkt op Windows, Linux en Macs.

Een woord over prestaties, compatibiliteit en AMD GPU-ondersteuning:

Over het algemeen werken grote taalmodellen zoals Mistral of Llama 2 het beste met speciale versnellers. Er is een reden waarom datacenteroperators GPU's kopen en implementeren in clusters van 10,000 of meer, hoewel je slechts een fractie van dergelijke bronnen nodig hebt.

Ollama biedt native ondersteuning voor Nvidia en Apple's M-serie GPU's. Nvidia GPU's met minimaal 4 GB geheugen zouden moeten werken. We hebben getest met een RTX 12 van 3060 GB, hoewel we minimaal 16 GB geheugen aanbevelen voor Macs uit de M-serie.

Linux-gebruikers zullen Nvidia's nieuwste eigen stuurprogramma en waarschijnlijk de CUDA-binaire bestanden als eerste willen installeren. Er is meer informatie over het instellen ervan hier.

Als je een GPU uit de Radeon 7000-serie of nieuwer gebruikt, heeft AMD een volledige handleiding over het draaien van een LLM op je systeem, die je kunt vinden hier.

Het goede nieuws is dat als je geen ondersteunde grafische kaart hebt, Ollama nog steeds op een AVX2-compatibele CPU zal draaien, hoewel een stuk langzamer dan wanneer je een ondersteunde GPU zou hebben. En hoewel 16 GB geheugen wordt aanbevolen, kun je misschien met minder rondkomen door te kiezen voor een gekwantiseerd model – daarover later meer.

Ollama installeren

Het installeren van Ollama is vrij eenvoudig, ongeacht uw basisbesturingssysteem. Het is open source, wat je kunt bekijken hier.

Voor degenen die Windows of Mac OS gebruiken, ga hierheen ollama.com en download en installeer het zoals elke andere applicatie.

Voor degenen die Linux gebruiken, is het zelfs nog eenvoudiger: voer gewoon deze one-liner uit: je kunt handmatige installatie-instructies vinden hier, als je ze wilt - en je gaat naar de races.

curl -fsSL https://ollama.com/install.sh | sch

Uw eerste model installeren

Ongeacht je besturingssysteem is het werken met Ollama grotendeels hetzelfde. Ollama raadt aan om te beginnen met Lama 2 7B, een op transformatoren gebaseerd neuraal netwerk met zeven miljard parameters, maar voor deze handleiding zullen we er eens naar kijken Mistral 7B omdat het behoorlijk capabel is en de bron van sommigen is geweest controverse in de afgelopen weken.

Begin door PowerShell of een terminalemulator te openen en de volgende opdracht uit te voeren om het model te downloaden en te starten in een interactieve chatmodus.

ollama voert mistral uit

Na het downloaden wordt u naar een chatprompt geleid waar u met het model kunt communiceren, net als ChatGPT, Copilot of Google Gemini.

LLM's, zoals Mistral 7B, werken verrassend goed op deze 2 jaar oude M1 Max MacBook Pro

LLM's, zoals Mistral 7B, werken verrassend goed op deze 2 jaar oude M1 Max MacBook Pro – Klik om te vergroten

Als u niets krijgt, moet u Ollama mogelijk eerst starten vanuit het startmenu van Windows of de map Programma's op de Mac.

Modellen, tags en kwantisering

Mistal 7B is slechts een van de vele LLM's, inclusief andere versies van het model, die toegankelijk zijn via Ollama. U kunt de volledige lijst vinden, samen met instructies voor het uitvoeren ervan hier, maar de algemene syntaxis gaat ongeveer als volgt:

ollama voer modelnaam:modeltag uit

Modeltags worden gebruikt om aan te geven welke versie van het model u wilt downloaden. Als je het uit laat staan, gaat Ollama ervan uit dat je de nieuwste versie wilt. Onze ervaring is dat dit meestal een 4-bits gekwantiseerde versie van het model is.

Als je bijvoorbeeld Meta's Llama2 7B op FP16 wilt gebruiken, zou het er als volgt uitzien:

ollama voer lama2:7b-chat-fp16 uit

Maar voordat u dat probeert, wilt u misschien eerst controleren of uw systeem voldoende geheugen heeft. Ons vorige voorbeeld met Mistral maakte gebruik van 4-bit kwantisering, wat betekent dat het model voor elke miljard parameters een halve gigabyte geheugen nodig heeft. En vergeet niet: het heeft zeven miljard parameters.

Kwantisering is een techniek die wordt gebruikt om het model te comprimeren door de gewichten en activeringen naar een lagere precisie om te zetten. Hierdoor kan Mistral 7B werken binnen 4 GB GPU of systeem-RAM, meestal met minimale opoffering aan de kwaliteit van de uitvoer, hoewel uw kilometerstand kan variëren.

Het hierboven gebruikte Llama 2 7B-voorbeeld werkt met halve precisie (FP16). Als gevolg hiervan heb je eigenlijk 2 GB geheugen per miljard parameters nodig, wat in dit geval neerkomt op iets meer dan 14 GB. Tenzij je een nieuwere GPU hebt met 16 GB of meer vRAM, heb je mogelijk niet genoeg bronnen om het model met die precisie uit te voeren.

Het beheren van Ollama

Het beheren, bijwerken en verwijderen van geïnstalleerde modellen met Ollama zou zich goed moeten voelen voor iedereen die eerder dingen als de Docker CLI heeft gebruikt.

In dit gedeelte bespreken we enkele van de meest voorkomende taken die u mogelijk wilt uitvoeren.

Om een ​​lijst met geïnstalleerde modellen te krijgen, voert u het volgende uit:

ollama lijst

Om een ​​model te verwijderen, voert u het volgende uit:

ollama rm modelnaam:modeltag

Om een ​​bestaand model op te halen of bij te werken, voert u het volgende uit:

ollama trekt modelnaam:modeltag

Extra Ollama-opdrachten kunnen worden gevonden door het volgende uit te voeren:

ollama-help

Zoals we eerder hebben opgemerkt, is Ollama slechts een van de vele raamwerken voor het uitvoeren en testen van lokale LLM's. Als je hiermee problemen ondervindt, vind je misschien meer geluk bij anderen. En nee, een AI heeft dit niet geschreven.

Het register Het doel is om u in de nabije toekomst meer informatie te geven over het gebruik van LLM's, dus zorg ervoor dat u uw brandende AI-pc-vragen deelt in het opmerkingengedeelte. En vergeet het niet beveiliging van de toeleveringsketen​ ​

spot_img

Laatste intelligentie

spot_img