Zephyrnet-Logo

So führen Sie ein LLM in weniger als 10 Minuten lokal auf Ihrem PC aus

Datum:

Hände auf Bei all dem Gerede über riesige Trainingscluster für maschinelles Lernen und KI-PCs könnte man meinen, dass man eine Art spezielle Hardware braucht, um zu Hause mit text- und codegenerierenden großen Sprachmodellen (LLMs) zu spielen.

Tatsächlich besteht eine gute Chance, dass das Desktop-System, auf dem Sie dies lesen, dies auch tut mehr als fähig eine breite Palette von LLMs zu betreiben, darunter Chatbots wie Mistral oder Quellcodegeneratoren wie Codellama.

Tatsächlich ist es mit offen verfügbaren Tools wie Ollama, LM Suite und Llama.cpp relativ einfach, diese Modelle auf Ihrem System zum Laufen zu bringen.

Im Interesse der Einfachheit und plattformübergreifenden Kompatibilität werden wir uns dies ansehen Ollama, das nach der Installation unter Windows, Linux und Macs mehr oder weniger gleich funktioniert.

Ein Wort zur Leistung, Kompatibilität und AMD-GPU-Unterstützung:

Im Allgemeinen laufen große Sprachmodelle wie Mistral oder Llama 2 am besten mit dedizierten Beschleunigern. Es gibt einen Grund, warum Rechenzentrumsbetreiber GPUs in Clustern von 10,000 oder mehr kaufen und einsetzen, obwohl Sie nur einen Bruchteil dieser Ressourcen benötigen.

Ollama bietet native Unterstützung für die GPUs der M-Serie von Nvidia und Apple. Nvidia-GPUs mit mindestens 4 GB Speicher sollten funktionieren. Wir haben es mit einer RTX 12 mit 3060 GB getestet, empfehlen jedoch mindestens 16 GB Arbeitsspeicher für Macs der M-Serie.

Linux-Benutzer möchten, dass Nvidias neuester proprietärer Treiber und wahrscheinlich zuerst die CUDA-Binärdateien installiert werden. Weitere Informationen zum Einrichten finden Sie hier hier.

Wenn Sie eine GPU der Radeon 7000-Serie oder neuer verwenden, bietet AMD eine vollständige Anleitung zum Ausführen eines LLM auf Ihrem System, die Sie finden können hier.

Die gute Nachricht ist: Wenn Sie keine unterstützte Grafikkarte haben, läuft Ollama immer noch auf einer AVX2-kompatiblen CPU, wenn auch deutlich langsamer, als wenn Sie eine unterstützte GPU hätten. Und obwohl 16 GB Arbeitsspeicher empfohlen werden, können Sie möglicherweise mit weniger auskommen, wenn Sie sich für ein quantisiertes Modell entscheiden – mehr dazu gleich.

Ollama installieren

Die Installation von Ollama ist ziemlich einfach, unabhängig von Ihrem Basisbetriebssystem. Es ist Open Source, das Sie sich ansehen können hier.

Wenn Sie Windows oder Mac OS verwenden, schauen Sie vorbei ollama.com und laden Sie es wie jede andere Anwendung herunter und installieren Sie es.

Für diejenigen, die Linux verwenden, ist es noch einfacher: Führen Sie einfach diesen Einzeiler aus – dort finden Sie Anweisungen zur manuellen Installation hier, wenn Sie sie wollen – und schon kann es losgehen zu den Rennen.

curl -fsSL https://ollama.com/install.sh | Sch

Installieren Sie Ihr erstes Modell

Unabhängig von Ihrem Betriebssystem ist die Arbeit mit Ollama weitgehend gleich. Ollama empfiehlt, mit zu beginnen Lama 2 7B, ein transformatorbasiertes neuronales Netzwerk mit sieben Milliarden Parametern, aber in diesem Leitfaden werfen wir einen Blick darauf Mistral 7B da es ziemlich leistungsfähig ist und die Quelle einiger gewesen ist Kontroverse in den letzten Wochen.

Öffnen Sie zunächst PowerShell oder einen Terminalemulator und führen Sie den folgenden Befehl aus, um das Modell herunterzuladen und in einem interaktiven Chat-Modus zu starten.

Ollama Run Mistral

Nach dem Herunterladen werden Sie zu einer Chat-Eingabeaufforderung weitergeleitet, in der Sie mit dem Modell interagieren können, genau wie bei ChatGPT, Copilot oder Google Gemini.

LLMs wie Mistral 7B laufen überraschend gut auf diesem 2 Jahre alten M1 Max MacBook Pro

LLMs wie Mistral 7B laufen überraschend gut auf diesem 2 Jahre alten M1 Max MacBook Pro – zum Vergrößern anklicken

Wenn Sie nichts erhalten, müssen Sie Ollama möglicherweise zuerst über das Startmenü unter Windows oder den Anwendungsordner auf dem Mac starten.

Modelle, Tags und Quantisierung

Mistal 7B ist nur eines von mehreren LLMs, einschließlich anderer Versionen des Modells, die über Ollama zugänglich sind. Hier finden Sie die vollständige Liste sowie Anweisungen zum Ausführen der einzelnen Programme hier, aber die allgemeine Syntax sieht in etwa so aus:

Ollama führt Modellname:Modelltag aus

Modell-Tags werden verwendet, um anzugeben, welche Version des Modells Sie herunterladen möchten. Wenn Sie es weglassen, geht Ollama davon aus, dass Sie die neueste Version möchten. Nach unserer Erfahrung handelt es sich dabei in der Regel um eine 4-Bit-quantisierte Version des Modells.

Wenn Sie beispielsweise Metas Llama2 7B im FP16 ausführen möchten, würde das so aussehen:

ollama run llama2:7b-chat-fp16

Aber bevor Sie das versuchen, sollten Sie vielleicht noch einmal überprüfen, ob Ihr System über genügend Speicher verfügt. In unserem vorherigen Beispiel mit Mistral wurde eine 4-Bit-Quantisierung verwendet, was bedeutet, dass das Modell pro 1 Milliarde Parameter ein halbes Gigabyte Speicher benötigt. Und vergessen Sie nicht: Es hat sieben Milliarden Parameter.

Bei der Quantisierung handelt es sich um eine Technik zur Komprimierung des Modells durch Konvertierung seiner Gewichte und Aktivierungen in eine geringere Präzision. Dadurch kann Mistral 7B innerhalb von 4 GB GPU oder System-RAM ausgeführt werden, normalerweise mit minimalen Einbußen bei der Qualität der Ausgabe, obwohl Ihre Laufleistung variieren kann.

Das oben verwendete Beispiel „Llama 2 7B“ läuft mit halber Genauigkeit (FP16). Infolgedessen benötigen Sie tatsächlich 2 GB Speicher pro Milliarde Parameter, was in diesem Fall etwas mehr als 14 GB entspricht. Sofern Sie nicht über eine neuere GPU mit 16 GB oder mehr vRAM verfügen, verfügen Sie möglicherweise nicht über genügend Ressourcen, um das Modell mit dieser Präzision auszuführen.

Ollama verwalten

Das Verwalten, Aktualisieren und Entfernen installierter Modelle mit Ollama sollte sich für jeden, der schon einmal Dinge wie die Docker-CLI verwendet hat, wie zu Hause fühlen.

In diesem Abschnitt gehen wir auf einige der häufigsten Aufgaben ein, die Sie möglicherweise ausführen möchten.

Um eine Liste der installierten Modelle zu erhalten, führen Sie Folgendes aus:

Ollama-Liste

Um ein Modell zu entfernen, führen Sie Folgendes aus:

ollama rm Modellname:Modelltag

Führen Sie Folgendes aus, um ein vorhandenes Modell abzurufen oder zu aktualisieren:

Ollama Pull Modellname:Modelltag

Weitere Ollama-Befehle finden Sie, indem Sie Folgendes ausführen:

ollama – Hilfe

Wie bereits erwähnt, ist Ollama nur eines von vielen Frameworks zum Ausführen und Testen lokaler LLMs. Wenn Sie bei diesem Problem auf Probleme stoßen, haben Sie möglicherweise bei anderen mehr Glück. Und nein, eine KI hat das nicht geschrieben.

Das Register zielt darauf ab, Ihnen in naher Zukunft mehr über die Nutzung von LLMs zu vermitteln. Teilen Sie uns daher unbedingt Ihre brennenden KI-PC-Fragen im Kommentarbereich mit. Und vergiss es nicht Sicherheit in der Lieferkette🇧🇷 🇧🇷

spot_img

Neueste Intelligenz

spot_img