Logo Zéphyrnet

Comment exécuter un LLM localement sur votre PC en moins de 10 minutes

Date :

Mains sur Avec toutes les discussions sur les clusters massifs de formation en apprentissage automatique et les PC IA, vous seriez pardonné de penser que vous avez besoin d'une sorte de matériel spécial pour jouer avec les grands modèles de langage (LLM) générateurs de texte et de code à la maison.

En réalité, il y a de fortes chances que le système de bureau sur lequel vous lisez ceci soit plus que capable d'exécuter un large éventail de LLM, y compris des chatbots comme Mistral ou des générateurs de code source comme Codellama.

En fait, avec des outils librement disponibles comme Ollama, LM Suite et Llama.cpp, il est relativement facile de faire fonctionner ces modèles sur votre système.

Dans un souci de simplicité et de compatibilité multiplateforme, nous allons examiner Ollama, qui une fois installé fonctionne plus ou moins de la même manière sous Windows, Linux et Mac.

Un mot sur les performances, la compatibilité et la prise en charge des GPU AMD :

En général, les grands modèles de langage comme Mistral ou Llama 2 fonctionnent mieux avec des accélérateurs dédiés. Il y a une raison pour laquelle les opérateurs de centres de données achètent et déploient des GPU dans des clusters de 10,000 XNUMX ou plus, même si vous n'aurez besoin que d'une infime fraction de ces ressources.

Ollama offre une prise en charge native des GPU Nvidia et Apple de la série M. Les GPU Nvidia avec au moins 4 Go de mémoire devraient fonctionner. Nous avons testé avec un RTX 12 de 3060 Go, mais nous recommandons au moins 16 Go de mémoire pour les Mac de la série M.

Les utilisateurs de Linux voudront que le dernier pilote propriétaire de Nvidia et probablement les binaires CUDA soient installés en premier. Il y a plus d'informations sur la configuration ici.

Si vous utilisez un GPU Radeon série 7000 ou plus récent, AMD propose un guide complet sur l'exécution d'un LLM sur votre système, que vous pouvez trouver ici.

La bonne nouvelle est que si vous n'avez pas de carte graphique prise en charge, Ollama fonctionnera toujours sur un processeur compatible AVX2, bien que beaucoup plus lent que si vous disposiez d'un GPU pris en charge. Et bien que 16 Go de mémoire soient recommandés, vous pourrez peut-être vous en sortir avec moins en optant pour un modèle quantifié – nous en reparlerons dans une minute.

Installation d'Ollama

L'installation d'Ollama est assez simple, quel que soit votre système d'exploitation de base. C'est open source, que vous pouvez consulter ici.

Pour ceux qui utilisent Windows ou Mac OS, rendez-vous sur ollama.com et téléchargez-le et installez-le comme n’importe quelle autre application.

Pour ceux qui utilisent Linux, c'est encore plus simple : exécutez simplement cette seule ligne – vous pouvez trouver des instructions d'installation manuelle. ici, si vous les voulez - et c'est parti pour les courses.

curl -fsSL https://ollama.com/install.sh | merde

Installation de votre premier modèle

Quel que soit votre système d'exploitation, travailler avec Ollama est en grande partie le même. Ollama recommande de commencer par Lama 2 7B, un réseau neuronal basé sur un transformateur de sept milliards de paramètres, mais pour ce guide, nous examinerons Mistral7B car il est assez performant et a été la source de certains controverse au cours des dernières semaines.

Commencez par ouvrir PowerShell ou un émulateur de terminal et exécutez la commande suivante pour télécharger et démarrer le modèle en mode de discussion interactive.

ollama cours mistral

Lors du téléchargement, vous serez redirigé vers une invite de discussion où vous pourrez commencer à interagir avec le modèle, tout comme ChatGPT, Copilot ou Google Gemini.

Les LLM, comme Mistral 7B, fonctionnent étonnamment bien sur ce MacBook Pro M2 Max de 1 ans

Les LLM, comme Mistral 7B, fonctionnent étonnamment bien sur ce MacBook Pro M2 Max de 1 ans – Cliquez pour agrandir

Si vous n'obtenez rien, vous devrez peut-être d'abord lancer Ollama à partir du menu Démarrer sous Windows ou du dossier Applications sur Mac.

Modèles, balises et quantification

Mistal 7B n'est que l'un des nombreux LLM, y compris d'autres versions du modèle, accessibles via Ollama. Vous pouvez trouver la liste complète, ainsi que les instructions pour exécuter chaque ici, mais la syntaxe générale ressemble à ceci :

ollama run nom-modèle : étiquette-modèle

Les balises de modèle sont utilisées pour spécifier la version du modèle que vous souhaitez télécharger. Si vous ne l'activez pas, Ollama suppose que vous voulez la dernière version. D'après notre expérience, il s'agit généralement d'une version quantifiée sur 4 bits du modèle.

Si, par exemple, vous vouliez exécuter Llama2 7B de Meta au FP16, cela ressemblerait à ceci :

ollama exécute lama2:7b-chat-fp16

Mais avant d’essayer cela, vous souhaiterez peut-être vérifier que votre système dispose de suffisamment de mémoire. Notre exemple précédent avec Mistral utilisait une quantification sur 4 bits, ce qui signifie que le modèle a besoin d'un demi-gigaoctet de mémoire pour chaque milliard de paramètres. Et n'oubliez pas : il comporte sept milliards de paramètres.

La quantification est une technique utilisée pour compresser le modèle en convertissant ses poids et activations vers une précision inférieure. Cela permet au Mistral 7B de fonctionner avec 4 Go de GPU ou de RAM système, généralement avec un sacrifice minimal sur la qualité de sortie, bien que votre kilométrage puisse varier.

L'exemple Llama 2 7B utilisé ci-dessus fonctionne à demi-précision (FP16). En conséquence, vous auriez en réalité besoin de 2 Go de mémoire par milliard de paramètres, ce qui dans ce cas équivaut à un peu plus de 14 Go. À moins que vous ne disposiez d'un GPU plus récent avec 16 Go ou plus de vRAM, vous ne disposerez peut-être pas de suffisamment de ressources pour exécuter le modèle avec cette précision.

Gérer Ollama

La gestion, la mise à jour et la suppression des modèles installés à l'aide d'Ollama devraient convenir à tous ceux qui ont déjà utilisé des éléments tels que Docker CLI.

Dans cette section, nous passerons en revue quelques-unes des tâches les plus courantes que vous souhaiterez peut-être exécuter.

Pour obtenir une liste des modèles installés, exécutez :

liste d'ollama

Pour supprimer un modèle, vous exécuteriez :

ollama rm nom-modèle : modèle-tag

Pour extraire ou mettre à jour un modèle existant, exécutez :

ollama pull nom-modèle : modèle-tag

Des commandes Ollama supplémentaires peuvent être trouvées en exécutant :

ollama --aide

Comme nous l'avons noté précédemment, Ollama n'est qu'un des nombreux frameworks permettant d'exécuter et de tester des LLM locaux. Si vous rencontrez des problèmes avec celui-ci, vous aurez peut-être plus de chance avec d’autres. Et non, ce n’est pas une IA qui a écrit ça.

Le registre vise à vous en apprendre davantage sur l'utilisation des LLM dans un avenir proche, alors assurez-vous de partager vos questions brûlantes sur AI PC dans la section commentaires. Et n'oublie pas sécurité de la chaîne d'approvisionnement. ®

spot_img

Dernières informations

spot_img