شعار زيفيرنت

كيفية تشغيل LLM محليًا على جهاز الكمبيوتر الخاص بك في أقل من 10 دقائق

التاريخ:

تشابك الايدى مع كل الحديث عن مجموعات التدريب الضخمة على التعلم الآلي وأجهزة الكمبيوتر التي تعمل بالذكاء الاصطناعي، سيكون معذورا إذا اعتقدت أنك بحاجة إلى نوع من الأجهزة الخاصة للعب مع نماذج اللغات الكبيرة (LLMs) التي تولد النصوص والأكواد في المنزل.

في الواقع، هناك احتمال كبير أن يكون نظام سطح المكتب الذي تقرأ عليه هذا هو نفسه أكثر من قادر تشغيل مجموعة واسعة من برامج LLM، بما في ذلك روبوتات الدردشة مثل Mistral أو مولدات التعليمات البرمجية المصدر مثل Codellama.

في الواقع، باستخدام الأدوات المتاحة بشكل مفتوح مثل Ollama وLM Suite وLlama.cpp، من السهل نسبيًا تشغيل هذه النماذج على نظامك.

من أجل البساطة والتوافق عبر الأنظمة الأساسية، سننظر في ذلك أولاما، والذي بمجرد تثبيته يعمل بنفس الطريقة تقريبًا عبر أنظمة التشغيل Windows وLinux وMac.

كلمة حول الأداء والتوافق ودعم AMD GPU:

بشكل عام، تعمل نماذج اللغات الكبيرة مثل Mistral أو Llama 2 بشكل أفضل مع المسرعات المخصصة. هناك سبب وراء قيام مشغلي مراكز البيانات بشراء ونشر وحدات معالجة الرسومات في مجموعات مكونة من 10,000 أو أكثر، على الرغم من أنك ستحتاج إلى أقل جزء من هذه الموارد.

يقدم Ollama دعمًا أصليًا لوحدات معالجة الرسومات Nvidia وApple's M-series. يجب أن تعمل وحدات معالجة الرسومات Nvidia التي تحتوي على ذاكرة لا تقل عن 4 جيجابايت. لقد اختبرنا باستخدام RTX 12 بسعة 3060 جيجابايت، على الرغم من أننا نوصي بذاكرة بسعة 16 جيجابايت على الأقل لأجهزة Mac من السلسلة M.

سيرغب مستخدمو Linux في تثبيت أحدث برنامج تشغيل خاص بـ Nvidia وربما تثبيت ثنائيات CUDA أولاً. هناك المزيد من المعلومات حول إعداد ذلك هنا.

إذا كنت تستخدم وحدة معالجة الرسومات Radeon 7000-series أو أحدث، فإن AMD لديها دليل كامل حول كيفية تشغيل LLM على نظامك، والذي يمكنك العثور عليه هنا.

والخبر السار هو أنه إذا لم يكن لديك بطاقة رسومات مدعومة، فسيظل تطبيق Ollama يعمل على وحدة معالجة مركزية متوافقة مع AVX2، على الرغم من أنه سيكون أبطأ بكثير مما لو كان لديك وحدة معالجة رسومات مدعومة. وعلى الرغم من أنه يوصى باستخدام ذاكرة بسعة 16 جيجابايت، فقد تتمكن من تدبر أمرك بذاكرة أقل عن طريق اختيار نموذج مكمّم - والمزيد عن ذلك في دقيقة واحدة.

تثبيت أولاما

يعد تثبيت Ollama أمرًا سهلاً ومباشرًا، بغض النظر عن نظام التشغيل الأساسي لديك. إنه مفتوح المصدر، ويمكنك التحقق منه هنا.

بالنسبة لأولئك الذين يستخدمون نظام التشغيل Windows أو Mac OS، توجهوا إلى هناك ollama.com وتنزيله وتثبيته مثل أي تطبيق آخر.

بالنسبة لأولئك الذين يستخدمون Linux، فالأمر أبسط: ما عليك سوى تشغيل هذه الخطوط الملاحية المنتظمة - يمكنك العثور على تعليمات التثبيت اليدوية هنا، إذا كنت تريدهم - وأنت خارج السباقات.

حليقة -fsSL https://ollama.com/install.sh | ش

تثبيت النموذج الأول الخاص بك

بغض النظر عن نظام التشغيل الخاص بك، فإن العمل مع Olma هو نفسه إلى حد كبير. يوصي أولاما بالبدء بـ اللاما 2 7 ب، وهي شبكة عصبية تعتمد على سبعة مليارات من المعلمات، ولكن في هذا الدليل سنلقي نظرة على ميسترال 7 ب لأنه قادر جدًا وكان مصدرًا للبعض جدال في الأسابيع الأخيرة.

ابدأ بفتح PowerShell أو محاكي طرفي وتنفيذ الأمر التالي لتنزيل النموذج وبدء تشغيله في وضع الدردشة التفاعلية.

أولاما يدير ميسترال

عند التنزيل، سيتم نقلك إلى رسالة مطالبة بالدردشة حيث يمكنك بدء التفاعل مع النموذج، تمامًا مثل ChatGPT أو Copilot أو Google Gemini.

تعمل LLMs، مثل Mistral 7B، بشكل جيد بشكل مدهش على جهاز M2 Max MacBook Pro الذي يبلغ من العمر عامين

تعمل LLMs، مثل Mistral 7B، بشكل جيد بشكل مدهش على جهاز M2 Max MacBook Pro البالغ من العمر عامين - انقر للتكبير

إذا لم تحصل على أي شيء، فقد تحتاج إلى تشغيل Ollama من قائمة البداية على Windows أو مجلد التطبيقات على Mac أولاً.

النماذج والعلامات والتكميم

يعد Mistal 7B مجرد واحد من العديد من برامج LLM، بما في ذلك الإصدارات الأخرى من النموذج، والتي يمكن الوصول إليها باستخدام Ollama. يمكنك العثور على القائمة الكاملة، بالإضافة إلى تعليمات تشغيل كل منها هنا، لكن بناء الجملة العام يسير على النحو التالي:

ollama قم بتشغيل اسم النموذج: علامة النموذج

تُستخدم علامات النموذج لتحديد إصدار النموذج الذي ترغب في تنزيله. إذا تركته، يفترض أولاما أنك تريد الإصدار الأحدث. في تجربتنا، يميل هذا إلى أن يكون نسخة كمية 4 بت من النموذج.

على سبيل المثال، إذا أردت تشغيل Meta's Llama2 7B في FP16، فسيبدو الأمر كما يلي:

ollama run llama2:7b-chat-fp16

ولكن قبل أن تحاول ذلك، قد ترغب في التحقق مرة أخرى من أن نظامك يحتوي على ذاكرة كافية. مثالنا السابق مع ميسترال استخدم التكميم 4 بت، مما يعني أن النموذج يحتاج إلى نصف غيغابايت من الذاكرة لكل مليار معلمة. ولا تنس: إنه يحتوي على سبعة مليارات من المعلمات.

التكميم هو أسلوب يستخدم لضغط النموذج عن طريق تحويل أوزانه وعمليات التنشيط إلى دقة أقل. يسمح هذا لـ Mistral 7B بالعمل ضمن 4 جيجابايت من وحدة معالجة الرسومات أو ذاكرة الوصول العشوائي للنظام، عادةً مع الحد الأدنى من التضحية في جودة الإخراج، على الرغم من أن المسافة المقطوعة قد تختلف.

يعمل مثال Llama 2 7B المستخدم أعلاه بنصف الدقة (FP16). ونتيجة لذلك، ستحتاج فعليًا إلى 2 غيغابايت من الذاكرة لكل مليار معلمة، وهو ما يصل في هذه الحالة إلى ما يزيد قليلاً عن 14 غيغابايت. ما لم يكن لديك وحدة معالجة رسومات أحدث بسعة 16 جيجابايت أو أكثر من vRAM، فقد لا يكون لديك موارد كافية لتشغيل النموذج بهذه الدقة.

إدارة أولاما

يجب أن تكون إدارة النماذج المثبتة وتحديثها وإزالتها باستخدام Ollama مناسبة تمامًا لأي شخص استخدم أشياء مثل Docker CLI من قبل.

سنتناول في هذا القسم بعض المهام الأكثر شيوعًا التي قد ترغب في تنفيذها.

للحصول على قائمة بالنماذج المثبتة، قم بتشغيل:

قائمة العلماء

لإزالة نموذج، يمكنك تشغيل:

اسم نموذج ollama rm: علامة النموذج

لسحب أو تحديث نموذج موجود، قم بتشغيل:

اسم نموذج سحب أولاما: علامة النموذج

يمكن العثور على أوامر Ollama الإضافية عن طريق تشغيل:

أولاما --مساعدة

كما أشرنا سابقًا، يعد Ollama مجرد واحد من العديد من أطر العمل لتشغيل واختبار LLMs المحلية. إذا واجهت مشكلة مع هذا، فقد تجد المزيد من الحظ مع الآخرين. ولا، الذكاء الاصطناعي لم يكتب هذا.

السجل تهدف إلى تزويدك بالمزيد حول استخدام LLMs في المستقبل القريب، لذا تأكد من مشاركة أسئلتك الملحة الخاصة بأجهزة الكمبيوتر التي تعمل بتقنية الذكاء الاصطناعي في قسم التعليقات. ولا تنسى أمن سلسلة التوريد... ®

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة