شعار زيفيرنت

نفيديا: في المستقبل، يعد البرنامج مجرد مجموعة من شهادات LLM

التاريخ:

بغض النظر عن استخدام نماذج اللغات الكبيرة (LLMs) للمساعدة في كتابة التعليمات البرمجية، يعتقد الرئيس التنفيذي لشركة Nvidia Jensen Huang أنه في المستقبل، ستكون برامج المؤسسة مجرد مجموعة من روبوتات الدردشة المجمعة معًا لإكمال المهمة.

وقال على خشبة المسرح خلال حفل GTC: "من غير المرجح أن تكتبه من الصفر أو تكتب مجموعة كاملة من أكواد بايثون أو أي شيء من هذا القبيل". رئيسية الاثنين. "من المحتمل جدًا أن تقوم بتجميع فريق من الذكاء الاصطناعي."

يوضح جنسن أن فريق الذكاء الاصطناعي هذا قد يتضمن نموذجًا مصممًا لتقسيم الطلب وتفويضه إلى نماذج أخرى مختلفة. قد يتم تدريب بعض هذه النماذج على فهم خدمات الأعمال مثل SAP أو Service Now، بينما قد يقوم البعض الآخر بإجراء تحليل رقمي على البيانات المخزنة في قاعدة بيانات متجهة. ويمكن بعد ذلك دمج هذه البيانات وتقديمها للمستخدم النهائي من خلال نموذج آخر.

وأوضح: "يمكننا الحصول على تقرير كل يوم، أو كما تعلمون، على رأس الساعة له علاقة بخطة البناء، أو بعض التوقعات، أو بعض تنبيهات العملاء، أو بعض قواعد بيانات الأخطاء أو أي شيء يحدث".

لربط كل هذه النماذج معًا، أخذت Nvidia صفحة من كتاب Docker وأنشأت حاوية تشغيل للذكاء الاصطناعي.

إن خدمات Nvidia Inference Microservices المدبلجة، أو NIM باختصار، هي في الأساس صور حاوية تحتوي على كل من النموذج، سواء كان مفتوح المصدر أو خاصًا، إلى جانب جميع التبعيات اللازمة لتشغيله. ويمكن بعد ذلك نشر هذه النماذج المعبأة في حاويات عبر أي عدد من أوقات التشغيل، بما في ذلك عقد Kubernetes المسرَّعة بواسطة Nvidia.

"يمكنك نشره على بنيتنا التحتية التي تسمى DGX Cloud، أو يمكنك نشره مسبقًا، أو يمكنك نشره في أي مكان تريده. وقال جنسن: "بمجرد تطويره، يصبح ملكك أن تأخذه إلى أي مكان".

بالطبع، ستحتاج إلى الاشتراك في مجموعة Nvidia's AI Enterprise أولاً، وهي ليست رخيصة تمامًا بسعر 4,500 دولار سنويًا لكل وحدة معالجة رسومات أو 1 دولار في الساعة لكل وحدة معالجة رسومات في السحابة. يبدو أن استراتيجية التسعير هذه تحفز أنظمة الأداء العالي الأكثر كثافة بشكل عام لأنها تكلف نفسها بغض النظر عما إذا كنت تعمل على L40s أو B100s.

إذا كانت فكرة نقل أحمال العمل المتسارعة لوحدة معالجة الرسومات تبدو مألوفة، فهذه ليست فكرة جديدة تمامًا لـ Nvidia. لقد كان تسارع CUDA أيد على مجموعة واسعة من أوقات تشغيل الحاويات، بما في ذلك Docker أو Podman أو Containerd أو CRI-O لسنوات، ولا يبدو أن Nvidia’s Container Runtime ستذهب إلى أي مكان.

يبدو أن القيمة المقترحة وراء NIM هي أن Nvidia ستتولى تعبئة هذه النماذج وتحسينها بحيث يكون لديها الإصدار الصحيح من CUDA أو Triton Inference Server أو TensorRT LLM، وهو أمر ضروري للحصول على أفضل أداء منها.

والحجة هي أنه إذا أصدرت Nvidia تحديثًا يعزز بشكل كبير أداء الاستدلال لأنواع معينة من النماذج، فإن الاستفادة من هذه الوظيفة لن تتطلب سوى سحب أحدث صورة NIM.

بالإضافة إلى تحسينات الطراز الخاص بالأجهزة، تعمل Nvidia أيضًا على تمكين الاتصالات المتسقة بين الحاويات، حتى تتمكن من الدردشة مع بعضها البعض، عبر مكالمات API.

وكما نفهم، فإن استدعاءات واجهة برمجة التطبيقات (API) التي تستخدمها نماذج الذكاء الاصطناعي المختلفة في السوق اليوم ليست دائمًا متسقة، مما يؤدي إلى سهولة تجميع بعض النماذج معًا بينما قد يتطلب البعض الآخر عملاً إضافيًا.

إقراض المعرفة المؤسسية لنماذج الأغراض العامة

سيعرف أي شخص استخدم روبوت الدردشة المدعم بالذكاء الاصطناعي أنه على الرغم من كونه جيدًا في العادة في التعامل مع أسئلة المعرفة العامة، إلا أنه ليس دائمًا الأكثر موثوقية في التعامل مع الطلبات الغامضة أو الفنية.

أبرز جنسن هذه الحقيقة خلال كلمته الرئيسية. عند سؤاله عن برنامج داخلي مستخدم داخل Nvidia، قدم نموذج اللغة الكبير Llama 2 70B من Meta التعريف لمصطلح غير ذي صلة بشكل غير مفاجئ.

بدلاً من محاولة حث الشركات على تدريب نماذجها الخاصة - وهو الأمر الذي من شأنه أن يبيع الكثير من وحدات معالجة الرسومات ولكنه سيحد من السوق القابلة للتوجيه إلى حد كبير - طورت Nvidia أدوات لضبط NIMs الخاصة بها مع بيانات العملاء والعمليات.

"لدينا خدمة تسمى NeMo Microservices والتي تساعدك على تنظيم البيانات وإعدادها حتى تتمكن من ... الانضمام إلى هذا الذكاء الاصطناعي. تقوم بضبطه ثم تقوم بحمايةه؛ وأوضح هوانغ: "يمكنك بعد ذلك تقييم... أدائه مقارنة بأمثلة أخرى".

تحدث أيضًا عن خدمة NeMo Retriever من Nvidia والتي تعتمد على مفهوم استخدام الجيل المعزز للاسترجاع (RAG) لعرض المعلومات التي لم يتم تدريب النموذج عليها بشكل خاص.

الفكرة هنا هي أنه يمكن تحميل المستندات والعمليات والبيانات الأخرى في قاعدة بيانات متجهة متصلة بالنموذج. واستنادًا إلى الاستعلام، يمكن للنموذج بعد ذلك البحث في قاعدة البيانات هذه واسترداد المعلومات ذات الصلة وتلخيصها.

تتوفر الآن نماذج NIM وNeMo Retriever لدمج RAGs، في حين أن NeMo Microservices في مرحلة الوصول المبكر. ®

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة