شعار زيفيرنت

مقابلة مع برنامج Nvidia exec كاري بريسكي

التاريخ:

المقابلة الشخصية اختتم مؤتمر تكنولوجيا GPU الخاص بـ Nvidia الأسبوع الماضي، حيث جلب كلمة عن رقائق Blackwell الخاصة بالشركة وعجائب الذكاء الاصطناعي التي حظيت بتغطية إعلامية كبيرة، مع جميع أجهزة GPU التي تم شراؤها غاليًا والتي تتضمن ذلك.

هذا هو الضجيج الذي يحيط بالشركة حيث يقترب سعر سهمها من مستويات قياسية، بناءً على فكرة أن العديد من المساعي الإبداعية يمكن القيام بها بشكل أسرع، إن لم يكن أفضل، من خلال الأتمتة التي تتيحها نماذج التعلم الآلي.

ولا يزال هذا قيد الاختبار في السوق.

جورج سانتايانا مرة واحدة كتب: "أولئك الذين لا يستطيعون تذكر الماضي محكوم عليهم بتكراره." وهي عبارة كثيرا ما تتكرر. ومع ذلك، فإن تذكر الأشياء الماضية لم يميز نماذج الذكاء الاصطناعي عن بعضها البعض. يمكنهم أن يتذكروا الماضي، لكنهم ما زالوا محكومين بتكراره عند الطلب، وفي بعض الأحيان بشكل غير صحيح.

ومع ذلك، يقسم الكثيرون بالذكاء الاصطناعي القدير، وخاصة أولئك الذين يبيعون أجهزة الذكاء الاصطناعي أو الخدمات السحابية. وتراهن نفيديا، من بين شركات أخرى، بشكل كبير على ذلك. هكذا السجل قام بزيارة قصيرة إلى مؤتمر GPU لمعرفة سبب كل هذه الضجة. من المؤكد أن الأمر لم يكن متعلقًا بألواح الليمون التي تم تقديمها في قاعة العرض يوم الخميس، والتي انتهى الكثير منها من طرحها العام الأولي غير مكتمل في صناديق أرضية العرض.

كانت المحادثة أكثر جاذبية بكثير السجل كان مع كاري بريسكي، نائب رئيس إدارة المنتجات لمجموعات تطوير برامج الذكاء الاصطناعي والحوسبة عالية الأداء في Nvidia. وهي ترأس إدارة منتجات البرمجيات للنماذج الأساسية للشركة، والمكتبات، وحزم SDK، والآن الخدمات الصغيرة التي تتعامل مع التدريب والاستدلال، مثل الخدمات المعلن عنها حديثًا. نيم الخدمات المصغرة وأفضل راسخة نيمو إطار النشر.

السجل: كيف ستستهلك الشركات هذه الخدمات الصغيرة - في السحابة وفي أماكن العمل؟

بريسكي: هذا في الواقع هو السبب وراء جمال بناء NIMs. من المضحك أن نقول "NIMs". لكننا بدأنا هذه الرحلة منذ وقت طويل. لقد عملنا على الاستدلال منذ أن بدأت - أعتقد أنه كان TensorRT 1.0 عندما بدأت عام 2016.

على مر السنين، قمنا بتطوير مجموعة الاستدلالات الخاصة بنا، وتعلمنا المزيد عن كل أنواع أعباء العمل المختلفة، بدءًا من رؤية الكمبيوتر وأنظمة التوصية العميقة والكلام، والتعرف التلقائي على الكلام وتركيب الكلام، والآن نماذج اللغات الكبيرة. لقد كانت مكدسة تركز على المطور حقًا. والآن بعد أن شاهدت الشركات OpenAI وChatGPT، فإنها تدرك الحاجة إلى تشغيل نماذج اللغة الكبيرة هذه بجانب بيانات المؤسسة أو في تطبيقات المؤسسة الخاصة بها.

بالنسبة لمقدمي الخدمات السحابية العاديين، بالنسبة لخدماتهم المُدارة، كان لديهم مئات المهندسين الذين يعملون على الاستدلال وتقنيات التحسين. الشركات لا تستطيع أن تفعل ذلك. إنهم بحاجة إلى الحصول على الوقت المناسب للقيمة على الفور. ولهذا السبب قمنا بتغليف كل ما تعلمناه على مر السنين باستخدام TensorRT، ونماذج اللغات الكبيرة، وTriton Inference Server، وواجهة برمجة التطبيقات القياسية، والفحوصات الصحية. [الفكرة هي] أن تكون قادرًا على تغليف كل ذلك حتى تتمكن من الانتقال من الصفر إلى نقطة نهاية نموذج اللغة الكبيرة في أقل من خمس دقائق.

[فيما يتعلق بمركز البيانات المحلي مقابل مركز البيانات السحابي]، فإن الكثير من عملائنا هم من السحابة المختلطة. لقد فضلوا الحساب. لذلك، بدلاً من إرسال البيانات بعيدًا إلى خدمة مُدارة، يمكنهم تشغيل الخدمة الصغيرة بالقرب من بياناتهم ويمكنهم تشغيلها أينما يريدون.

السجل: كيف تبدو مجموعة برامج Nvidia للذكاء الاصطناعي من حيث لغات البرمجة؟ هل ما زال إلى حد كبير CUDA وPython وC وC++؟ هل تبحث في مكان آخر عن سرعة وكفاءة أكبر؟

بريسكي: نحن نستكشف دائمًا الأماكن التي يستخدمها المطورون. لقد كان هذا دائما مفتاحنا. لذا، منذ أن بدأت العمل في Nvidia، عملت على مكتبات الرياضيات السريعة. أولاً، كان عليك البرمجة باستخدام CUDA للحصول على التوازي. ثم كان لدينا واجهات برمجة تطبيقات C. وكان لدينا واجهة برمجة تطبيقات Python. لذلك يتعلق الأمر بأخذ النظام الأساسي أينما كان المطورون. في الوقت الحالي، يريد المطورون فقط الوصول إلى نقطة نهاية بسيطة لواجهة برمجة التطبيقات (API)، مثل أمر الضفيرة أو أمر Python أو شيء مشابه. لذلك يجب أن يكون الأمر بسيطًا للغاية، لأن هذا هو المكان الذي نلتقي فيه بالمطورين اليوم.

السجل: من الواضح أن CUDA يلعب دورًا كبيرًا في جعل حساب GPU فعالاً. ما الذي تفعله Nvidia لتطوير CUDA؟

بريسكي: CUDA هو الأساس لجميع وحدات معالجة الرسومات لدينا. إنها وحدة معالجة الرسومات التي تدعم CUDA وقابلة للبرمجة CUDA. قبل بضع سنوات، أطلقنا عليه اسم CUDA-X، لأنه كان لديك هذه اللغات الخاصة بالمجال. لذا، إذا كان لديك [تطبيق] للتصوير الطبي، فلديك ذلك cuCIM. إذا كان لديك التعرف التلقائي على الكلام، فلديك وحدة فك ترميز بحث الشعاع المتسارع CUDA في نهايته. وبالتالي، هناك كل هذه الأشياء المحددة لكل نوع مختلف من أعباء العمل التي تم تسريعها بواسطة CUDA. لقد قمنا ببناء كل هذه المكتبات المتخصصة على مر السنين cuDF و cuML، و cu-هذا وذاك. جميع مكتبات CUDA هذه هي أساس ما بنيناه على مر السنين ونحن الآن نبني فوق ذلك نوعًا ما.

السجل: كيف تنظر Nvidia إلى اعتبارات التكلفة فيما يتعلق بالطريقة التي تصمم بها برامجها وأجهزتها؟ مع شيء مثل Nvidia AI Enterprise، تبلغ التكلفة 4,500 دولارًا لكل وحدة معالجة رسومات سنويًا، وهو مبلغ كبير.

بريسكي: أولا، بالنسبة للشركات الصغيرة، لدينا دائما بداية برنامج. نحن نعمل دائمًا مع العملاء - نسخة تجريبية مجانية مدتها 90 يومًا، هل هي ذات قيمة حقًا بالنسبة لك؟ هل حقا يستحق كل هذا العناء؟ ومن ثم، ولتقليل تكاليفك عند الاشتراك في ذلك، فإننا نعمل دائمًا على تحسين برامجنا. لذا، إذا كنت تشتري مبلغ 4,500 دولار لكل وحدة معالجة مركزية سنويًا لكل ترخيص، وكنت تعمل على A100، وستعمل على H100 غدًا، فهو نفس السعر - لقد انخفضت التكلفة [بالنسبة إلى إنتاجيتك]. لذلك، نحن نعمل دائمًا على إعادة هذه التحسينات والتكلفة الإجمالية للملكية والأداء إلى البرنامج.

عندما نفكر في كل من التدريب والاستدلال، فإن التدريب يستغرق وقتًا أطول قليلاً، ولكن لدينا أدوات التهيئة التلقائية هذه لنكون قادرين على القول، "ما مقدار البيانات المتوفرة لديك؟ ما مقدار الحساب الذي تحتاجه؟ كم من الوقت تريد أن يستغرق؟" لذا، يمكنك الحصول على مساحة حوسبة أصغر، ولكن قد يستغرق الأمر وقتًا أطول لتدريب النموذج الخاص بك... هل ترغب في تدريبه خلال أسبوع؟ أو هل ترغب في تدريبه في يوم واحد؟ وهكذا يمكنك إجراء تلك المقايضات.

السجل: فيما يتعلق بالمشاكل الحالية، هل هناك أي شيء محدد ترغب في حله أم أن هناك تحديًا تقنيًا ترغب في التغلب عليه؟

بريسكي: في الوقت الحالي، الأمر مدفوع بالحدث رايات [وهي طريقة لتعزيز نماذج الذكاء الاصطناعي بالبيانات التي يتم جلبها من مصدر خارجي]. تفكر الكثير من الشركات في المطالبة الكلاسيكية للحصول على إجابة. لكن في الواقع، ما نريد القيام به هو [ربط] كل هذه الأنظمة التوليدية المعززة بالاسترجاع معًا. لأنك إذا فكرت فيك وفي مهمة قد ترغب في إنجازها: "أوه، يجب أن أذهب للتحدث مع فريق قاعدة البيانات. وعلى فريق قاعدة البيانات هذا أن يتحدث مع فريق Tableau. يجب أن يصنعوا لي لوحة تحكم،" ويجب أن تحدث كل هذه الأشياء قبل أن تتمكن من إكمال المهمة فعليًا. ولذا فهو نوع من RAG الذي يحركه الحدث. لا أستطيع أن أقول أن المجموعات الإقليمية تتحدث مع المجموعات الإقليمية، ولكن الأمر في الأساس هو أن العملاء يغادرون ويؤدون الكثير من العمل ثم يعودون. ونحن على أعتاب ذلك. لذلك أعتقد أن هذا هو الشيء الذي أنا متحمس جدًا لرؤيته في عام 2024.

السجل: هل تقوم Nvidia بتطبيق نظام الذكاء الاصطناعي الخاص بها؟ هل وجدت الذكاء الاصطناعي مفيدًا داخليًا؟

بريسكي: في الواقع، لقد انطلقنا وفي العام الماضي، نظرًا لأن عام 2023 كان عام الاستكشاف، فقد وجدت 150 فريقًا داخل Nvidia - كان من الممكن أن يكون هناك المزيد - وكنا نحاول أن نقول، كيف تستخدم أدواتنا، أي نوع من حالات الاستخدام وبدأنا في دمج كل ما تعلمناه، من مثل آلاف الزهور المتفتحة، وقمنا نوعًا ما بدمج كل ما تعلموه في أفضل الممارسات في ريبو واحد. هذا في الواقع ما أصدرناه كما نسميه أمثلة الذكاء الاصطناعي التوليدي على GitHub، لأننا أردنا فقط الحصول على أفضل الممارسات في مكان واحد.

هذا نوع ما فعلناه من الناحية الهيكلية. ولكن كمثال واضح، أعتقد أننا كتبنا هذه الورقة الرائعة حقًا والتي تسمى تشيب نيمو، والأمر كله يتعلق في الواقع بفريق تصميم EDA وVLSI الخاص بنا، وكيف أخذوا نموذج الأساس وقاموا بتدريبه على بيانات الملكية الخاصة بنا. لدينا لغات الترميز الخاصة بنا لـ VLSI. لذلك كانوا يقومون بترميز الطيارين المساعدين [نماذج توليد التعليمات البرمجية مفتوحة المصدر] ليكونوا قادرين على إنشاء لغتنا الخاصة وللمساعدة في إنتاجية المهندسين الجدد القادمين الذين لا يعرفون تمامًا كود كتابة شرائح تصميم VLSI الخاص بنا.

وقد لقي ذلك صدى لدى كل عميل. لذا، إذا تحدثت إلى SAP، فستجد لديهم BOP [Backorder Processing]، والذي يشبه SQL خاصًا بقاعدة بياناتهم. وتحدثت إلى ثلاثة عملاء آخرين لديهم لغات خاصة مختلفة - حتى SQL لديها مئات اللهجات. لذا فإن القدرة على إنشاء التعليمات البرمجية ليست حالة استخدام يمكن حلها على الفور بواسطة RAG. نعم، يساعد RAG في استرداد الوثائق وبعض مقتطفات التعليمات البرمجية، ولكن ما لم يتم تدريبه على إنشاء الرموز المميزة بتلك اللغة، فلن يتمكن من تكوين التعليمات البرمجية فقط.

السجل: عندما تنظر إلى نماذج اللغات الكبيرة والطريقة التي يتم بها ربطها مع التطبيقات، هل تفكر في زمن الوصول الذي قد يحدث وكيفية التعامل مع ذلك؟ هل هناك أوقات يبدو فيها الترميز الثابت لشجرة القرار أكثر منطقية؟

بريسكي: أنت على حق، عندما تطرح سؤالاً معينًا، أو تطرح سؤالاً معينًا، قد يكون هناك، حتى لسؤال واحد فقط، قد يكون هناك خمسة أو سبعة نماذج تم إطلاقها بالفعل حتى تتمكن من الحصول على إعادة كتابة سريعة وحواجز حماية ومسترد وإعادة تصنيف ومن ثم المولد. ولهذا السبب فإن NIM مهم جدًا، لأننا قمنا بتحسين زمن الوصول.

ولهذا السبب أيضًا نقدم إصدارات مختلفة من النماذج الأساسية لأنه قد يكون لديك SLM، وهو نموذج لغة صغير يعد أفضل لمجموعة معينة من المهام، ثم تريد النموذج الأكبر لمزيد من الدقة في النهاية. ولكن بعد ذلك فإن تسلسل كل ذلك ليناسب نافذة زمن الاستجابة الخاصة بك يمثل مشكلة كنا نعمل على حلها على مر السنين للعديد من الخدمات فائقة النطاق أو الخدمات المُدارة. لديهم فترات زمن الوصول هذه وفي كثير من الأحيان عندما تطرح سؤالاً أو تقوم بالبحث، فإنهم في الواقع ينطلقون ويطرحون السؤال عدة مرات. إذن، لديهم الكثير من شروط السباق مثل "ما هو زمن الوصول الخاص بي لكل جزء صغير من الاستجابة الإجمالية؟" لذا، نعم، نحن دائمًا ننظر إلى ذلك.

بالنسبة إلى وجهة نظرك المتعلقة بالتشفير الثابت، فقد تحدثت للتو مع أحد العملاء حول هذا الموضوع اليوم. لقد تجاوزنا البرمجة الصلبة... يمكنك استخدام مدير الحوار والحصول على "إذا كان الأمر كذلك". [لكن] إدارة آلاف القواعد أمر مستحيل حقًا. ولهذا السبب نحب أشياء مثل حواجز الحماية، لأن حواجز الحماية تمثل نوعًا من الاستبدال لمدير الحوار الكلاسيكي. فبدلاً من أن تقول: "لا تتحدث عن البيسبول، لا تتحدث عن الكرة اللينة، لا تتحدث عن كرة القدم"، وإدراجها في القائمة، يمكنك فقط أن تقول: "لا تتحدث عن الرياضة". ومن ثم يعرف LLM ما هي الرياضة. يعد توفير الوقت والقدرة على إدارة هذا الرمز لاحقًا أفضل بكثير. ®

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة