شعار زيفيرنت

ماذا يحدث عندما تكون الخطوط المقاربة لأداء الذكاء الاصطناعي؟ بواسطة @ttunguz

التاريخ:

في الماضي، كلما كان نموذج الذكاء الاصطناعي أكبر، كان الأداء أفضل. عبر نماذج OpenAI على سبيل المثال، زادت المعلمات بمقدار 1000x+ وتضاعف الأداء ثلاث مرات تقريبًا.

نموذج OpenAI الافراج عن تاريخ المعلمات، ب MMLU
GPT2 2/14/19 1.5 0.324
GPT3 6/11/20 175 0.539
GPT3.5 3/15/22 175 0.7
GPT4 3/14/23 1760 0.864

لكن أداء النموذج سوف يتباين قريبًا، على الأقل وفقًا لهذا المقياس.

صورة

هذا هو مخطط لأداء العديد من نماذج الذكاء الاصطناعي الحديثة وفقًا لمعيار مقبول على نطاق واسع يسمى MMLU. 1 يقيس MMLU أداء نموذج الذكاء الاصطناعي مقارنة بطالب في المدرسة الثانوية.

لقد قمت بتصنيف النماذج بهذه الطريقة:

  • كبير: > 100 مليار معلمة
  • متوسط: 15 إلى 100b معلمات
  • صغير: <15b معلمات

وبمرور الوقت، يتقارب الأداء بسرعة عبر أحجام النماذج وعبر موردي النماذج.

ماذا يحدث عندما يعمل نموذج Facebook مفتوح المصدر ونموذج Google مغلق المصدر الذي يشغل Google.com ونماذج OpenAI التي تدعم ChatGPT بشكل جيد على قدم المساواة؟

لقد واجه علماء الكمبيوتر تحديًا في التمييز بين الأداء النسبي لهذه النماذج من خلال العديد من الاختبارات المختلفة. سيتعرض المستخدمون لضغوط شديدة للقيام بعمل أفضل.

عند هذه النقطة، يجب أن تنهار القيمة الموجودة في طبقة النموذج. إذا كان النموذج مفتوح المصدر المتاح مجانًا بنفس جودة النموذج المدفوع، فلماذا لا نستخدم النموذج المجاني؟ وإذا كان النموذج الأصغر حجمًا والأقل تكلفة للتشغيل مفتوح المصدر جيدًا تقريبًا، فلماذا لا نستخدمه؟

وقد أدى النمو السريع للذكاء الاصطناعي إلى زيادة الاهتمام بالنماذج نفسها. ولكن بسرعة كبيرة، يجب أن تتحول طبقة البنية التحتية إلى سلعة، تمامًا كما حدث في السحابة حيث يسيطر ثلاثة بائعين على حصة سوقية تبلغ 65٪: Amazon Web Services، وAzure، وGoogle Cloud Platform.

تعد التطبيقات وأدوات المطورين حول وسطاء سلع الذكاء الاصطناعي الضخمة هي المرحلة التالية من التطوير - حيث يميز تمييز المنتجات وتوزيعها بدلاً من التقدم التقني الرائع.2


1 يقيس MMLU 57 مهمة مختلفة بما في ذلك الرياضيات والتاريخ وعلوم الكمبيوتر وغيرها من المواضيع. إنه مقياس واحد من بين العديد من المقاييس وهو ليس مثاليًا - مثل أي معيار. هناك آخرون بما في ذلك نظام Elo. هنا نظرة عامة على الاختلافات.. يقوم كل معيار بتصنيف النموذج على نطاق مختلف: التحيز،
المنطق الرياضي هما مثالان آخران.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة