شعار زيفيرنت

ما مدى سرعة تعلم نماذج اللغات الكبيرة مهارات غير متوقعة؟ | مجلة كوانتا

التاريخ:

المُقدّمة

قبل عامين، في مشروع يسمى ما وراء معيار لعبة التقليد، أو BIG-bench، قام 450 باحثًا بتجميع قائمة من 204 مهمة مصممة لاختبار قدرات نماذج اللغة الكبيرة، والتي تعمل على تشغيل برامج الدردشة الآلية مثل ChatGPT. في معظم المهام، تحسن الأداء بشكل متوقع وسلس مع توسيع نطاق النماذج - كلما كان النموذج أكبر، كان أفضل. لكن مع المهام الأخرى، لم تكن القفزة في القدرة سلسة. وظل الأداء قريباً من الصفر لفترة من الوقت، ثم قفز الأداء. وجدت دراسات أخرى قفزات مماثلة في القدرة.

وصف المؤلفون هذا بأنه سلوك "اختراقي". وقد شبهه باحثون آخرون بمرحلة انتقالية في الفيزياء، كما هو الحال عندما يتجمد الماء السائل ويتحول إلى جليد. في ورقة وأشار الباحثون، الذين نُشروا في أغسطس 2022، إلى أن هذه السلوكيات ليست مفاجئة فحسب، بل لا يمكن التنبؤ بها، ويجب أن تسترشد بها المحادثات المتطورة حول سلامة الذكاء الاصطناعي وإمكاناته ومخاطره. أطلقوا على القدرات "الناشئة"، وهي كلمة تصف السلوكيات الجماعية التي لا تظهر إلا عندما يصل النظام إلى مستوى عالٍ من التعقيد.

لكن الأمور قد لا تكون بهذه البساطة. ورقة جديدة يفترض ثلاثة من الباحثين في جامعة ستانفورد أن الظهور المفاجئ لهذه القدرات هو مجرد نتيجة للطريقة التي يقيس بها الباحثون أداء ماجستير إدارة الأعمال. ويجادلون بأن القدرات ليست غير متوقعة ولا مفاجئة. قال: "إن عملية الانتقال يمكن التنبؤ بها بشكل أكبر بكثير مما يمنحه الناس الفضل فيه". سانمي كويجو، عالم كمبيوتر في جامعة ستانفورد وكبير مؤلفي الورقة. "إن الادعاءات القوية بالنشوء لها علاقة بالطريقة التي نختارها للقياس بقدر ما تتعلق بما تفعله النماذج."

نحن الآن فقط نرى وندرس هذا السلوك بسبب الحجم الكبير الذي أصبحت عليه هذه النماذج. تتدرب نماذج اللغة الكبيرة من خلال التحليل الهائل مجموعات البيانات النصية - كلمات من مصادر عبر الإنترنت بما في ذلك الكتب وعمليات البحث على الويب وويكيبيديا - وإيجاد الروابط بين الكلمات التي غالبًا ما تظهر معًا. يتم قياس الحجم من حيث المعلمات، وهو ما يشبه تقريبًا جميع الطرق التي يمكن من خلالها ربط الكلمات. كلما زاد عدد المعلمات، زاد عدد الاتصالات التي يمكن أن يجدها LLM. يحتوي GPT-2 على 1.5 مليار معلمة، بينما يستخدم GPT-3.5، LLM الذي يشغل ChatGPT، 350 مليارًا. يقال إن GPT-4، الذي ظهر لأول مرة في مارس 2023 ويشكل الآن أساسًا لبرنامج Microsoft Copilot، يستخدم 1.75 تريليون دولار.

وقد أدى هذا النمو السريع إلى طفرة مذهلة في الأداء والفعالية، ولا يجادل أحد في أن حاملي ماجستير القانون الكبار بما يكفي يمكنهم إكمال المهام التي لا تستطيع النماذج الأصغر القيام بها، بما في ذلك المهام التي لم يتم تدريبهم عليها. يدرك الثلاثي في ​​جامعة ستانفورد، الذين اعتبروا الصعود "سرابًا"، أن حاملي شهادة الماجستير في القانون يصبحون أكثر فعالية مع توسعهم؛ في الحقيقة، التعقيد الإضافي من المفترض أن تتيح النماذج الأكبر حجمًا إمكانية التحسن في حل المشكلات الأكثر صعوبة وتنوعًا. لكنهم يجادلون بأن ما إذا كان هذا التحسن يبدو سلسًا ويمكن التنبؤ به، أم أنه متعرج وحاد، فهو ينتج عن اختيار المقياس - أو حتى ندرة أمثلة الاختبار - بدلاً من الأعمال الداخلية للنموذج.

تقدم الإضافة المكونة من ثلاثة أرقام مثالاً على ذلك. في دراسة BIG-bench لعام 2022، أفاد الباحثون أنه مع عدد أقل من المعلمات، فشل كل من GPT-3 وماجستير LLM آخر يسمى LAMDA في إكمال مسائل الجمع بدقة. ومع ذلك، عندما تم تدريب GPT-3 باستخدام 13 مليار معلمة، تغيرت قدرته كما لو كان ذلك بضغطة زر. وفجأة، يمكنها أن تضيف - ويمكن لـ LAMDA أيضًا أن تضيف 68 مليار معلمة. وهذا يشير إلى أن القدرة على الإضافة تظهر عند عتبة معينة.

لكن الباحثين في جامعة ستانفورد يشيرون إلى أنه تم الحكم على طلاب الماجستير في القانون فقط على أساس الدقة: إما أنهم يستطيعون القيام بذلك على أكمل وجه، أو لا يستطيعون ذلك. لذلك، حتى لو تنبأ ماجستير إدارة الأعمال بمعظم الأرقام بشكل صحيح، فقد فشل. لا يبدو ذلك صحيحًا. إذا كنت تحسب 100 زائد 278، فإن 376 تبدو إجابة أكثر دقة من −9.34 مثلًا.

لذا بدلًا من ذلك، اختبر كويجو ومعاونوه نفس المهمة باستخدام مقياس يمنح درجات جزئية. "يمكننا أن نسأل: ما مدى جودة التنبؤ بالرقم الأول؟ ثم الثاني؟ ثم الثالثة؟" هو قال.

ينسب كويجو فكرة العمل الجديد إلى طالب الدراسات العليا رايلان شيفر، الذي قال إنه لاحظ أن أداء ماجستير إدارة الأعمال يبدو أنه يتغير مع كيفية قياس قدرته. بالتعاون مع براندو ميراندا، وهو طالب دراسات عليا آخر في جامعة ستانفورد، اختاروا مقاييس جديدة تظهر أنه مع زيادة المعلمات، توقع طلاب ماجستير القانون تسلسلًا صحيحًا بشكل متزايد للأرقام بالإضافة إلى مسائل الجمع. يشير هذا إلى أن القدرة على الإضافة ليست ناشئة - بمعنى أنها تمر بقفزة مفاجئة وغير متوقعة - ولكنها تدريجية ويمكن التنبؤ بها. لقد وجدوا أنه باستخدام مقياس مختلف، يختفي الظهور.

المُقدّمة

لكن علماء آخرين يشيرون إلى أن هذا العمل لا يبدد فكرة الظهور بشكل كامل. على سبيل المثال، لا تشرح ورقة البحث الثلاثي كيفية التنبؤ متى ستظهر المقاييس، أو أي منها، تحسنًا مفاجئًا في ماجستير إدارة الأعمال، على حد قولهم. تيانشي لي، عالم الكمبيوتر في جامعة نورث إيسترن. وقالت: "وبهذا المعنى، لا تزال هذه القدرات غير قابلة للتنبؤ بها". وآخرون، مثل جيسون وي، عالم الكمبيوتر الذي يعمل حاليًا في OpenAI والذي قام بتجميع قائمة بالقدرات الناشئة وكان مؤلفًا في ورقة BIG-bench، وقد جادل أن التقارير السابقة عن الظهور كانت سليمة لأنه بالنسبة لقدرات مثل الحساب، فإن الإجابة الصحيحة هي كل ما يهم حقًا.

قال: "هناك بالتأكيد محادثة مثيرة للاهتمام يجب إجراؤها هنا". اليكس تمكين، عالم أبحاث في شركة الذكاء الاصطناعي الناشئة Anthropic. وقال إن الورقة الجديدة تقسم المهام المتعددة الخطوات بمهارة للتعرف على مساهمات المكونات الفردية. "لكن هذه ليست القصة الكاملة. ولا نستطيع أن نقول أن كل هذه القفزات هي سراب. ما زلت أعتقد أن الأدبيات تظهر أنه حتى عندما يكون لديك تنبؤات من خطوة واحدة أو تستخدم مقاييس مستمرة، فلا يزال لديك انقطاعات، ومع زيادة حجم النموذج الخاص بك، لا يزال بإمكانك رؤيته يتحسن بطريقة تشبه القفز.

وحتى إذا كان من الممكن تفسير الظهور في ماجستير إدارة الأعمال اليوم من خلال أدوات قياس مختلفة، فمن المحتمل ألا يكون هذا هو الحال بالنسبة لطلبة ماجستير إدارة الأعمال الأكبر حجمًا والأكثر تعقيدًا في المستقبل. قال: "عندما نرفع درجة الماجستير في القانون إلى المستوى التالي، فمن المؤكد أنهم سوف يستعيرون المعرفة من مهام أخرى ونماذج أخرى". شيا "بن" هو، عالم الكمبيوتر في جامعة رايس.

إن هذا الاعتبار المتطور للنشوء ليس مجرد سؤال مجرد يجب على الباحثين أخذه بعين الاعتبار. بالنسبة لتمكين، فإن هذا يتحدث بشكل مباشر عن الجهود المستمرة للتنبؤ بكيفية تصرف حاملي شهادة الماجستير في القانون. وقال: "إن هذه التقنيات واسعة جدًا وقابلة للتطبيق للغاية". "آمل أن يستخدم المجتمع هذا كنقطة انطلاق للتأكيد المستمر على مدى أهمية بناء علم التنبؤ بهذه الأشياء. كيف لا نتفاجأ بالجيل القادم من الموديلات؟

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة