شعار زيفيرنت

كيف يساعد التفكير المتسلسل في الشبكات العصبية على الحوسبة | مجلة كوانتا

التاريخ:

المُقدّمة

من المحتمل أن معلمك في المدرسة الابتدائية لم يوضح لك كيفية إضافة أرقام مكونة من 20 رقمًا. ولكن إذا كنت تعرف كيفية جمع أرقام أصغر، فكل ما تحتاجه هو ورقة وقلم رصاص وقليل من الصبر. ابدأ بخانات الآحاد ثم انتقل إلى اليسار خطوة بخطوة، وسرعان ما ستتمكن من تكديس الخوينتيليونات بسهولة.

إن مثل هذه المشاكل سهلة بالنسبة للبشر، ولكن فقط إذا تعاملنا معها بالطريقة الصحيحة. قال: "إن الطريقة التي نحل بها نحن البشر هذه المشكلات لا تتمثل في التحديق بها ثم كتابة الإجابة". عيران ملاخ، باحث في مجال التعلم الآلي في جامعة هارفارد. "نحن في الواقع نسير عبر الخطوات."

وقد ألهمت هذه الرؤية الباحثين الذين يدرسون نماذج اللغات الكبيرة التي تدعم برامج الدردشة الآلية مثل ChatGPT. في حين أن هذه الأنظمة قد تتفوق على الأسئلة التي تتضمن بضع خطوات حسابية، فإنها غالبًا ما تخطئ في المسائل التي تتضمن العديد من الخطوات، مثل حساب مجموع رقمين كبيرين. ولكن في عام 2022، فريق من الباحثين في جوجل أظهرت أن مطالبة النماذج اللغوية بإنشاء حلول خطوة بخطوة مكّن النماذج من حل المشكلات التي بدت في السابق بعيدة عن متناولها. وسرعان ما أصبحت تقنيتهم، التي تسمى "تحفيز سلسلة الأفكار"، منتشرة على نطاق واسع، حتى عندما كان الباحثون يكافحون لفهم ما الذي يجعلها فعالة.

الآن، قامت عدة فرق باستكشاف قوة التفكير المتسلسل باستخدام تقنيات من فرع غامض من علوم الكمبيوتر النظرية يسمى نظرية التعقيد الحسابي. إنه الفصل الأخير في سلسلة من الأبحاث التي تستخدم نظرية التعقيد لدراسة القدرات الجوهرية والقيود المفروضة على نماذج اللغة. وتوضح هذه الجهود أين ينبغي لنا أن نتوقع فشل النماذج، وقد تشير إلى أساليب جديدة لبناء هذه النماذج.

قال: "إنهم يزيلون بعض السحر". ديميتريس بابيليوبولوس، باحث في مجال التعلم الآلي في جامعة ويسكونسن ماديسون. "هذا امر جيد."

محولات التدريب

يتم بناء النماذج اللغوية الكبيرة حول هياكل رياضية تسمى الشبكات العصبية الاصطناعية. وتقوم "الخلايا العصبية" العديدة داخل هذه الشبكات بعمليات حسابية بسيطة على سلاسل طويلة من الأرقام التي تمثل كلمات فردية، وتحول كل كلمة تمر عبر الشبكة إلى أخرى. تعتمد تفاصيل هذه الكيمياء الرياضية على مجموعة أخرى من الأرقام تسمى معلمات الشبكة، والتي تحدد قوة الاتصالات بين الخلايا العصبية.

لتدريب نموذج لغوي على إنتاج مخرجات متماسكة، يبدأ الباحثون عادةً بشبكة عصبية تحتوي جميع معلماتها على قيم عشوائية، ثم يغذونها بحزم من البيانات من جميع أنحاء الإنترنت. في كل مرة يرى النموذج كتلة جديدة من النص، فإنه يحاول التنبؤ بكل كلمة بدورها: فهو يخمن الكلمة الثانية بناءً على الكلمة الأولى، والثالثة بناءً على الكلمتين الأوليين، وهكذا. فهو يقارن كل توقع بالنص الفعلي، ثم يعدل معلماته لتقليل الفرق. كل تعديل يغير تنبؤات النموذج بنسبة ضئيلة فقط، لكن تأثيرها الجماعي بطريقة ما يمكّن النموذج من الاستجابة بشكل متماسك للمدخلات التي لم يسبق له مثيل.

قام الباحثون بتدريب الشبكات العصبية على معالجة اللغة لمدة 20 عامًا. لكن العمل انطلق فعليًا في عام 2017، عندما قدم الباحثون في Google أداة نوع جديد من الشبكة يسمى محول.

وقال: "لقد تم اقتراح هذا قبل سبع سنوات، وهو ما يبدو وكأنه عصور ما قبل التاريخ". بابلو بارسيلو، باحث في مجال التعلم الآلي في الجامعة البابوية الكاثوليكية في تشيلي.

ما جعل المحولات تحويلية للغاية هو أنه من السهل توسيع نطاقها - لزيادة عدد المعلمات وكمية بيانات التدريب - دون جعل التدريب باهظ التكلفة. قبل المحولات، كانت الشبكات العصبية تحتوي على بضع مئات الملايين من المعلمات على الأكثر؛ اليوم، أكبر النماذج القائمة على المحولات لديها أكثر من تريليون. إن الكثير من التحسن في أداء نموذج اللغة على مدى السنوات الخمس الماضية يأتي من مجرد التوسع.

لقد جعل المحولون ذلك ممكنًا باستخدام هياكل رياضية خاصة تسمى رؤوس الانتباه، والتي تمنحهم نوعًا من الرؤية الشاملة للنص الذي يقرأونه. عندما يقرأ المحول كتلة جديدة من النص، فإن رؤوس انتباهه تفحص كل شيء بسرعة وتحدد الروابط ذات الصلة بين الكلمات - ربما مع ملاحظة أن الكلمتين الرابعة والثامنة من المرجح أن تكونا أكثر فائدة للتنبؤ بالكلمة العاشرة. ثم تقوم رؤوس الانتباه بتمرير الكلمات إلى شبكة هائلة من الخلايا العصبية تسمى شبكة التغذية الأمامية، والتي تقوم بالتحليل الثقيل للأعداد اللازمة لتوليد التنبؤات التي تساعدها على التعلم.

تحتوي المحولات الحقيقية على طبقات متعددة من رؤوس الانتباه مفصولة بشبكات التغذية الأمامية، ولا تصدر تنبؤات إلا بعد الطبقة الأخيرة. ولكن في كل طبقة، حدد الرؤساء بالفعل السياق الأكثر صلة بكل كلمة، لذلك يمكن أن تحدث خطوة التغذية الأمامية المكثفة حسابيًا في وقت واحد لكل كلمة في النص. يؤدي ذلك إلى تسريع عملية التدريب، مما يجعل من الممكن تدريب المحولات على مجموعات متزايدة الضخامة من البيانات. والأهم من ذلك، أنها تسمح للباحثين بتوزيع العبء الحسابي الهائل لتدريب شبكة عصبية ضخمة عبر العديد من المعالجات التي تعمل جنبًا إلى جنب.

للحصول على أقصى استفادة من مجموعات البيانات الضخمة، "عليك أن تجعل النماذج كبيرة جدًا"، كما يقول ديفيد شيانغ، باحث في مجال التعلم الآلي في جامعة نوتردام. "لن يكون تدريبهم عمليًا إلا إذا كان ذلك بالتوازي."

ومع ذلك، فإن البنية الموازية التي تجعل من السهل تدريب المحولات لا تساعد بعد التدريب - في هذه المرحلة، ليست هناك حاجة للتنبؤ بالكلمات الموجودة بالفعل. أثناء التشغيل العادي، تقوم المحولات بإخراج كلمة واحدة في كل مرة، مع إعادة كل مخرج إلى المدخلات قبل توليد الكلمة التالية، لكنها لا تزال عالقة في بنية محسنة للمعالجة المتوازية.

مع نمو النماذج المعتمدة على المحولات، واستمرار بعض المهام في التسبب في مشاكل لها، بدأ بعض الباحثين يتساءلون عما إذا كان الدفع نحو نماذج أكثر قابلية للتوازي قد جاء بتكلفة. هل هناك طريقة لفهم سلوك المحولات نظريا؟

تعقيد المحولات

تواجه الدراسات النظرية للشبكات العصبية العديد من الصعوبات، خاصة عندما تحاول أخذ التدريب بعين الاعتبار. تستخدم الشبكات العصبية إجراءً معروفًا لتعديل معلماتها في كل خطوة من عملية التدريب. ولكن قد يكون من الصعب فهم سبب تقارب هذا الإجراء البسيط مع مجموعة جيدة من المعلمات.

بدلاً من النظر في ما يحدث أثناء التدريب، يدرس بعض الباحثين القدرات الجوهرية للمحولات من خلال تصور أنه من الممكن ضبط معلماتها على أي قيم اعتباطية. وهذا يرقى إلى معاملة المحول كنوع خاص من أجهزة الكمبيوتر القابلة للبرمجة.

"لديك جهاز حاسوبي ما، وتريد أن تعرف، "حسنًا، ما الذي يمكنه فعله؟" ما هي أنواع الوظائف التي يمكنه حسابها؟‘‘ قال شيانج.

هذه هي الأسئلة المركزية في الدراسة الرسمية للحساب. يعود تاريخ هذا المجال إلى عام 1936، عندما تصور آلان تورينج لأول مرة جهاز خيالي، والتي تسمى الآن آلة تورينج، والتي يمكنها إجراء أي عملية حسابية عن طريق قراءة وكتابة الرموز على شريط لا نهائي. سيبني منظرو التعقيد الحسابي لاحقًا على عمل تورينج من خلال إثبات أن المشكلات الحسابية تقع بشكل طبيعي في مجالات مختلفة. فصول التعقيد تحددها الموارد اللازمة لحلها.

في عام 2019، قام بارسيلو وباحثان آخران ثبت أن النسخة المثالية من المحول مع عدد ثابت من المعلمات يمكن أن تكون بنفس قوة آلة تورينج. إذا قمت بإعداد محول لتغذية مخرجاته بشكل متكرر كمدخل وتعيين المعلمات على القيم المناسبة للمشكلة المحددة التي تريد حلها، فسوف يقوم في النهاية بإخراج الإجابة الصحيحة.

وكانت تلك النتيجة بمثابة نقطة البداية، لكنها اعتمدت على بعض الافتراضات غير الواقعية التي من المحتمل أن تبالغ في تقدير قوة المحولات. وفي السنوات التي تلت ذلك، عمل الباحثون على تطوير أطر نظرية أكثر واقعية.

بدأت إحدى هذه الجهود في عام 2021، عندما وليام ميريل، وهو الآن طالب دراسات عليا في جامعة نيويورك، وكان يغادر زمالة مدتها عامين في معهد ألين للذكاء الاصطناعي في سياتل. أثناء وجوده هناك، قام بتحليل أنواع أخرى من الشبكات العصبية باستخدام تقنيات بدت غير مناسبة للهندسة المتوازية للمحولات. وقبل وقت قصير من مغادرته، أجرى محادثة مع باحثي معهد ألين للذكاء الاصطناعي اشيش سابهاروال، الذي درس نظرية التعقيد قبل الانتقال إلى أبحاث الذكاء الاصطناعي. لقد بدأوا يشكون في أن نظرية التعقيد قد تساعدهم على فهم حدود المحولات.

“لقد بدا الأمر وكأنه نموذج بسيط؛ قال سابهروال: “يجب أن تكون هناك بعض القيود التي يمكن للمرء أن يتغلب عليها”.

قام الثنائي بتحليل المحولات باستخدام فرع من نظرية التعقيد الحسابي، يسمى تعقيد الدائرة، والذي غالبًا ما يستخدم لدراسة الحساب المتوازي وكان له تم تطبيقها مؤخرا إلى إصدارات مبسطة من المحولات. وعلى مدى العام التالي، قاموا بتنقيح العديد من الافتراضات غير الواقعية في العمل السابق. لدراسة كيف يمكن للبنية المتوازية للمحولات أن تحد من قدراتها، نظر الثنائي في الحالة التي لم تغذي فيها المحولات مخرجاتها مرة أخرى إلى مدخلاتها - بدلاً من ذلك، يجب أن يكون مخرجها الأول هو الإجابة النهائية. هم ثبت أن المحولات في هذا الإطار النظري لم تتمكن من حل أي مشاكل حسابية تقع خارج فئة تعقيد محددة. ويُعتقد أن العديد من المسائل الرياضية، بما في ذلك المسائل البسيطة نسبيًا مثل حل المعادلات الخطية، تقع خارج هذا الفصل.

في الأساس، أظهروا أن التوازي لم يكن له تكلفة، على الأقل عندما اضطرت المحولات إلى تقديم إجابة على الفور. وقال ميريل: "المحولات ضعيفة للغاية إذا كانت الطريقة التي تستخدمها بها هي تقديم مدخلات، وتتوقع فقط إجابة فورية".

تجارب الفكر

أثارت نتائج ميريل وسابهاروال سؤالاً طبيعيًا: ما مدى قوة المحولات عندما يُسمح لها بإعادة تدوير مخرجاتها؟ وقد درس بارسيلو وزملاؤه هذه الحالة في تحليلهم لعام 2019 للمحولات المثالية، ولكن مع افتراضات أكثر واقعية ظل السؤال مفتوحًا. وفي السنوات الفاصلة، اكتشف الباحثون تحفيز سلسلة الأفكار، مما أعطى السؤال أهمية جديدة.

عرف ميريل وسابهاروال أن منهجهما الرياضي البحت لا يمكنه استيعاب جميع جوانب التفكير المتسلسل في نماذج اللغة الحقيقية، حيث تكون الصياغة في الموجه يمكن أن يكون مهمًا جدًا. ولكن بغض النظر عن كيفية صياغة الموجه، طالما أنه يتسبب في قيام نموذج لغوي بإخراج حلول خطوة بخطوة، يمكن للنموذج من حيث المبدأ إعادة استخدام نتائج الخطوات الوسيطة في التمريرات اللاحقة عبر المحول. وهذا يمكن أن يوفر وسيلة للتهرب من حدود الحساب الموازي.

وفي الوقت نفسه، كان فريق من جامعة بكين يفكر على نفس المنوال، وكانت نتائجهم الأولية إيجابية. وفي ورقة بحثية صدرت في مايو 2023، حددوا بعض المشكلات الرياضية التي يجب أن تكون مستحيلة بالنسبة للمحولات العادية في إطار عمل ميريل وسابهاروال، و أظهرت أن الخطوات الوسيطة مكنت المحولات من حل هذه المشاكل.

في أكتوبر، تابع ميريل وسابهاروال عملهما السابق بـ دراسة نظرية مفصلة من القوة الحسابية لسلسلة الفكر. لقد حددوا كيف تعتمد هذه القوة الحسابية الإضافية على عدد الخطوات الوسيطة التي يُسمح للمحول باستخدامها قبل أن يلفظ إجابة نهائية. بشكل عام، يتوقع الباحثون أن يعتمد العدد المناسب من الخطوات الوسيطة لحل أي مشكلة على حجم المدخلات إلى المشكلة. على سبيل المثال، تتطلب أبسط استراتيجية لإضافة رقمين مكونين من 20 رقمًا ضعف عدد خطوات الجمع المتوسطة مثل نفس الأسلوب لإضافة رقمين مكونين من 10 أرقام.

تشير أمثلة كهذه إلى أن المحولات لن تكسب الكثير من استخدام بضع خطوات وسيطة فقط. في الواقع، أثبت ميريل وسابهاروال أن سلسلة التفكير لا تبدأ فعليًا في المساعدة إلا عندما ينمو عدد الخطوات الوسيطة بما يتناسب مع حجم المدخلات، وتتطلب العديد من المشكلات أن ينمو عدد الخطوات الوسيطة بشكل أكبر.

دقة النتيجة أثارت إعجاب الباحثين. قال: "لقد ثبتوا هذا حقًا". دانيال هسو، باحث في مجال التعلم الآلي في جامعة كولومبيا.

يشير عمل ميريل وسابهاروال الأخير إلى أن سلسلة التفكير ليست علاجًا سحريًا، فمن حيث المبدأ، يمكنها مساعدة المحولات على حل المشكلات الأصعب، ولكن فقط على حساب الكثير من الجهد الحسابي.

وقال ميريل: "نحن مهتمون بطرق مختلفة للتغلب على قيود المحولات بخطوة واحدة". "إن سلسلة الأفكار هي إحدى الطرق، لكن هذه الورقة تظهر أنها قد لا تكون الطريقة الأكثر اقتصادا."

العودة إلى الواقع

ومع ذلك، يحذر الباحثون من أن هذا النوع من التحليل النظري لا يمكنه إلا أن يكشف الكثير عن نماذج اللغة الحقيقية. النتائج الإيجابية - البراهين على أن المحولات يمكنها من حيث المبدأ حل مشكلات معينة - لا تعني أن النموذج اللغوي سيتعلم بالفعل تلك الحلول أثناء التدريب.

وحتى النتائج التي تعالج القيود المفروضة على المحولات تأتي مع تحذيرات: فهي تشير إلى أنه لا يمكن لأي محول أن يحل مشاكل معينة بشكل مثالي في جميع الحالات. وبطبيعة الحال، هذا شريط مرتفع جداً. وقال هسو: "قد تكون هناك حالات خاصة للمشكلة يمكن التعامل معها بشكل جيد".

على الرغم من هذه التحذيرات، يقدم العمل الجديد نموذجًا لتحليل أنواع مختلفة من بنيات الشبكات العصبية التي قد تحل محل المحولات في النهاية. إذا أشار تحليل نظرية التعقيد إلى أن أنواعًا معينة من الشبكات أقوى من غيرها، فسيكون ذلك دليلاً على أن تلك الشبكات قد تكون أفضل حالًا في العالم الحقيقي أيضًا.

وشدد شيانغ أيضًا على أن البحث حول القيود المفروضة على المحولات هو أكثر قيمة حيث يتم استخدام نماذج اللغة بشكل متزايد في مجموعة واسعة من تطبيقات العالم الحقيقي، مما يجعل من السهل المبالغة في تقدير قدراتها.

وقال تشيانج: "هناك في الواقع الكثير من الأشياء التي لا يقومون بها بشكل جيد، وعلينا أن نكون مدركين تمامًا للقيود". "لهذا السبب يعد هذا النوع من العمل مهمًا حقًا."

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة