شعار زيفيرنت

كيف تقوم الآلات بجمع البيانات؟ | مجلة كوانتا

التاريخ:

المُقدّمة

على الرغم من كل تألقها، تظل الشبكات العصبية الاصطناعية غامضة كما كانت دائمًا. ومع تزايد حجم هذه الشبكات، تنفجر قدراتها، لكن فك رموز أعمالها الداخلية كان دائمًا شبه مستحيل. يبحث الباحثون باستمرار عن أي أفكار يمكنهم العثور عليها في هذه النماذج.

وقبل بضع سنوات، اكتشفوا واحدة جديدة.

في يناير 2022، اكتشف باحثون في OpenAI، الشركة التي تقف وراء ChatGPT، وذكرت أن هذه الأنظمة، عندما سُمح لها عن طريق الخطأ بتناول البيانات لفترة أطول من المعتاد، طورت طرقًا فريدة لحل المشكلات. عادة، عندما يقوم المهندسون ببناء نماذج التعلم الآلي من الشبكات العصبية - المكونة من وحدات حسابية تسمى الخلايا العصبية الاصطناعية - فإنهم يميلون إلى إيقاف التدريب عند نقطة معينة، تسمى نظام التجهيز الزائد. يحدث هذا عندما تبدأ الشبكة في حفظ بيانات التدريب الخاصة بها وغالبًا لا تقوم بتعميم المعلومات الجديدة غير المرئية. ولكن عندما قام فريق OpenAI عن طريق الخطأ بتدريب شبكة صغيرة تتجاوز هذه النقطة، بدا الأمر وكأنهم طوروا فهمًا للمشكلة تجاوز مجرد الحفظ - فقد يتفوقون فجأة على أي بيانات اختبار.

أطلق الباحثون على هذه الظاهرة اسم "grokking"، وهو مصطلح صاغه مؤلف الخيال العلمي روبرت أ. هاينلين ليعني فهم شيء ما "بشكل شامل بحيث يصبح المراقب جزءًا من العملية التي يتم ملاحظتها". لقد تعلمت الشبكة العصبية المفرطة التدريب، والمصممة لتنفيذ عمليات رياضية معينة، البنية العامة للأرقام واستوعبت النتيجة. وقد grokked وأصبح الحل.

قال: "كان هذا مثيرًا للغاية ومثيرًا للتفكير". ميخائيل بلكين من جامعة كاليفورنيا، سان دييغو، الذي يدرس الخصائص النظرية والتجريبية للشبكات العصبية. "لقد حفز الكثير من أعمال المتابعة."

وفي الواقع، قام آخرون بتكرار النتائج، بل وقاموا بتعديلها بشكل عكسي. لم توضح الأبحاث الحديثة ما تفعله هذه الشبكات العصبية عندما تتذمر فحسب، بل قدمت أيضًا عدسة جديدة يمكن من خلالها فحص أحشائها الداخلية. وقال: "إن الإعداد المتعرج يشبه كائنًا نموذجيًا جيدًا لفهم الكثير من الجوانب المختلفة للتعلم العميق". إريك ميشود من معهد ماساتشوستس للتكنولوجيا.

إن النظر داخل هذا الكائن الحي يكون في بعض الأحيان كاشفاً تمامًا. قال: "لا يمكنك العثور على بنية جميلة فحسب، بل إن هذه البنية الجميلة مهمة لفهم ما يحدث داخليًا". نيل ناندا، الآن في Google DeepMind في لندن.

ما وراء الحدود

في الأساس، تبدو مهمة نموذج التعلم الآلي بسيطة: تحويل مدخلات معينة إلى مخرجات مرغوبة. إن مهمة خوارزمية التعلم هي البحث عن أفضل وظيفة ممكنة يمكنها القيام بذلك. يمكن لأي نموذج معين الوصول فقط إلى مجموعة محدودة من الوظائف، وغالبًا ما يتم تحديد هذه المجموعة من خلال عدد المعلمات في النموذج، والتي في حالة الشبكات العصبية تعادل تقريبًا عدد الاتصالات بين الخلايا العصبية الاصطناعية.

المُقدّمة

عندما تتدرب الشبكة، فإنها تميل إلى تعلم وظائف أكثر تعقيدًا، ويبدأ التناقض بين المخرجات المتوقعة والمخرجات الفعلية في الانخفاض بالنسبة لبيانات التدريب. والأفضل من ذلك، أن هذا التناقض، المعروف بالخسارة، يبدأ أيضًا في الانخفاض بالنسبة لبيانات الاختبار، وهي بيانات جديدة غير مستخدمة في التدريب. ولكن في مرحلة ما، يبدأ النموذج في الإفراط في التناسب، وبينما يستمر فقدان بيانات التدريب في الانخفاض، يبدأ فقدان بيانات الاختبار في الارتفاع. لذلك عادةً ما يتوقف الباحثون عن تدريب الشبكة.

كانت تلك هي الحكمة السائدة عندما بدأ فريق OpenAI في استكشاف كيف يمكن للشبكة العصبية إجراء العمليات الحسابية. كانوا يستخدمون صغيرة محول - وهي بنية شبكية أحدثت ثورة في نماذج اللغات الكبيرة مؤخرًا - للقيام بأنواع مختلفة من العمليات الحسابية المعيارية، حيث تعمل مع مجموعة محدودة من الأرقام التي تتكرر على نفسها. على سبيل المثال، يمكن تنفيذ Modulo 12 على وجه الساعة: 11 + 2 = 1. وقد أظهر الفريق أمثلة شبكية لإضافة رقمين، a و b، لإنتاج الإخراج، c, في modulo 97 (أي ما يعادل وجه الساعة بـ 97 رقمًا). ثم قاموا باختبار المحول على مجموعات غير مرئية من a و b لمعرفة ما إذا كان يمكن التنبؤ بشكل صحيح c.

كما هو متوقع، عندما دخلت الشبكة نظام التجهيز الزائد، اقتربت الخسارة في بيانات التدريب من الصفر (بدأت في حفظ ما شاهدته)، وبدأت الخسارة في بيانات الاختبار في الارتفاع. ولم يكن تعميما. وقالت قائدة الفريق أليثيا باور: "وفي أحد الأيام، حالفنا الحظ". التحدث في سبتمبر 2022 في مؤتمر في سان فرانسيسكو. "وبالحظ أعني النسيان."

عضو الفريق الذي كان يدرب الشبكة ذهب في إجازة ونسي إيقاف التدريب. ومع استمرار هذا الإصدار من الشبكة في التدريب، أصبح فجأة دقيقًا فيما يتعلق بالبيانات غير المرئية. كشف الاختبار التلقائي عن هذه الدقة غير المتوقعة لبقية أعضاء الفريق، وسرعان ما أدركوا أن الشبكة وجدت طرقًا ذكية لترتيب الأرقام a و b. داخليًا، تمثل الشبكة الأرقام في مساحة عالية الأبعاد، ولكن عندما قام الباحثون بإسقاط هذه الأرقام في مساحة ثنائية الأبعاد ورسموها، شكلت الأرقام دائرة.

كان هذا مذهلاً. لم يخبر الفريق النموذج مطلقًا بأنه كان يقوم بإجراء العمليات الحسابية modulo 97، أو حتى ما يعنيه modulo - لقد أظهروا له فقط أمثلة على العمليات الحسابية. يبدو أن النموذج قد عثر على حل تحليلي أعمق، وهي معادلة تم تعميمها على جميع مجموعات من العناصر a و b، حتى خارج بيانات التدريب. لقد تدهورت الشبكة، وارتفعت دقة بيانات الاختبار إلى 100%. وقالت باور لجمهورها: "هذا غريب".

تحقق الفريق من النتائج باستخدام مهام مختلفة وشبكات مختلفة. صمد الاكتشاف.

من الساعات والبيتزا

ولكن ما هي المعادلة التي وجدتها الشبكة؟ لم تذكر ورقة OpenAI ذلك، لكن النتيجة لفتت انتباه ناندا. قال ناندا، الذي يركز عمله على الهندسة العكسية لشبكة مدربة: "أحد الألغاز الأساسية والأشياء المزعجة المتعلقة بالشبكات العصبية هو أنها جيدة جدًا في ما تفعله، ولكن افتراضيًا، ليس لدينا أي فكرة عن كيفية عملها". الشبكة لمعرفة الخوارزميات التي تعلمتها.

كان ناندا منبهرًا باكتشاف OpenAI، وقرر تفكيك الشبكة العصبية التي كانت تعاني من الاضطراب. لقد صمم نسخة أبسط من شبكة OpenAI العصبية حتى يتمكن من فحص معلمات النموذج عن كثب أثناء تعلمه إجراء العمليات الحسابية المعيارية. لقد رأى نفس السلوك: الإفراط في التجهيز الذي أفسح المجال للتعميم والتحسن المفاجئ في دقة الاختبار. وكانت شبكته أيضًا ترتب الأرقام في دائرة. استغرق الأمر بعض الجهد، لكن ناندا اكتشفت السبب في النهاية.

بينما كانت تمثل الأرقام الموجودة على دائرة، لم تكن الشبكة تقوم بعد الأرقام ببساطة مثل طفل في روضة أطفال يراقب الساعة: لقد كانت تقوم ببعض التلاعبات الرياضية المعقدة. من خلال دراسة قيم معلمات الشبكة، كشفت ناندا وزملاؤها أنها كانت تضيف أرقام الساعة عن طريق إجراء "تحويلات فورييه منفصلة" عليها - تحويل الأرقام باستخدام الدوال المثلثية مثل جيب التمام وجيب التمام ثم معالجة هذه القيم باستخدام الهويات المثلثية للوصول إلى الحل. على الأقل، كان هذا ما كانت تفعله شبكته الخاصة.

عندما فريق في معهد ماساتشوستس للتكنولوجيا تمت المتابعة في عمل ناندا، أظهروا أن الشبكات العصبية المزعجة لا تكتشف دائمًا خوارزمية "الساعة" هذه. وفي بعض الأحيان، تجد الشبكات بدلاً من ذلك ما يسميه الباحثون خوارزمية "البيتزا". يتخيل هذا الأسلوب بيتزا مقسمة إلى شرائح ومرقمة بالترتيب. لإضافة رقمين، تخيل رسم أسهم من مركز قطعة البيتزا إلى الرقمين المعنيين، ثم حساب الخط الذي ينصف الزاوية التي شكلها السهمان الأولان. يمر هذا الخط عبر منتصف شريحة من البيتزا: رقم الشريحة هو مجموع الرقمين. يمكن أيضًا كتابة هذه العمليات من حيث التلاعب المثلثي والجبري لجيب التمام وجيب التمام a و b، وهي من الناحية النظرية دقيقة تمامًا مثل اقتراب الساعة.

المُقدّمة

وقال: "كل من خوارزميات الساعة والبيتزا لها هذا التمثيل الدائري". زيمينغ ليو، عضو في فريق معهد ماساتشوستس للتكنولوجيا. "لكن ... تختلف كيفية الاستفادة من جيوب الجيب وجيب التمام هذه. ولهذا السبب نسميها خوارزميات مختلفة.

وهذا لم يكن كل شيء. وبعد تدريب العديد من الشبكات على إجراء العمليات الحسابية النموذجية، اكتشف ليو وزملاؤه أن حوالي 40% من الخوارزميات التي اكتشفتها هذه الشبكات كانت عبارة عن أنواع مختلفة من خوارزميات البيتزا أو الساعة. لم يتمكن الفريق من فك رموز ما تفعله الشبكات في بقية الوقت. وقال ليو: بالنسبة لخوارزميات البيتزا والساعة، "يحدث أنها تجد شيئًا يمكننا نحن البشر تفسيره".

ومهما كانت الخوارزمية التي تتعلمها الشبكة عندما تواجه مشكلة ما، فهي أكثر قوة في التعميم مما يظن الباحثون. عندما فريق في جامعة ميريلاند تغذية شبكة عصبية بسيطة مع وجود أخطاء عشوائية في بيانات التدريب، تصرفت الشبكة في البداية كما هو متوقع: تجاوزت بيانات التدريب والأخطاء وكل شيء، وكان أداؤها سيئًا على بيانات الاختبار غير التالفة. ومع ذلك، بمجرد أن بدأت الشبكة في الإجابة على أسئلة الاختبار بشكل صحيح، يمكنها إنتاج إجابات صحيحة حتى للإدخالات الخاطئة، ونسيان الإجابات غير الصحيحة المحفوظة والتعميم حتى على بيانات التدريب الخاصة بها. وقال: "إن المهمة الصعبة هي في الواقع قوية للغاية بالنسبة لهذه الأنواع من الفساد". دارشيل دوشي، أحد مؤلفي الورقة.

معركة السيطرة

ونتيجة لذلك، بدأ الباحثون الآن في فهم العملية التي تؤدي إلى قيام الشبكة بجمع بياناتها. ترى ناندا أن المفاجأة الخارجية الواضحة هي نتيجة للانتقال الداخلي التدريجي من الحفظ إلى التعميم، والذي يستخدم خوارزميتين مختلفتين داخل الشبكة العصبية. وقال إنه عندما تبدأ الشبكة في التعلم، فإنها تكتشف أولاً خوارزمية الحفظ الأسهل؛ ومع ذلك، على الرغم من أن الخوارزمية أبسط، إلا أنها تتطلب موارد كبيرة، حيث تحتاج الشبكة إلى حفظ كل مثيل من بيانات التدريب. ولكن حتى أثناء الحفظ، تبدأ أجزاء من الشبكة العصبية في تشكيل دوائر تنفذ الحل العام. تتنافس الخوارزميتان على الموارد أثناء التدريب، لكن التعميم يفوز في النهاية إذا تم تدريب الشبكة بمكون إضافي يسمى التنظيم.

قال ليو: "إن التنظيم يدفع الحل ببطء نحو حل التعميم". هذه عملية تقلل من القدرة الوظيفية للنموذج - تعقيد الوظيفة التي يمكن أن يتعلمها النموذج. نظرًا لأن التنظيم يقلل من تعقيد النموذج، فإن خوارزمية التعميم، الأقل تعقيدًا، تنتصر في النهاية. قال ناندا: "إن التعميم أسهل لنفس [مستوى] الأداء". وأخيرًا، تتجاهل الشبكة العصبية خوارزمية الحفظ.

لذلك، في حين يبدو أن القدرة المتأخرة على التعميم تظهر فجأة، فإن معلمات الشبكة داخليًا تتعلم خوارزمية التعميم بشكل مطرد. فقط عندما تتعلم الشبكة خوارزمية التعميم وتزيل خوارزمية الحفظ تمامًا، فإنك تشعر بالذهول. قال ناندا: "من الممكن أن تكون الأشياء التي تبدو مفاجئة تدريجية تحت السطح"، وهي مشكلة ظهرت أيضًا في عام 2018. أبحاث التعلم الآلي الأخرى.

على الرغم من هذه الإنجازات، من المهم أن نتذكر أن الأبحاث المتعلقة بالتنمية لا تزال في بداياتها. حتى الآن، درس الباحثون فقط الشبكات الصغيرة للغاية، وليس من الواضح ما إذا كانت هذه النتائج ستطبق على الشبكات الأكبر والأكثر قوة. ويحذر بلكين أيضًا من أن الحساب المعياري هو بمثابة "قطرة في محيط" مقارنة بجميع المهام المختلفة التي تقوم بها الشبكات العصبية اليوم. قد لا تكون الهندسة العكسية لحل الشبكة العصبية لمثل هذه الرياضيات كافية لفهم المبادئ العامة التي تدفع هذه الشبكات نحو التعميم. وقال بلكين: "إنه أمر رائع أن ندرس الأشجار". "ولكن علينا أيضًا أن ندرس الغابة."

ومع ذلك، فإن القدرة على النظر داخل هذه الشبكات وفهمها تحليليا لها آثار ضخمة. بالنسبة لمعظمنا، تعد تحويلات فورييه وتقسيم أقواس الدوائر طريقة غريبة جدًا لإجراء عمليات الجمع المعيارية، فالخلايا العصبية البشرية لا تفكر بهذه الطريقة. قال ناندا: "لكن إذا كنت مبنيًا على الجبر الخطي، فمن المنطقي جدًا أن تفعل ذلك بهذه الطريقة".

وقال: "هذه العقول [الاصطناعية] الغريبة تعمل بشكل مختلف عن أدمغتنا". “[إنهم] لديهم قواعدهم وهيكلهم الخاص. نحن بحاجة إلى أن نتعلم كيف نفكر كيف تفكر الشبكة العصبية.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة