شعار زيفيرنت

كيف يمكن للنسيان الانتقائي أن يساعد الذكاء الاصطناعي على التعلم بشكل أفضل | مجلة كوانتا

التاريخ:

المُقدّمة

قام فريق من علماء الكمبيوتر بإنشاء نوع أكثر رشاقة وأكثر مرونة لنموذج التعلم الآلي. الحيلة: يجب أن تنسى بشكل دوري ما تعرفه. وعلى الرغم من أن هذا النهج الجديد لن يحل محل النماذج الضخمة التي تقوم عليها أكبر التطبيقات، إلا أنه يمكن أن يكشف المزيد عن كيفية فهم هذه البرامج للغة.

وقال البحث الجديد يمثل "تقدما كبيرا في هذا المجال". جيا كون، مهندس الذكاء الاصطناعي في معهد العلوم الأساسية في كوريا الجنوبية.

يتم تشغيل محركات لغة الذكاء الاصطناعي المستخدمة اليوم في الغالب بواسطة الشبكات العصبية الاصطناعية. كل "خلية عصبية" في الشبكة هي وظيفة رياضية تستقبل إشارات من خلايا عصبية أخرى، وتجري بعض الحسابات وترسل إشارات عبر طبقات متعددة من الخلايا العصبية. في البداية يكون تدفق المعلومات عشوائيًا إلى حد ما، ولكن من خلال التدريب، يتحسن تدفق المعلومات بين الخلايا العصبية حيث تتكيف الشبكة مع بيانات التدريب. إذا أراد أحد باحثي الذكاء الاصطناعي إنشاء نموذج ثنائي اللغة، على سبيل المثال، فسوف يقوم بتدريب النموذج باستخدام كومة كبيرة من النص من كلتا اللغتين، مما سيؤدي إلى ضبط الاتصالات بين الخلايا العصبية بطريقة تربط النص في لغة واحدة بما يعادله. الكلمات في الآخر.

لكن عملية التدريب هذه تتطلب الكثير من القوة الحاسوبية. إذا لم يعمل النموذج بشكل جيد، أو إذا تغيرت احتياجات المستخدم لاحقًا، فمن الصعب تعديله. قال: "لنفترض أن لديك نموذجًا يحتوي على 100 لغة، ولكن تخيل أن لغة واحدة تريدها لم تتم تغطيتها". ميكيل أرتيتكس، مؤلف مشارك في البحث الجديد ومؤسس شركة Reka الناشئة للذكاء الاصطناعي. "يمكنك البدء من جديد من الصفر، لكن هذا ليس مثاليًا."

وقد حاول أرتيتكس وزملاؤه التحايل على هذه القيود. منذ عدة سنواتقام أرتيتكس وآخرون بتدريب شبكة عصبية على لغة واحدة، ثم قاموا بمسح ما كانت تعرفه عن الوحدات الأساسية للكلمات، والتي تسمى الرموز. يتم تخزينها في الطبقة الأولى من الشبكة العصبية، والتي تسمى طبقة التضمين. لقد تركوا جميع الطبقات الأخرى من النموذج وحدها. وبعد محو الرموز المميزة للغة الأولى، أعادوا تدريب النموذج على اللغة الثانية، مما ملأ طبقة التضمين برموز جديدة من تلك اللغة.

على الرغم من أن النموذج يحتوي على معلومات غير متطابقة، إلا أن إعادة التدريب نجحت: حيث تمكن النموذج من تعلم اللغة الجديدة ومعالجتها. وتوقع الباحثون أنه في حين أن طبقة التضمين تخزن معلومات خاصة بالكلمات المستخدمة في اللغة، فإن المستويات الأعمق للشبكة تخزن معلومات أكثر تجريدًا حول المفاهيم الكامنة وراء اللغات البشرية، مما ساعد النموذج على تعلم اللغة الثانية.

"نحن نعيش في نفس العالم. وقال: "إننا نتصور نفس الأشياء بكلمات مختلفة" بلغات مختلفة ييهونج تشن، المؤلف الرئيسي للورقة الأخيرة. "لهذا السبب لديك نفس المنطق عالي المستوى في النموذج. "التفاحة شيء حلو وعصير، وليست مجرد كلمة."

المُقدّمة

في حين أن نهج النسيان هذا كان وسيلة فعالة لإضافة لغة جديدة إلى نموذج تم تدريبه بالفعل، إلا أن إعادة التدريب كانت لا تزال تتطلب الكثير من البيانات اللغوية وقدرة المعالجة. اقترح تشين إجراء تعديل: بدلاً من التدريب، ومحو طبقة التضمين، ثم إعادة التدريب، يجب عليهم إعادة ضبط طبقة التضمين بشكل دوري خلال الجولة الأولى من التدريب. وقال أرتيتكس: "من خلال القيام بذلك، يصبح النموذج بأكمله معتادًا على إعادة الضبط". "وهذا يعني أنه عندما تريد توسيع النموذج إلى لغة أخرى، يكون الأمر أسهل، لأن هذا ما كنت تفعله."

اتخذ الباحثون نموذجًا لغويًا شائع الاستخدام يسمى روبرتا، وقاموا بتدريبه باستخدام تقنية النسيان الدوري، ومقارنته بأداء النموذج نفسه عندما تم تدريبه باستخدام النهج القياسي لعدم النسيان. كان أداء نموذج النسيان أسوأ قليلاً من النموذج التقليدي، حيث حصل على درجة 85.1 مقارنة بـ 86.1 في أحد المقاييس الشائعة لدقة اللغة. ثم أعادوا تدريب النماذج على لغات أخرى، باستخدام مجموعات بيانات أصغر بكثير مكونة من 5 ملايين رمز فقط، بدلاً من 70 مليارًا استخدموها خلال التدريب الأول. انخفضت دقة النموذج القياسي إلى 53.3 في المتوسط، لكن نموذج النسيان انخفض إلى 62.7 فقط.

كما كان أداء نموذج النسيان أفضل بكثير إذا فرض الفريق حدودًا حسابية أثناء إعادة التدريب. وعندما خفض الباحثون مدة التدريب من 125,000 ألف خطوة إلى 5,000 خطوة فقط، انخفضت دقة نموذج النسيان إلى 57.8 في المتوسط، في حين انخفض النموذج القياسي إلى 37.2، وهو ليس أفضل من التخمينات العشوائية.

المُقدّمة

وخلص الفريق إلى أن النسيان الدوري يبدو أنه يجعل النموذج أفضل في تعلم اللغات بشكل عام. قال: "لأنهم يستمرون في النسيان وإعادة التعلم أثناء التدريب، يصبح تعليم الشبكة شيئًا جديدًا لاحقًا أسهل". يفغيني نيكيشين، باحث في ميلا، مركز أبحاث التعلم العميق في كيبيك. وتشير إلى أنه عندما تفهم النماذج اللغوية لغة ما، فإنها تفعل ذلك على مستوى أعمق من مجرد معاني الكلمات الفردية.

النهج مشابه لكيفية عمل أدمغتنا. "الذاكرة البشرية بشكل عام ليست جيدة جدًا في تخزين كميات كبيرة من المعلومات التفصيلية بدقة. وبدلا من ذلك، يميل البشر إلى تذكر جوهر تجاربنا، والتجريد والاستقراء بنيامين ليفي، عالم الأعصاب في جامعة سان فرانسيسكو. "إن تمكين الذكاء الاصطناعي بمزيد من العمليات الشبيهة بالبشر، مثل النسيان التكيفي، هو إحدى الطرق للحصول على أداء أكثر مرونة."

بالإضافة إلى ما قد يقوله عن كيفية عمل الفهم، يأمل Artetxe أن تساعد نماذج لغة النسيان الأكثر مرونة أيضًا في جلب أحدث اختراقات الذكاء الاصطناعي إلى المزيد من اللغات. على الرغم من أن نماذج الذكاء الاصطناعي جيدة في التعامل مع اللغتين الإسبانية والإنجليزية، وهما لغتان تحتويان على مواد تدريبية وافرة، إلا أن النماذج ليست جيدة جدًا في لغته الأم الباسكية، وهي اللغة المحلية الخاصة بشمال شرق إسبانيا. وقال: "معظم عارضي الأزياء من شركات التكنولوجيا الكبرى لا يقومون بذلك بشكل جيد". "إن تكييف النماذج الحالية مع لغة الباسك هو الطريق الصحيح."

يتطلع تشين أيضًا إلى عالم تتفتح فيه المزيد من زهور الذكاء الاصطناعي. "أنا أفكر في موقف لا يحتاج فيه العالم إلى نموذج لغوي واحد كبير. قالت: “لدينا الكثير”. "إذا كان هناك مصنع يصنع نماذج لغوية، فأنت بحاجة إلى هذا النوع من التكنولوجيا. إنه يحتوي على نموذج أساسي واحد يمكنه التكيف بسرعة مع المجالات الجديدة.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة