شعار زيفيرنت

الحكمة اللغوية لنماذج البرمجة اللغوية العصبية

التاريخ:

اللسانيات في نماذج البرمجة اللغوية العصبية

هذا المقال من تأليف كيور فالدو و  الدكتور أميت شيث. تتناول هذه المقالة بالتفصيل جانبًا متخصصًا من قصة الغلاف الأوسع "ظهور البرمجة اللغوية العصبية الحديثة والحاجة إلى التفسير!"في Embibe ، نركز على التطوير التأويل و  للتفسير أنظمة التعلم العميق ، ونقوم بمسح الحالة الحالية للتقنيات الفنية للإجابة على بعض الأسئلة المفتوحة حول الحكمة اللغوية التي اكتسبتها نماذج البرمجة اللغوية العصبية.

هذا المقال هو استمرار للمقال السابق (اكتشاف المعرفة اللغوية المشفرة في نماذج البرمجة اللغوية العصبية) لفهم المعرفة اللغوية المشفرة في نماذج البرمجة اللغوية العصبية. تتناول المقالة السابقة ما هو الاستقصاء ، وكيف يختلف عن التعلم متعدد المهام ، ونوعين من المسابير - المجسات القائمة على التمثيل والتحقيقات القائمة على أوزان الانتباه. كما يلقي الضوء على كيفية استخدام مهمة التحقيق (أو المهمة المساعدة) لتقييم القدرة اللغوية لنماذج البرمجة اللغوية العصبية المدربة على بعض المهام (المهام) الأساسية الأخرى.

إذا كان هذا المحتوى التعليمي المتعمق مفيدًا لك ، فيمكنك ذلك اشترك في القائمة البريدية لأبحاث الذكاء الاصطناعي ليتم تنبيهنا عندما نصدر مادة جديدة. 

الشكل 1. الرسم التوضيحي للمسبارات على نموذج BERT. يوضح كيف يتم وضع رموز الإدخال في سياقها بناءً على آليات الانتباه في طبقات متتالية باستخدام آليات الانتباه. يتم عرض نوعين من المجسات ، (1) على أساس التمثيل و (2) على أساس الانتباه. لاحظ أن الرسم التخطيطي مخصص للتوضيح الأوسع ، لذا لا تظهر الرموز المميزة الخاصة مثل CLS و SEP.

وبطبيعة الحال ، فإن الأداء التنبؤي للتحقيقات في المهام اللغوية ، أو الأنماط الداعمة لربط أو مقارنة ميكانيكا الشبكة العصبية بالظاهرة اللغوية ، يعطي نظرة ثاقبة حول ماهية وطرق المعرفة اللغوية المشفرة. يمكن أن يكون أداء التنبؤ هو دقة التصنيف أو معاملات الارتباط أو متوسط ​​الترتيب المتبادل للتنبؤ بالعلامة الذهبية. لاحظ أن أداء التنبؤ للنموذج في مهمة التحقيق يمكن مقارنته مع أحدث أداء لنموذج مدرب بشكل واضح لنفس المهمة مثل المهمة الأساسية لفهم مدى المعرفة اللغوية المشفرة. ومع ذلك ، هناك جوانب أخرى للتعمق أكثر لتحليل مثل هذه المجسات ، بما في ذلك ما يلي.

  • الأكبر ، الأفضل؟ كيف تختلف المعرفة اللغوية التي يلتقطها النموذج فيما يتعلق بتعقيدها؟ على سبيل المثال ، أحجام الأبعاد ، وعدد المعلمات ، إلخ. فحص أداء المصنف في مهمة مساعدة بنماذج مختلفة التعقيد من شأنه أن يفسر هذا السؤال.
  • القدرة على التعميم يجب تقييم بيانات الاختبار المعقدة لعزو نجاح تحقيقات المعرفة اللغوية المشفرة. على سبيل المثال ، ماذا لو احتوت بيانات التدريب عمومًا على "المساعد الرئيسي" باعتباره الفعل الأول ، لكن البيانات المعممة تحتوي عمداً على مشتتات ، ولم يعد "المساعد الرئيسي" هو الفعل الأول. في مثل هذه الحالات ، إذا تمكنت المجسات من اكتشاف الأفعال "المساعدة الرئيسية" ، فيمكن أن تُعزى إلى السمات اللغوية مثل أشجار التحليل ، بدلاً من السمات الموضعية التسلسلية.
  • القدرة على فك رموز المعرفة اللغوية: تعتبر مهام التصنيف أقل تعقيدًا نسبيًا عند مقارنتها بالمهام المتعلقة بفك تشفير أو بناء المعرفة اللغوية ، أي هل يمكننا بناء شجرة تحليل تبعية كاملة باستخدام التمثيلات الداخلية؟ من المثير للاهتمام اكتشاف مناهج لاستعادة المعرفة اللغوية الكامنة.
  • حدود ومصدر المعرفة اللغوية: عندما تكون المجسات قادرة على الأداء الجيد في المهام اللغوية المساعدة ، ولكن هل ذلك بسبب بعض الارتباط ، أم أن هناك علاقة سببية؟ نظرًا لأن نموذج التحقيق العميق والمعقد يمكن أن يحفظ أيضًا ، فإنه يمكن أن يفرط في البحث عن المعرفة اللغوية. إذن ، كيف يمكننا إثبات مصدر المعرفة اللغوية التي تعبر عنها المسابر؟ عند تصميم "مهمة تحكم" ، حيث يمكن مقارنة الأداء التنبئي للتحقيقات بأداء مهام التحكم ، يمكن أن تكشف عن فعالية المجسات ومصدر المعرفة اللغوية.
  • غرس المعرفة اللغوية: إذا كانت نماذج الشبكة العصبية تتعلم المعرفة اللغوية في عملية التدريب لمهمة شاملة ، فهل سيكون من الممكن غرس المعرفة اللغوية ، أي أشجار تحليل النحو ، لتعزيز الأداء؟
  • هل المعرفة اللغوية المشفرة تلتقط المعنى؟ المعرفة اللغوية مثل علامات نقاط البيع وأشجار التبعية وما إلى ذلك هي نحوية بطبيعتها. تتوقع تطبيقات العالم الحقيقي أن تفهم نماذج البرمجة اللغوية العصبية (NLP) المعاني الدلالية. لذلك ، من الأهمية بمكان تقييم قدرة النموذج على ترميز المعنى الدلالي.

تساعدنا الاعتبارات المذكورة أعلاه في توضيح المزيد لفهم المسابير بشكل أفضل. يمكننا أيضًا استخلاص استنتاجات مفيدة حول المعرفة اللغوية المشفرة في نماذج البرمجة اللغوية العصبية. دعونا نتعمق في الأمثلة والاستطلاعات للأوراق البحثية حول هذه الموضوعات.

(أ) الأكبر ، الأفضل؟

أحد الأبحاث المبكرة للتحقيق رسميًا في مشكلة التحقق من المعرفة اللغوية المشفرة هو "التحليل الدقيق لتعليمات الأحكام باستخدام مهام التنبؤ الإضافية" ، حيث ، أدي وآخرون. [11] يهدف إلى فهم أفضل لتمثيل الجمل المشفرة.

تم النظر في ثلاث مهام مساعدة تتعلق بتراكيب الجملة:

  1. طول الجملة: هل يشفر تضمين الجملة معلومات عن طول الجملة؟
  2. محتوى الكلمة: هل من الممكن التنبؤ بما إذا كانت الكلمة موجودة في الجملة على أساس تضمين الجملة.
  3. ترتيب الكلمات. هل يمكن تحديد ترتيب كلمتين في ظل تداخلات الجملة وكلمتين؟

تستند هذه التحقيقات إلى تضمين الجملة الذي يتم حسابه على أنه متوسط ​​التمثيلات النهائية التي ينتجها نموذج وحدة فك التشفير ونموذج CBOW (حقيبة الكلمات المستمرة). النتائج الرئيسية في الورقة لفهم "النماذج الأكبر أفضل في ترميز المعرفة اللغوية أعلاه" على النحو التالي:

الشكل 2: أبعاد الدقة مقابل التمثيل للمهام الإضافية (أ) اختبار الطول ، (ب) اختبار محتوى Word ، واختبار ترتيب الكلمات ©. (عدي وآخرون. [11] ، ICLR 2017)

زيادة عدد الأبعاد تفيد بعض المهام أكثر من غيرها. كما هو مبين في الشكل 2 ، تستفيد اختبارات (أ) الطول والطلب من أبعاد التمثيل الأكبر ، في حين أن اختبار المحتوى يبلغ ذروته عند التمثيل مع 750 بعدًا.

  • من ناحية أخرى ، فإن نماذج CBOW ، التي تحتوي على معلمات أقل بكثير من نماذج وحدة فك التشفير ، ذات أبعاد أقل ، قادرة أيضًا على الأداء الجيد لمهام "محتوى الكلمات".

(ب) القدرة على التعميم

يمكن اختبار النماذج على بيانات التعميم للتحقق من مدى التعلم النموذجي. ويمكن لبيانات التعميم المعقدة المصممة عمدًا أن تختبر حدود الحكمة اللغوية التي تعلمتها نماذج البرمجة اللغوية العصبية. يُظهر التعميم على مثل هذه البيانات المعقدة القدرة اللغوية الحقيقية بدلاً من حفظ أنماط المستوى السطحي.

الشكل 3. أمثلة على بيانات التدريب والتطوير ، وهي أبسط بطبيعتها. بيانات التعميم أكثر تعقيدًا مع وجود المشتتات. (XNUMX) المهمة المساعدة الرئيسية: "Will" هي الكلمة المستهدفة ، و "can" هي مشتت الانتباه مضاف في بيانات التعميم (XNUMX) مهمة اسم الموضوع: كلمة "bee" هي كلمة مستهدفة ، و "Queen" هي مشتت مُضاف في بيانات التعميم. (لين وآخرون.[15] ، دوري أبطال آسيا 2019)

لين وآخرون. [15] أجروا مثل هذه التجارب في الورقة ، "افتح يا سمسم: التعرف على المعرفة اللغوية لبيرت". يوضح الشكل 3 كيف يمكن أن تحتوي البيانات المعممة على عوامل تشتيت متعمدة للمعرفة اللغوية المشفرة لنموذج اختبار الإجهاد.

  • "المهمة المساعدة الرئيسية" هي تحديد الفعل المساعد الرئيسي (الفعل المساعد) في الجملة. تحتوي بيانات التدريب والتطوير على "الفعل المساعد الرئيسي" باعتباره الفعل الأول في الجمل ، ومع ذلك ، فإن مجموعة بيانات التعميم تحتوي عليه بشكل أعمق في الجملة.
  • وبالمثل ، فإن "Subject Noun Task" هو تحديد الاسم الذي يعمل كموضوع ، وهو الاسم الأول في بيانات التدريب والتطوير ، ولكن يتم تعديله في مجموعة التعميم.
الشكل 4: دقة تصنيف المجسات بناءً على التمثيلات الداخلية في طبقات مختلفة. "bbu" تعني "BERT base uncased" ، و "blu" تعني "BERT كبير غير محدد". (لين وآخرون.[15] ، دوري أبطال آسيا 2019)

الوجبات الجاهزة هي:

  • الفعل المساعد الرئيسي في جملة التدريب "القط سوف النوم "هو"سوف". حيث ، "يمكن أن يمكن مواء سوف النوم "عبارة عامة معقدة. ومن ثم ، فإن توقع الفعل المساعد الرئيسي "سوف"صعب بسبب وجود المشتت"يمكن". يُظهر أداء المسبار في الشكل 4 أعلاه (على اليسار) أن طبقات BERT ترمز المعلومات اللغوية لاكتشاف "الفعل المساعد الرئيسي" جيدًا في بيانات التعميم أيضًا.
  • وبالمثل ، يعد التعميم على مجموعة بيانات تقدمية لمهام "اسم الموضوع" مهمة صعبة نسبيًا. ومع ذلك ، يمكن ملاحظة زيادة في المعلومات اللغوية المشفرة حيث يزداد اختبار أداء المصنف في الطبقات المتتالية.

تبحث هذه الورقة أيضًا في "آلية الانتباه" للنموذج ومدى حساسيته لمثل هذه الانحرافات. تقترحنقاط الارتباكوهو إنتروبيا ثنائية ثنائية لاهتمام الرموز المرشح للرمز الهدف.

الشكل 5: درجة الارتباك
الشكل 6. أمثلة "اتفاقية الفاعل والفعل". في A1 ، يكون الرمز المستهدف هو الفعل "does" ، بينما الرموز المميزة المرشحة هي "القط" و "الكلب". تعتمد درجة الارتباك على الانتروبيا الثنائية للاتفاق بين "هل" و "القط" و "لا" و "الكلب". (لين وآخرون.[15] ، دوري أبطال آسيا 2019)

يمكننا أن نرى كيف ينخفض ​​الارتباك عندما يصبح تعقيد المشتت أقل في الحالات أدناه.

  • انخفض الارتباك في A1 من 0.97 إلى 0.93 في A1 ، بسبب المشتت في A2 'الكلاب' أسهل نسبيًا في الإمساك بها ، لأنها لا تتطابق مع تفرد الفعل 'هل'. وبالمثل ، انخفض الارتباك في A3 من 0.85 إلى 0.81 في A4 لنفس السبب.
  • انخفض الارتباك في A1 من 0.97 إلى 0.85 في A3 (وبالمثل بالنسبة لحالة A2 ، A4) بسبب وجود بند نسبي إضافي ، والذي من المحتمل أن يؤدي إلى تحديد أفضل للبنية النحوية الهرمية.

(ج) القدرة على فك رموز المعرفة اللغوية

نظرًا لأن تحقيقات المصنفات أقل تعقيدًا نسبيًا ، فمن المثير للاهتمام التحقق مما إذا كان بإمكاننا فك تشفير المعرفة اللغوية المشفرة في مجملها. لنفترض ، هل يمكننا بناء أشجار تحليل التبعية كليًا بالاعتماد على التمثيلات المشفرة؟

يقترح هيويت ومانينغ [5] "مسبار هيكلي" في الورقة "مسبار هيكلي لإيجاد النحو في تمثيلات الكلمات" ، حيث يمكن استنتاج أنه من الممكن تحويل مساحة التمثيلات الداخلية إلى فضاء المعرفة اللغوية. يحدد المسبار تحولًا خطيًا تقوم بموجبه المسافة المربعة L2 للتمثيلات المحولة بترميز المسافة بين الكلمات في شجرة التحليل ، وتلك التي يشفر فيها معيار L2 التربيعي للتمثيلات المحولة العمق في شجرة التحليل.

الشكل 7. UUAS (درجة المرفقات غير الموجهة غير المسماة) تقيس أداء التنبؤ بالعلاقة بين رمزين مميزين في شجرة التبعية. DSpr هو معامل سبيرمان لقياس المسافة بين الرموز في شجرة تحليل التبعية مع بيانات الذهب. يشير المحور x في الشكل الأيسر إلى طبقة مخفية في نموذج BERT الكبير. في الشكل الأيمن ، يمثل المحور السيني أبعاد الفضاء المحول. (هيويت وآخرون. [5] ، NAACL 2019)

كما يمكن رؤيته ، تم تعلم المعرفة اللغوية من خلال طبقة نموذجية بعد طبقة ، وتتلاشى في الطبقات العليا لأن هذه الطبقات يتم ضبطها بشكل أكبر نحو وظيفة الهدف الأساسية. تمت دراستها أيضًا إذا كانت الأبعاد المتزايدة للمساحة المحولة تساعد في التعبير عن المعرفة اللغوية ، حيث تنقل التجارب أن المعرفة اللغوية لشجرة تبعية التحليل يمكن التعبير عنها في حوالي 32 أو 64 بعدًا ، إضافة أبعاد أخرى لا تضيف قيمة إضافية.

الشكل 8. مثال على شجرة تحليل التبعية المنشأة (هيويت وآخرون. [5] ، NAACL 2019)

(د) حدود ومصدر المعرفة اللغوية

لقد حققت المجسات والنماذج الخاضعة للإشراف المدربة على التنبؤ بالخصائص اللغوية دقة عالية في مجموعة من المهام اللغوية. لكن هل هذا يعني أن التمثيلات تكوّد بنية لغوية أم أن المسبار قد تعلم المهمة اللغوية فقط؟ هل يمكننا مقارنة الخصائص اللغوية لطبقات نموذج باستخدام دقة المهمة اللغوية؟ يمكن لنموذج التحقيق العميق بدرجة كافية أن يحفظ المعلومات اللغوية. فكيف يمكننا معالجة هذا القيد؟

يقترح هيويت وليانغ "الانتقائية"كإجراء لإظهار فعالية المجسات في الورقة" تصميم وتفسير المسابير مع مهام التحكم ". تم تصميم مهام التحكم لمعرفة كيف يمكن للمسبار تعلم المعلومات اللغوية المستقلة عن التمثيلات المشفرة. الانتقائية يتم تعريفه على أنه الفرق بين دقة المهمة اللغوية ودقة مهمة التحكم.

الشكل 9: (يسار) مهمة التحكم المصممة باستخدام معرفات عشوائية لمجموعة الكلمات ، (يمين) مقارنة دقة وتعقيد مهمة التحقيق مع مهمة التحكم. (هيويت وآخرون. [4] ، EMNLP-2019)

كما يمكن رؤيته في الشكل 9 أعلاه ، فإن مهمة التحكم لجزء من التنبؤ بالكلام ستخصص نوعًا من الكلمات (أو الهوية) لمجموعة من الكلمات بشكل مستقل ، وسيتم التنبؤ بعلامة POS بناءً على أنواع الكلمات (تجاهل التمثيلات المشفرة تمامًا ). لذلك ، إذا كان المسبار العميق قادرًا على الحفظ ، فيجب أن يكون قادرًا على الأداء الجيد لمهمة التحكم أيضًا. يمكن رؤية تعقيد نموذج الفحص والدقة التي تم تحقيقها للمهمة المساعدة لجزء من الكلام ومهمة التحكم الخاصة به أعلاه في الشكل الصحيح. من الأهمية بمكان اختيار مسبار ذي انتقائية عالية ودقة عالية لاستخلاص النتائج.

قام Adi وآخرون بالتحقيق في مصدر معرفة بنية الجملة في الورقة "التحليل الدقيق لتكوينات الأحكام الجزئية باستخدام مهام التنبؤ الإضافية". على الرغم من أن نموذج CBOW غافل عن السياق المحيط ، كان Probe قادرًا على إعطاء دقة عالية في المهمة الإضافية للتنبؤ بطول الجملة. ومع ذلك ، فقد وجد أن معيار تضمين الجملة فقط كان يدل على طول الجملة (الشكل 10 (يمين)) ، لذلك لم يكن مصدر المعلومات من التمثيلات المشفرة للرمز. ومع ذلك ، عندما تم تجميع هذه التمثيلات ، تميل القاعدة إلى التحرك نحو الصفر ، كما هو محدد بواسطة نظرية الحد المركزي وعدم المساواة في Hoeffding. يمكن ملاحظة في الشكل 0 (يسار) أن دقة التنبؤ بطول الجمل التركيبية (اختارت الكلمات العشوائية لتشكيل جملة تركيبية) كانت قريبة أيضًا من الجمل الشرعية. لذلك ، كان المصدر الفعلي للمعرفة لتحديد طول الجملة مجرد خاصية إحصائية لتجميع المتغيرات العشوائية.

الشكل 10. (يسار) دقة التنبؤ بطول الجملة مقابل أبعاد التمثيل. (يمين) نورم مقابل طول الجملة. (عدي وآخرون. [11] ، ICLR 2017)

ومن ثم ، فإنه يتطلب دراسة وتحليل متعمقين للوقوف على الاستدلال من نتائج التحقيقات.

(هـ) غرس المعرفة اللغوية

الآن بعد أن قمنا بمسح تقنيات لتحليل تحقيقات المعرفة اللغوية المشفرة ، فإن سؤال المتابعة هو "هل يمكننا نشر المعرفة اللغوية الواضحة للنتائج المرجوة؟". هناك دراسة مثيرة للاهتمام حول توليد إعادة الصياغة ، "الجيل المتحكم فيه من إعادة الصياغة بتوجيهات نحوية". أظهر كومار وزملاؤه [أ] أنه لإعادة صياغة الجملة المصدر ، كيف يمكن الاستفادة من بناء الجملة النموذجية. يجب أن تحافظ إعادة الصياغة التي تم إنشاؤها على معنى الجملة المصدر ولكن يجب أن تكون بنية الجملة النحوية مشابهة للجملة النموذجية.

الشكل 11: أمثلة على إعادة الصياغة التي تم إنشاؤها للجملة المصدر باستخدام الأمثلة النحوية. (كومار وآخرون. [16]، TACL 2020)

يوضح الشكل 11 أعلاه إعادة صياغة مع توجيهات من بناء جملة جمل نموذجية مختلفة. يمكننا أن نلاحظ كيف أن النموذج قادر على الحصول على إرشادات من بناء جملة الجمل النموذجية. لاحظ أنه يتم تقديم بناء جملة الجمل النموذجية فقط كمدخلات ، ولا يتم تغذية الرموز المميزة الفردية الفعلية للنموذج. يمكن استخراج شجرة بناء جملة لجملة نموذجية عند ارتفاع مختلف H ، ويمكن تغذيتها كمدخل إلى نموذج وحدة فك التشفير. يمنح الارتفاع الأقل مرونة أكبر في إعادة الصياغة ، بينما يحاول الارتفاع الأعمق التحكم صراحة في البنية النحوية لإعادة الصياغة.

الشكل 12. يوضح الشكل الأيسر شجرة بناء الجملة. يوضح الشكل الأيمن كيف يتم إنشاء إعادة صياغة مختلفة للجملة المصدر (S) عندما يتم إعطاء أشجار بناء الجملة لجملة نموذجية (E) عند ارتفاعات مختلفة (H = 4 إلى 7) كمدخلات. (كومار وآخرون. [16]، TACL 2020)

(و) هل المعرفة اللغوية المشفرة تلتقط المعنى؟

المعرفة اللغوية المشفرة ضرورية لفهم معنى اللغة الطبيعية. معظم التحقيقات التي رأيناها تتعامل مع المعرفة اللغوية النحوية. يجب فهم المعنى الدلالي الموجود في النص. نحتاج إلى تطوير أطر عمل لتقييم قدرات نماذج البرمجة اللغوية العصبية مثل BERT لنفسها. الفهم القرائي ، تشابه النص ، الإجابة على الأسئلة ، الترجمة الآلية العصبية ، إلخ ، هي بعض الأمثلة التي يعتمد فيها الأداء الحقيقي للنموذج على قدرته على ترميز المعنى الدلالي.

تم تطوير معايير مثل GLUE و SuperGLUE لتقييم قدرات نماذج البرمجة اللغوية العصبية الدقيقة لأداء المهام بناءً على فهم اللغة الطبيعية. بشكل عام ، تتم مقارنة أداء نماذج البرمجة اللغوية العصبية مع دقة التحقق من الصحة. هناك قيود متأصلة في استخدام دقة التحقق مثل التجهيز الزائد ، وتوزيع البيانات لمجموعة التحقق من الصحة ، وما إلى ذلك. تقدم الورقة "ما وراء الدقة: الاختبار السلوكي لنماذج البرمجة اللغوية العصبية مع قائمة التحقق" إطارًا لتقييم أداء النموذج بما يتجاوز دقة التحقق.

يقترح "CHECKLIST" ثلاثة أنواع مختلفة من الاختبارات ، اختبارات الحد الأدنى من الوظائف (MFT) حيث يتم إنشاء أمثلة باستخدام الملصقات الذهبية المتوقعة. ، الثبات (INV) حيث ، من أمثلة معينة ، تخلق أمثلة جديدة حيث يتم قلب الملصقات الذهبية. ، والاتجاه تغير اختبارات التوقع (DIR) ملصقات الذهب في اتجاه إيجابي أو سلبي. فيما يلي أمثلة على كل منها:

الشكل 13. أمثلة لحالات الاختبار التي تم إنشاؤها باستخدام قواعد MFT و INV و DIR لمهمة "أزواج أسئلة Quora" ، والتي تهدف إلى اكتشاف ما إذا كان سؤالان مكرران أم لا. (ريبيرو وآخرون دوري أبطال آسيا 2020)

كان من المدهش أن نلاحظ أنه في حين أن نماذج مثل Roberta و BERT تتجاوز خطوط الأساس البشرية (بدقة 91.1٪ و 91.3٪) فشلت فشلاً سيئًا في التعميمات البسيطة القائمة على القواعد لمجموعة بيانات التحقق من الصحة. ومع ذلك ، هناك خارطة طريق طويلة في المستقبل لتحقيق فهم اللغة الطبيعية على مستوى الإنسان.

لقد مررنا بالمسابر لتقييم المعرفة اللغوية المشفرة في نماذج البرمجة اللغوية العصبية. لقد وجدنا ذلك

  • تقوم نماذج البرمجة اللغوية العصبية بترميز المعرفة اللغوية من أجل حل بعض مهام معالجة اللغات الطبيعية.
  • النماذج أو التمثيلات الأكبر لا تشفر بالضرورة معرفة لغوية أفضل
  • تعمم المعرفة اللغوية المشفرة للمهام النحوية على بيانات الاختبار مع بنية الجملة المعقدة ، وهي سمات لقدرة النموذج على ترميز القواعد اللغوية.
  • يمكن أن تزيد المسابر العميقة من استيعاب المهام الإضافية وربما حفظها ، مما يؤدي إلى المبالغة في تقدير المعرفة اللغوية المشفرة. ومن ثم ، يوصى بتصميم مهام التحكم في المجسات.
  • عندما يتم توفير المعرفة اللغوية ، يمكن للنماذج أن تعمل بشكل أفضل في المهام التي تطلب التوجيه من هذه المعرفة.
  • المعرفة اللغوية النحوية ليست كافية لالتقاط معنى فهم اللغة الطبيعية. أحدث النماذج بعيدة كل البعد عن تحقيق الفهم المطلوب لمهام البرمجة اللغوية العصبية.

المعرفة اللغوية المشفرة هي أساسًا نحويًا بطبيعتها ، وكما يتضح من "قائمة المراجعة" ، تفشل النماذج في التعميم ذي الطبيعة الدلالية. تم تدريب نماذج البرمجة اللغوية العصبية الحديثة بشكل أساسي على طريقة الإشراف الذاتي على البيانات غير الموسومة ، وتم ضبطها على البيانات ذات العلامات المحدودة للمهام النهائية. من الصعب بالتأكيد اكتساب المعرفة الدلالية المتعلقة بالمهام أو المجالات من البيانات غير الموسومة أو البيانات ذات العلامات المحدودة.

ما وراء المعرفة اللغوية ...

يعمل غرس المعرفة الدلالية والمعرفة بالمجال على تحسين قدرة نموذج البرمجة اللغوية العصبية على ترميز المعرفة الدلالية والمعرفة بالمجال. ونتيجة لذلك ، فإنه يطور بشكل متأصل القدرة على التفكير وتوليد تفسيرات معقولة وصادقة. يصف Guar et al [19] كيف يمكن أن تساعد الرسوم البيانية المعرفية في جعل أنظمة التعلم العميق أكثر قابلية للتفسير والتفسير.

المراجع:

  1. Belinkov، Y. and Glass، J.، 2019. طرق التحليل في معالجة اللغة العصبية: مسح. معاملات جمعية اللغويات الحاسوبية ، 7 ، ص 49 - 72.
  2. Clark، K.، Khandelwal، U.، Levy، O. and Manning، CD، 2019. ما الذي ينظر إليه بيرت؟ تحليل اهتمام بيرت. arXiv preprint arXiv: 1906.04341
  3. Tenney، I.، Das، D. and Pavlick، E.، 2019. BERT يعيد اكتشاف خط أنابيب NLP الكلاسيكي. إصدار arXiv التمهيدي: arXiv: 1905.05950.
  4. Hewitt، J. and Liang، P.، 2019. تصميم وتفسير المجسات بمهام التحكم. إصدار arXiv التمهيدي: arXiv: 1909.03368.
  5. Hewitt، J. and Manning، CD، 2019، June. مسبار هيكلي لإيجاد بناء الجملة في تمثيلات الكلمات. في وقائع مؤتمر 2019 لفرع أمريكا الشمالية لجمعية اللغويات الحاسوبية: تقنيات اللغة البشرية ، المجلد 1 (أوراق طويلة وقصيرة) (ص 4129-4138).
  6. غولدبرغ ، واي ، 2019. تقييم القدرات النحوية لبيرت. طبع arXiv التمهيدي arXiv: 1901.05287.
  7. Hofmann، V.، Pierrehumbert، JB and Schütze، H.، 2020. إنشاء مورفولوجيا اشتقاقية باستخدام BERT. الإصدار التمهيدي لـ arXiv: 2005.00672.
  8. Coenen، A.، Reif، E.، Yuan، A.، Kim، B.، Pearce، A.، Viégas، F. and Wattenberg، M.، 2019. تصور وقياس هندسة بيرت. إصدار arXiv التمهيدي: arXiv: 1906.02715.
  9. Tenney، I.، Xia، P.، Chen، B.، Wang، A.، Poliak، A.، McCoy، RT، Kim، N.، Van Durme، B.، Bowman، SR، Das، D. and Pavlick ، E. ، 2019. ماذا تتعلم من السياق؟ التحقيق في بنية الجملة في تمثيل الكلمات السياقية. إصدار arXiv التمهيدي: arXiv: 1905.06316.
  10. Peters، ME، Neumann، M.، Zettlemoyer، L. and Yih، WT، 2018. تشريح الزخارف السياقية للكلمات: العمارة والتمثيل. الإصدار الأولي لـ arXiv: 1808.08949.
  11. Adi، Y.، Kermany، E.، Belinkov، Y.، Lavi، O. and Goldberg، Y.، 2016. تحليل دقيق لتضمينات الجملة باستخدام مهام التنبؤ المساعدة. طبع arXiv التمهيدي arXiv: 1608.04207.
  12. Stickland، AC and Murray، I.، 2019. Bert and pals: طبقات الانتباه المتوقعة للتكيف الفعال في التعلم متعدد المهام. arXiv preprint arXiv: 1902.02671.
  13. Zhou، J.، Zhang، Z.، Zhao، H. and Zhang، S.، 2019. LIMIT-BERT: علم اللغة متعدد المهام بيرت. طبع arXiv التمهيدي arXiv: 1910.14296.
  14. جواهر ، ج. ، ساجوت ، ب.سدة ، د. ، 2019 ، يوليو. ماذا يتعلم بيرت عن بنية اللغة ؟.
  15. Lin ، Y. ، Tan ، YC and Frank ، R. ، 2019. افتح يا سمسم: التعرف على المعرفة اللغوية لـ BERT. إصدار arXiv التمهيدي: arXiv: 1906.01698.
  16. كومار ، أ. ، أهوجا ، ك. ، فادابالي ، آر وتالوكدار ، ب. ، 2020. جيل محكوم من إعادة الصياغة موجه نحو بناء الجملة. الإصدار التمهيدي لـ arXiv: 2005.08417.
  17. de Vries، W.، van Cranenburgh، A. and Nissim، M.، 2020. ما الذي يميز طبقات بيرت؟ نظرة فاحصة على خط أنابيب البرمجة اللغوية العصبية في نماذج أحادية اللغة ومتعددة اللغات. الإصدار التمهيدي لـ arXiv: 2004.06499.
  18. Ribeiro، MT، Wu، T.، Guestrin، C. and Singh، S.، 2020. ما وراء الدقة: الاختبار السلوكي لنماذج البرمجة اللغوية العصبية مع قائمة المراجعة. طبع arXiv التمهيدي arXiv: 2005.04118.
  19. Gaur، M.، Faldu، K. and Sheth، A.، 2020. دلالات الصندوق الأسود: هل يمكن أن تساعد الرسوم البيانية المعرفية في جعل أنظمة التعلم العميق أكثر قابلية للتفسير والتفسير ؟. الإصدار التمهيدي لـ arXiv: 2010.08660.

تم نشر هذه المقالة في الأصل نحو علم البيانات وإعادة النشر إلى TOPBOTS بإذن من المؤلف.

هل تستمتع بهذه المقالة؟ قم بالتسجيل للحصول على المزيد من تحديثات أبحاث الذكاء الاصطناعي.

سنخبرك عندما نصدر المزيد من التعليم التقني.

المصدر: https://www.topbots.com/linguistics-wisdom-of-nlp-models/

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة