شعار زيفيرنت

ICLR 2021: أوراق بحثية رئيسية

التاريخ:

أوراق بحثية ICLR 2021

هذا العام ، يُعقد المؤتمر الدولي لتمثيلات التعلم (ICLR) تقريبًا في الفترة من 3 مايو إلى 7 مايو. كالعادة ، إنه تجمع رئيسي للمهنيين الذين يبحثون في موضوعات التعلم العميق المختلفة مع تطبيقات في رؤية الكمبيوتر ، ومعالجة اللغة الطبيعية ، والتعرف على الكلام ، والروبوتات ، ومجالات أخرى. 

لمساعدتك على البقاء على دراية بأحدث الإنجازات البحثية للذكاء الاصطناعي ، قمنا بتلخيص بعض أوراق بحث ICLR 2021 التي حظيت بأكبر قدر من الاهتمام من مجتمع أبحاث الذكاء الاصطناعي.

إذا كنت ترغب في التخطي ، فإليك الأوراق التي عرضناها:

  1. صورة تساوي 16 × 16 كلمة: محولات للتعرف على الصور على نطاق واسع
  2. DETR القابل للتشوه: محولات قابلة للتشوه لاكتشاف الأشياء من طرف إلى طرف
  3. DeBERTa: فك تشفير BERT المحسن مع الانتباه المنفصل
  4. إعادة التفكير في الانتباه مع فناني الأداء
  5. إجابة الاستعلام المعقد باستخدام تنبؤات الارتباط العصبي
  6. شبكات هوبفيلد هي كل ما تحتاجه

إذا كان هذا المحتوى التعليمي التفصيلي مفيدًا لك ، اشترك في القائمة البريدية لأبحاث الذكاء الاصطناعي ليتم تنبيهنا عندما نصدر مادة جديدة.

أهم أوراق بحثية لـ ICLR 2021

1. صورة تساوي 16 × 16 كلمة: محولات للتعرف على الصور على نطاق واسعبقلم أليكسي دوسوفيتسكي ، ولوكاس باير ، وألكسندر كولسنيكوف ، وديرك فايسنبورن ، وشياوهوا تشاي ، وتوماس أونترثينير ، ومصطفى دهغاني ، وماتياس مينديرر ، وجورج هيغولد ، وسيلفان جيلي ، وجاكوب أوسكوريت ، ونيل هولسبي

الملخص الأصلي 

في حين أن بنية المحولات أصبحت المعيار الفعلي لمهام معالجة اللغة الطبيعية ، فإن تطبيقاتها على رؤية الكمبيوتر تظل محدودة. في الرؤية ، يتم تطبيق الانتباه إما بالاقتران مع الشبكات التلافيفية ، أو يستخدم لاستبدال مكونات معينة من الشبكات التلافيفية مع الحفاظ على هيكلها العام في مكانه. نوضح أن هذا الاعتماد على شبكات CNN ليس ضروريًا وأن المحول النقي يمكن أن يؤدي أداءً جيدًا للغاية في مهام تصنيف الصور عند تطبيقه مباشرة على تسلسلات تصحيحات الصور. عند تدريبه مسبقًا على كميات كبيرة من البيانات ونقلها إلى معايير التعرف المتعددة (ImageNet ، CIFAR-100 ، VTAB ، وما إلى ذلك) ، يحقق Vision Transformer نتائج ممتازة مقارنةً بأحدث الشبكات التلافيفية بينما يتطلب موارد حسابية أقل بكثير يتدرب.

ملخصنا 

يوضح مؤلفو هذه الورقة التي تم تقديمها بشكل مجهول إلى ICLR 2021 أن محولًا نقيًا يمكن أن يؤدي بشكل جيد جدًا في مهام تصنيف الصور. يقدمون محول الرؤية (ViT)، والتي يتم تطبيقها مباشرة على تسلسل تصحيحات الصور عن طريق القياس مع الرموز (الكلمات) في البرمجة اللغوية العصبية. عند تدريبه على مجموعات بيانات كبيرة من 14 مليون إلى 300 مليون صورة ، يقترب Vision Transformer أو يتفوق على أحدث النماذج المستندة إلى CNN في مهام التعرف على الصور. على وجه الخصوص ، تحقق دقة قدرها 88.36٪ على ImageNet و 90.77٪ على ImageNet-ReaL و 94.55٪ على CIFAR-100 و 77.16٪ على مجموعة VTAB المكونة من 19 مهمة.

محول بصري

ما هي الفكرة الأساسية لهذه الورقة؟

  • عند تطبيق هندسة المحولات على الصور ، يتابع المؤلفون بأكبر قدر ممكن تصميم الأصل محول مصممة من أجل البرمجة اللغوية العصبية.
  • يتضمن النهج المقدم المستند إلى المحولات لتصنيف الصور الخطوات التالية:
    • تقسيم الصور إلى بقع ثابتة الحجم ؛
    • تضمين كل منهم خطيًا ؛
    • إضافة زخارف الموقع إلى التسلسل الناتج من النواقل ؛
    • تغذية الرقع إلى مشفر محول قياسي ؛
    • إضافة "رمز مميز للتصنيف" قابل للتعلم إلى التسلسل.
  • على غرار المحولات في البرمجة اللغوية العصبية ، عادةً ما يتم تدريب Vision Transformer مسبقًا على مجموعات البيانات الكبيرة ويتم ضبطه على المهام النهائية.

ما هو الإنجاز الرئيسي؟

  • تم تدريب Vision Transformer مسبقًا على مجموعة بيانات JFT300M أو تتفوق على خطوط الأساس المستندة إلى ResNet بينما تتطلب موارد حسابية أقل للتدريب المسبق. يحقق دقة:
    • 88.36٪ على ImageNet ؛ 
    • 90.77٪ على ImageNet-ReaL ؛ 
    • 94.55٪ على CIFAR-100 ؛ 
    • 97.56٪ على Oxford-IIIT الحيوانات الأليفة ؛
    • 99.74٪ على أكسفورد فلاورز -102 ؛
    • 77.16٪ على مجموعة VTAB المكونة من 19 مهمة.
محول بصري

ما رأي مجتمع الذكاء الاصطناعي؟

  • تتجه الورقة البحثية في مجتمع أبحاث الذكاء الاصطناعي ، كما يتضح من احصائيات المستودع على جيثب.
  • تم قبوله أيضًا للعرض الشفوي في ICLR 2021 ، أحد المؤتمرات الرئيسية في التعلم العميق.

ما هي مجالات البحث المستقبلية؟

  • تطبيق Vision Transformer على مهام رؤية الكمبيوتر الأخرى ، مثل الكشف والتجزئة.
  • استكشاف طرق التدريب المسبق تحت الإشراف الذاتي.
  • تحليل الخصائص ذات اللقطات القليلة لمحول الرؤية.
  • استكشاف التدريب المسبق التباين.
  • توسيع نطاق ViT.

ما هي تطبيقات الأعمال الممكنة؟

  • بفضل التدريب المسبق الفعال والأداء العالي ، قد تحل المحولات محل الشبكات التلافيفية في العديد من تطبيقات رؤية الكمبيوتر ، بما في ذلك الملاحة والتفتيش التلقائي والمراقبة البصرية.

من أين تحصل على رمز التنفيذ؟

  • يتوفر تطبيق PyTorch لـ Vision Transformer على GitHub جيثب:.

2. DETR القابل للتشوه: محولات قابلة للتشوه لاكتشاف الأشياء من طرف إلى طرفبواسطة Xizhou Zhu و Weijie Su و Lewei Lu و Bin Li و Xiaogang Wang و Jifeng Dai

الملخص الأصلي 

تم اقتراح DETR مؤخرًا للتخلص من الحاجة إلى العديد من المكونات المصممة يدويًا في اكتشاف الكائنات مع إظهار الأداء الجيد. ومع ذلك ، فهي تعاني من التقارب البطيء والدقة المكانية المحدودة للميزات ، بسبب محدودية وحدات انتباه المحولات في معالجة خرائط ميزات الصور. للتخفيف من هذه المشكلات ، اقترحنا Deformable DETR ، الذي لا تهتم وحدات الانتباه الخاصة به إلا بمجموعة صغيرة من نقاط أخذ العينات الرئيسية حول مرجع. يمكن لـ DETR القابل للتشوه تحقيق أداء أفضل من DETR (خاصة على الأشياء الصغيرة) مع فترات تدريب أقل بعشر مرات. تُظهر التجارب المكثفة على معيار COCO فعالية نهجنا. تم تحرير الرمز في https://github.com/fundamentalvision/Deformable-DETR.

ملخصنا 

يقترح المؤلفون Deformable DETR ، وتحسين DETR (DEtection TRansformer) ، الذي تم نشره العام الماضي. تتمثل إحدى ميزات DETR في أنه يلغي المكونات المصنوعة يدويًا مثل إنشاء المرساة والقمع غير الأقصى (NMS) ، من بين أمور أخرى ، وبالتالي يقلل من عدد المعلمات الفائقة ويقلل من كثافة الحساب. ومع ذلك ، تشتهر DETR بتقارب أبطأ وأداء ضعيف على الأشياء الصغيرة. في المقابل ، فإن تشوه DETR اقترح المؤلفون التخفيف من هاتين المشكلتين باستخدام وحدة الانتباه القابلة للتشوه لمعالجة خرائط الميزات متعددة المقاييس. تسهل وحدة الانتباه القابلة للتشوه التقارب الأسرع وتقلل من التعقيد التربيعي لوحدة الانتباه القياسية إلى التعقيد الخطي. تمكّن وحدة الانتباه ذات التعقيد الخطي Deformable DETR من معالجة خرائط الميزات متعددة المقاييس ، مما يحسن أدائها في اكتشاف الكائنات الصغيرة. تظهر التجارب على معيار COCO أن Deformable DETR يحقق أداء أفضل (خاصة على الأشياء الصغيرة) مع فترات تدريب أقل بمقدار 10 مرات.

تشوه DETR

ما هي الفكرة الأساسية لهذه الورقة؟

  • وحدة الانتباه القابلة للتشوه: تحسب وحدة الانتباه القياسية انتباه الميزات في جميع المواقع المكانية الممكنة لجميع المواقع المكانية الممكنة. بدلاً من ذلك ، يقترح المؤلفون أ وحدة الانتباه القابلة للتشوه لمعالجة خرائط الميزات متعددة المقاييس. إنه مستوحى من الالتواء القابل للتشوه ولا يحضر إلا إلى مجموعة صغيرة من المواقع حول نقطة مرجعية. عدد النقاط المرجعية K هي معلمة تشعبية ، وهي أصغر بكثير من جميع المواقع المكانية الممكنة. 
  • تنقيح الصندوق المحيط التكراري: في DETR الأصلي ، تخرج آخر طبقة وحدة فك ترميز المربعات المحيطة. ولكن في DETR القابلة للتشوه ، تقوم كل طبقة وحدة فك ترميز بإخراج تقديرات الصندوق المحيط وتقوم كل طبقة بتنقية التنبؤات من الطبقة السابقة. هذا يسمي صقل مربع الإحاطة التكراري ، تم تطويره لأول مرة لتقدير التدفق البصري.
  • ثنائي المرحلة تشوه DETR: في DETR الأصلي ، عند التنبؤ بالمربعات المحيطة في وحدة فك ترميز DETR ، تتم تهيئة استعلامات الكائنات بشكل عشوائي ولا تكون ذات صلة بالصورة الحالية. مستوحاة من أجهزة الكشف عن الأجسام ذات المرحلتين مثل Faster R-CNN ، يقدم المؤلفون متغيرًا من Deformable DETR يولد مقترحات المنطقة كمرحلة أولى. تشتمل المرحلة الثانية على تغذية مقترحات المنطقة التي حصلت على أعلى الدرجات كاستعلامات كائن إلى وحدة فك التشفير. 
تشوه DETR

ما هو الإنجاز الرئيسي؟

  • يحقق DETR القابل للتشوه أداءً أفضل مقارنةً بـ DETR الأصلي و R-CNN الأسرع مع FPN مع فترات تدريب أقل بمقدار 10 مرات و 2 × فترات تدريب أقل على التوالي.
  • يعمل DETR القابل للتشوه بشكل تنافسي مع أحدث الأساليب على مجموعة مطوري الاختبار COCO 2017.

ما رأي مجتمع الذكاء الاصطناعي؟

  • تم قبول الورقة للعرض الشفوي في ICLR 2021 ، أحد المؤتمرات الرئيسية في التعلم العميق.

ما هي مجالات البحث المستقبلية؟

  • تصميم نماذج أكثر كفاءة لاكتشاف الأشياء من طرف إلى طرف: إطارات الاستدلال في الثانية (FPS) للطريقة المقترحة هي 19 بينما تبلغ FPS لـ Faster R-CNN + FPN 26 (الأعلى هو الأفضل).

ما هي تطبيقات الأعمال الممكنة؟

  • تُستخدم نماذج اكتشاف الأشياء مثل DETR القابلة للتشوه لاكتشاف الأشخاص ، واكتشاف العيوب في مجال التصنيع ، ولوحدة الإدراك للسيارات ذاتية القيادة.

من أين تحصل على رمز التنفيذ؟

3. DeBERTa: فك تشفير BERT المحسن مع الانتباه المنفصلبواسطة Pengcheng He و Xiaodong Liu و Jianfeng Gao و Weizhu Chen

الملخص الأصلي 

أدى التقدم الأخير في نماذج اللغة العصبية المدربة مسبقًا إلى تحسين أداء العديد من مهام معالجة اللغة الطبيعية (NLP) بشكل ملحوظ. في هذه الورقة ، نقترح نموذجًا جديدًا لهندسة معمارية DeBERTa (فك التشفير المحسن BERT باهتمام منفصل) يعمل على تحسين نماذج BERT و RoBERTa باستخدام تقنيتين جديدتين. الأول هو آلية الانتباه غير المتشابكة ، حيث يتم تمثيل كل كلمة باستخدام متجهين يشفران محتواها وموقعها ، على التوالي ، ويتم حساب أوزان الانتباه بين الكلمات باستخدام المصفوفات غير المتشابكة على محتوياتها والمواضع النسبية ، على التوالي. ثانيًا ، يتم استخدام مفكك تشفير القناع المحسن لدمج المواضع المطلقة في طبقة فك التشفير للتنبؤ بالرموز المميزة المقنعة في التدريب المسبق للنموذج. بالإضافة إلى ذلك ، يتم استخدام طريقة تدريب افتراضية جديدة للخصم من أجل الضبط الدقيق لتحسين تعميم النماذج. نظهر أن هذه التقنيات تحسن بشكل كبير من كفاءة التدريب المسبق للنموذج وأداء مهام فهم اللغة الطبيعية (NLU) وتوليد اللغة الطبيعية (NLG). مقارنةً بـ RoBERTa-Large ، فإن نموذج DeBERTa الذي تم تدريبه على نصف بيانات التدريب يؤدي بشكل أفضل باستمرار في مجموعة واسعة من مهام البرمجة اللغوية العصبية ، ويحقق تحسينات على MNLI بنسبة + 0.9٪ (90.2٪ مقابل 91.1٪) ، على SQuAD v2.0 بواسطة + 2.3٪ (88.4٪ مقابل 90.7٪) و RACE بنسبة + 3.6٪ (83.2٪ مقابل 86.8٪). والجدير بالذكر أننا قمنا بتوسيع نطاق DeBERTa من خلال تدريب إصدار أكبر يتكون من 48 طبقة تحويل مع 1.5 مليار معلمة. إن التعزيز الكبير في الأداء يجعل طراز DeBERTa الفردي يفوق الأداء البشري في معيار SuperGLUE (Wang et al. ، 2019a) لأول مرة من حيث متوسط ​​الدرجات الكلي (89.9 مقابل 89.8) ، ويوجد طراز DeBERTa على قمة لوحة صدارة SuperGLUE اعتبارًا من 6 يناير 2021 ، متفوقة على خط الأساس البشري بهامش لائق (90.3 مقابل 89.8).

ملخصنا 

يقترح المؤلفون من Microsoft Research DeBERTa ، مع اثنين من التحسينات الرئيسية على BERT ، وهما الانتباه المنفصل و فك قناع محسن. يحتوي DeBERTa على متجهين يمثلان رمزًا / كلمة عن طريق ترميز المحتوى والموضع النسبي على التوالي. تعالج آلية الانتباه الذاتي في DeBERTa الانتباه الذاتي للمحتوى إلى المحتوى ، والمحتوى إلى الموضع ، وأيضًا من الموضع إلى المحتوى ، في حين أن الانتباه الذاتي في BERT يعادل امتلاك المكونين الأولين فقط. يفترض المؤلفون أن الانتباه الذاتي من موقع إلى محتوى ضروري أيضًا لنمذجة المواقف النسبية بشكل شامل في سلسلة من الرموز. علاوة على ذلك ، تم تجهيز DeBERTa بجهاز فك تشفير القناع المحسن ، حيث يتم أيضًا إعطاء الموضع المطلق للرمز / الكلمة إلى مفكك التشفير جنبًا إلى جنب مع المعلومات النسبية. يتفوق متغير واحد موسع من DeBERTa على خط الأساس البشري في معيار SuperGLUE للمرة الأولى. تعتبر مجموعة DeBERTa الطريقة الأفضل أداءً في SuperGLUE في وقت نشر هذا المنشور.

ما هي الفكرة الأساسية لهذه الورقة؟

  • فك التشابك الانتباه: في BERT الأصلي ، تتم إضافة تضمين المحتوى ودمج الموضع قبل الاهتمام الذاتي ويتم تطبيق الاهتمام الذاتي فقط على إخراج المحتوى ومتجهات الموضع. يفترض المؤلفون أن هذا لا يراعي سوى الاهتمام الذاتي من المحتوى إلى المحتوى والانتباه الذاتي من المحتوى إلى موضع الاهتمام وأننا نحتاج إلى الانتباه الذاتي من موقع إلى محتوى وكذلك لنمذجة معلومات الموقع تمامًا. يحتوي DeBERTa على متجهين منفصلين يمثلان المحتوى والموضع ويتم حساب الاهتمام الذاتي بين جميع الأزواج الممكنة ، أي المحتوى إلى المحتوى والمحتوى إلى الموضع والموضع إلى المحتوى والموضع إلى الموضع. الانتباه الذاتي من الموضع إلى الموضع هو أمر تافه 1 طوال الوقت وليس لديه معلومات ، لذلك لا يتم حسابه. 
  • فك قناع محسن: يفترض المؤلفون أن النموذج يحتاج إلى معلومات موقع مطلقة لفهم الفروق الدقيقة النحوية مثل توصيف الموضوع والكائن. لذلك ، يتم تزويد DeBERTa بمعلومات الموقع المطلقة جنبًا إلى جنب مع معلومات الموقع النسبية. يتم توفير تضمين الموضع المطلق إلى آخر طبقة من وحدات فك التشفير قبل طبقة softmax مباشرةً ، والتي تعطي الإخراج.
ديبيرتا
  • صقل ثابت النطاق: خوارزمية تدريب عدائية افتراضية تسمى صقل ثابت الحجم يستخدم كطريقة تنظيم لزيادة التعميم. إن كلمة حفلات الزفاف مضطربة إلى حد ما ويتم تدريبها على إنتاج نفس الناتج كما هو الحال في حفلات الزفاف غير المضطربة. يتم تطبيع متجهات تضمين الكلمة إلى نواقل عشوائية (حيث يكون مجموع العناصر في المتجه 1) لتكون ثابتة على عدد المعلمات في النموذج. 

ما هو الإنجاز الرئيسي؟

  • مقارنةً بأحدث أسلوب RoBERTa-Large الحالي ، فإن نموذج DeBERTA المدرب على نصف بيانات التدريب يحقق ما يلي:
    • تحسن بنسبة + 0.9٪ في الدقة على MNLI (91.1٪ مقابل 90.2٪) ،
    • تحسن بنسبة + 2.3٪ في الدقة على الإصدار 2.0 من SQuAD (90.7٪ مقابل 88.4٪) ،
    • تحسن بنسبة + 3.6٪ في الدقة على RACE (86.8٪ مقابل 83.2٪)
  • يتخطى متغير واحد مطور من DeBERTa خط الأساس البشري في معيار SuperGLUE للمرة الأولى (89.9 مقابل 89.8). تعتبر مجموعة DeBERTa الطريقة الأفضل أداءً على SuperGLUE في وقت هذا المنشور ، حيث تفوقت على خط الأساس البشري بهامش لائق (90.3 مقابل 89.8).

ما هي مجالات البحث المستقبلية؟

  • تحسين التدريب المسبق عن طريق تقديم معلومات مفيدة أخرى ، بالإضافة إلى المواضع ، باستخدام إطار فك ترميز القناع المحسن (EMD).
  • دراسة أكثر شمولاً للضبط الدقيق غير المتغير (SiFT).

ما هي تطبيقات الأعمال الممكنة؟

  • يمكن استخدام التمثيلات السياقية لنمذجة اللغة المدربة مسبقًا في البحث ، والإجابة على الأسئلة ، والتلخيص ، والمساعدين الظاهريين ، وروبوتات المحادثة ، من بين مهام أخرى.

من أين تحصل على رمز التنفيذ؟

4. إعادة التفكير في الانتباه مع فناني الأداءبقلم كرزيستوف تشورومانسكي ، وفاليري ليكوشيرستوف ، وديفيد دوهان ، وشينغيو سونغ ، وأندريا جين ، وتاماس سارلوس ، وبيتر هوكينز ، وجاريد ديفيس ، وأفروز محي الدين ، ولوكاش كايزر ، وديفيد بيلانجر ، ولوسي كولويل ، وأدريان ويلر

الملخص الأصلي 

نقدم بنيات Performers و Transformer التي يمكنها تقدير المحولات المنتظمة (softmax) ذات الاهتمام الكامل بدقة يمكن إثباتها ، ولكن باستخدام تعقيد المكان والزمان الخطي فقط (على عكس التربيعي) ، دون الاعتماد على أي مقدمات مثل التباين أو الرتبة المنخفضة . لتقريب نواة softmax للانتباه ، يستخدم فناني الأداء أسلوبًا جديدًا للانتباه السريع عبر نهج الميزات العشوائية المتعامدة الإيجابية (FAVOR +) ، والذي قد يكون ذا أهمية مستقلة لطرق kernel القابلة للتطوير. يمكن أيضًا استخدام FAVOR + لنمذجة آليات الانتباه القابلة للتحويل بشكل فعال إلى ما وراء softmax. هذه القوة التمثيلية ضرورية لمقارنة softmax بدقة بنواة أخرى لأول مرة في المهام واسعة النطاق ، بعيدًا عن متناول المحولات العادية ، والتحقيق في نواة الانتباه المثلى. فنانو الأداء عبارة عن معماريات خطية متوافقة تمامًا مع المحولات العادية ومع ضمانات نظرية قوية: تقدير غير متحيز أو شبه منحاز لمصفوفة الانتباه ، وتقارب موحد وتباين منخفض في التقدير. اختبرنا المؤدين على مجموعة غنية من المهام التي تمتد من التنبؤ بالبكسل من خلال النماذج النصية إلى نمذجة تسلسل البروتين. لقد أظهرنا نتائج تنافسية مع طرق الانتباه الأخرى التي تم فحصها والتي تم اختبارها بشكل قليل ومكثف ، حيث نعرض فعالية نموذج تعلم الانتباه الجديد الذي استفاد منه فناني الأداء.

ملخصنا 

يقترح المؤلفون من Google و DeepMind بنية محول فعالة تسمى مؤد. تحتوي وحدة الانتباه في بنية المحولات القياسية على مساحة تربيعية وتعقيد زمني ، مما يجعلها غير فعالة لتوسيع نطاق المدخلات طويلة التسلسل. تعتمد معظم التقنيات الحالية لوحدات الانتباه الفعالة على افتراض التباين ، والذي يجب التحقق منه تجريبياً عن طريق التجربة والخطأ. التقنيات المتبقية أقل قابلية للتطبيق على المهام ذات المدخلات طويلة التسلسل بسبب ضعف أدائها في معالجة التسلسلات الطويلة. من ناحية أخرى ، لا يعتمد Performer على أي افتراضات مثل التباين أو الرتبة المنخفضة ويمكن إثبات الدقة في تقريب قيم انتباه softmax. يستخدم Performer طريقة kernel قابلة للتطوير تسمى الانتباه السريع عبر نهج الميزات العشوائية المتعامدة الإيجابية (FAVOR +). يمكن تطبيق هذه الطريقة لنمذجة آليات الانتباه الأخرى القابلة للنواة بشكل فعال بخلاف softmax وتقدم إطارًا لمقارنة بدائل softmax. يُظهر Performer نتائج تنافسية مقارنة بأساليب الانتباه المتفرقة والمكثفة الأخرى الفعالة في مجموعة غنية من المهام تتراوح من التنبؤ بالبكسل إلى النماذج النصية إلى نمذجة تسلسل البروتين.

ICRL 2021 - المؤدون

ما هي الفكرة الأساسية لهذه الورقة؟

  • اقترح المؤلفون طريقة نواة قابلة للتطوير ، المفضلة + ، على ما يلي:
    • يقترب من أوزان الانتباه القياسية دون أي افتراضات حول التباين وانخفاض الرتبة ؛
    • يوفر ضمانات نظرية قوية مثل التقدير غير المتحيز أو شبه المنحاز لمصفوفة الانتباه ، والتقارب المنتظم ، والتباين الأقل في التقريب ؛
    • تمكن softmax من المقارنة بدقة بآليات الانتباه الأخرى القابلة للنواة والتي تتجاوز بنية المحولات القياسية ؛
    • يمكن دمجها مع أفكار للمحولات الفعالة مثل الطبقات القابلة للعكس أو الانتباه القائم على الكتلة.

ما هو الإنجاز الرئيسي؟

  • ثبت بشكل تجريبي أن المؤدي يمكن أن يكون 2x أسرع من المصلح ، أفضل معماريات المحولات الفعالة الحالية.

ما رأي مجتمع الذكاء الاصطناعي؟

  • تم قبول الورقة للعرض الشفوي في ICLR 2021 ، أحد المؤتمرات الرئيسية في التعلم العميق.

ما هي مجالات البحث المستقبلية؟

  • استكشاف المزيد من آليات الانتباه الأمثل بمساعدة إطار عمل FAVOR + المقترح.

ما هي تطبيقات الأعمال الممكنة؟

  • يمكن استخدام بنية المحولات المقترحة في الترجمة الآلية ، والتحليل الدلالي ، ونمذجة تسلسل البروتين ، وإكمال الصورة ، من بين أمور أخرى.

من أين تحصل على رمز التنفيذ؟

5. إجابة الاستعلام المعقد باستخدام تنبؤات الارتباط العصبيبقلم إريك أراكليان ودانييل دازا وباسكوال مينيرفيني ومايكل كوشيز

الملخص الأصلي 

تعد تنبؤات الروابط العصبية مفيدة للغاية في تحديد الحواف المفقودة في الرسوم البيانية المعرفية واسعة النطاق. ومع ذلك ، لا يزال من غير الواضح كيفية استخدام هذه النماذج للإجابة على الاستفسارات الأكثر تعقيدًا التي تنشأ في عدد من المجالات ، مثل الاستعلامات باستخدام الاقترانات المنطقية (∧) والفواصل (∨) والمحددات الكمية الوجودية (∃) ، مع مراعاة المفقودين حواف. في هذا العمل ، نقترح إطارًا للإجابة بكفاءة على الاستفسارات المعقدة حول الرسوم البيانية المعرفية غير المكتملة. نترجم كل استعلام إلى هدف قابل للتفاضل من طرف إلى طرف ، حيث يتم حساب قيمة الحقيقة لكل ذرة بواسطة متنبئ ارتباط عصبي مدرب مسبقًا. ثم نقوم بتحليل حلين لمشكلة التحسين ، بما في ذلك البحث القائم على التدرج والبحث التوافقي. في تجاربنا ، ينتج عن النهج المقترح نتائج أكثر دقة من أحدث الأساليب - نماذج الصندوق الأسود العصبية المدربة على ملايين الاستعلامات التي تم إنشاؤها - دون الحاجة إلى التدريب على مجموعة كبيرة ومتنوعة من الاستعلامات المعقدة. باستخدام أوامر ذات بيانات تدريب أقل ، نحصل على تحسينات نسبية تتراوح من 8٪ إلى 40٪ في Hits @ 3 عبر الرسوم البيانية المعرفية المختلفة التي تحتوي على معلومات واقعية. أخيرًا ، نوضح أنه من الممكن شرح نتيجة نموذجنا من حيث الحلول الوسيطة المحددة لكل ذرة من ذرات الاستعلام المعقدة. جميع الكود المصدري ومجموعات البيانات لدينا متاحة online.

ملخصنا 

يقترح المؤلفون نهجًا للإجابة على الاستفسارات المعقدة حول المعرفة المخزنة في الرسم البياني للمعرفة (KG). KGs هي قواعد معرفة مبنية على الرسم البياني ، حيث يتم تخزين المعرفة حول العالم كعلاقات بين الكيانات. على الرغم من أن KGs هي تمثيل متعدد الاستخدامات للمعرفة المستخدمة في العديد من المهام النهائية ، إلا أن معظم رياض الأطفال في العالم الحقيقي غير مكتملة. من المحتمل أن تكون الروابط / الحواف بين الكيانات أو الكيانات نفسها مفقودة. كانت الإجابة على الاستفسارات المعقدة حول KGs غير المكتملة تحديًا. لمعالجة هذه المشكلة ، يقترح المؤلفون تقسيم استعلام معقد إلى سلسلة من الاستعلامات البسيطة ، والتي يمكن حلها عن طريق تنبؤات الارتباط العصبي التي تم اختبارها مسبقًا. يتم طرح المشكلة الكلية للإجابة على الاستعلام المعقد كتحسين مستمر (على سبيل المثال ، استخدام آدم) أو تحسين اندماجي للعثور على المتغيرات (الكيانات) التي تتطابق جيدًا مع الأجزاء الأخرى من الاستعلام المعقد. تعمل الطريقة المقترحة بشكل أفضل من نماذج الصندوق الأسود العصبية المدربة على مجموعة كبيرة جدًا ومتنوعة من الاستعلامات التي تم إنشاؤها.

ما هي الفكرة الأساسية لهذه الورقة؟

  • تتضمن الطريقة المقدمة الخطوات التالية:
    • يتم تحويل الاستعلام المنطقي الوجودي من الدرجة الأولى لأي تعقيد (تسلسل الخطوات المنطقية) إلى سلسلة من الذرات (استعلامات بخطوة منطقية واحدة) باستخدام معيار t و t-conorm.
    • تم تدريب متنبئ الارتباط العصبي ، كومبليكس ، على الإجابة على الاستفسارات المنطقية ذات الخطوة الواحدة.
    • يتم طرح الإجابة على الاستعلام المعقد كتعيين مثالي من متغير إلى كيان بعد تحديد المتغيرات في الاستعلام المعقد.
    • يتم تحقيق التخصيص الأمثل من متغير إلى كيان إما بالتحسين المستند إلى التدرج أو التحسين التجميعي.
    • يتم فحص الخطوات المنطقية الوسيطة لإمكانية الشرح وفهم أوجه القصور في النموذج.

ما هو الإنجاز الرئيسي؟

  • تنتج الطريقة المقترحة نتائج أكثر دقة من GQE و Q2B ، وهي أفضل الطرق الحالية للإجابة على استعلام معقد ، بينما تستخدم أوامر ذات حجم أقل من بيانات التدريب.
أفضل ورقة بحثية لـ ICLR 2021

ما رأي مجتمع الذكاء الاصطناعي؟

  • حصلت الورقة على جائزة الورق المتميز في ICLR 2021.

ما هي مجالات البحث المستقبلية؟

  • تحسين الطريقة المقترحة فيما يتعلق بمعالجة الاستعلامات التي تتجاوز منطق الدرجة الأولى.

ما هي تطبيقات الأعمال الممكنة؟

  • يمكن استخدام الإجابة على الاستفسارات المعقدة باستخدام الرسوم البيانية المعرفية (KGs) في تدقيق الحقائق واسترجاع المعلومات والإجابة على الأسئلة والتوصيات ، من بين مهام أخرى.

من أين تحصل على رمز التنفيذ؟

6. شبكات هوبفيلد هي كل ما تحتاجهبقلم هوبير رامساور ، برنارد شافل ، يوهانس لينر ، فيليب سيدل ، مايكل ويدريش ، توماس أدلر ، لوكاس غروبر ، ماركوس هولزلايتنر ، ميلينا بافلوفيتش ، جير كيتيل ساندفي ، فيكتور جريف ، ديفيد كريل ، مايكل كوب ، جونتر كلامباور ، جوهانس براندستيتير

الملخص الأصلي 

نقدم شبكة هوبفيلد الحديثة مع حالات مستمرة وقاعدة تحديث مقابلة. يمكن لشبكة Hopfield الجديدة تخزين العديد من الأنماط بشكل كبير (مع أبعاد الفضاء الترابطي) ، واسترداد النمط مع تحديث واحد ، ولديها أخطاء استرجاع صغيرة بشكل كبير. يحتوي على ثلاثة أنواع من الحدود الدنيا للطاقة (نقاط ثابتة للتحديث): (1) نقطة ثابتة عالمية متوسّطة على جميع الأنماط ، (2) حالات ثابتة متوسّطة عبر مجموعة فرعية من الأنماط ، (3) نقاط ثابتة تخزن نمطًا واحدًا. تكافئ قاعدة التحديث الجديدة آلية الانتباه المستخدمة في المحولات. يتيح هذا التكافؤ توصيف رؤوس نماذج المحولات. تعمل هذه الرؤوس في الطبقات الأولى ويفضل أن يكون متوسطًا عالميًا وفي الطبقات العليا يتم حساب المتوسط ​​الجزئي عبر الحالات الثابتة. يمكن دمج شبكة هوبفيلد الحديثة الجديدة في بنى التعلم العميق كطبقات للسماح بتخزين بيانات الإدخال الخام والوصول إليها أو النتائج الوسيطة أو النماذج الأولية المكتسبة. تتيح طبقات هوبفيلد هذه طرقًا جديدة للتعلم العميق ، تتجاوز الشبكات المتصلة بالكامل أو التلافيفية أو المتكررة ، وتوفر آليات التجميع والذاكرة والارتباط والانتباه. نثبت التطبيق الواسع لطبقات Hopfield عبر مختلف المجالات. قامت طبقات هوبفيلد بتحسين أحدث ما توصلت إليه التكنولوجيا في ثلاثة من كل أربعة مشاكل تعلم متعددة الحالات بالإضافة إلى تصنيف الذخيرة المناعية مع عدة مئات الآلاف من الحالات. في المجموعات المعيارية لـ UCI لمهام التصنيف الصغيرة ، حيث تكافح طرق التعلم العميق عادةً ، أسفرت طبقات Hopfield عن أحدث ما توصلت إليه التكنولوجيا عند مقارنتها بأساليب التعلم الآلي المختلفة. أخيرًا ، حققت طبقات هوبفيلد أحدث ما توصلت إليه التقنية في مجموعتي بيانات لتصميم الأدوية. التطبيق متاح في https://github.com/ml-jku/hopfield-layers.

ملخصنا 

يقدم المؤلفون شبكة هوبفيلد الحديثة ذات الحالات المستمرة وقاعدة تحديث مكافئة لآلية الانتباه في المحولات. في سياق هذا العمل ، تمثل شبكة Hopfield وظيفة طاقة تعطي الطاقة لكل نقطة بيانات ممكنة (مدخلات ومخرجات) وقاعدة تحديث تقوم بتغيير وظيفة الطاقة هذه بناءً على البيانات المرصودة بحيث تتقارب الشبكة إلى الحد الأدنى من الطاقة . مع الحالات المستمرة وقاعدة التحديث المكافئة لوحدات الانتباه ، يدعي المؤلفون أن شبكة هوبفيلد المقترحة ستكون إطارًا عامًا يمكن استخدامه كطبقة تجميع أو طبقة GRU أو LSTM وطبقة انتباه.

شبكات Hopfield المقترحة مستمرة وقابلة للتفاضل فيما يتعلق بمعلماتها ويمكن دمجها في أي بنية تعلم عميق كمكون. كإطار عام ، توفر شبكات Hopfield المقترحة آليات التجميع والذاكرة والترابط والانتباه ، والتي تمكنهم من تلخيص مجموعة من المتجهات ، وأداء أفضل في التعلم متعدد الحالات (MIL) ، واستخدام الذكريات الترابطية ، من بين قدرات أخرى. تضمنت النتائج التي حققتها الطرق المقترحة أداءً فائقًا على مجموعات بيانات متعددة من MIL وأداء أفضل من أساليب ML القياسية على مجموعات بيانات UCI.

ما هي الفكرة الأساسية لهذه الورقة؟

  • يقدم المؤلفون أنواعًا مختلفة من طبقات Hopfield لمهام مختلفة:
    • طبقة هوبفيلد: تأخذ هذه الطبقة مجموعتين من المتجهات وتعالج الارتباط بين هاتين المجموعتين. يمكن أن تحل هذه الطبقة محل وحدة الانتباه في بنية المحولات القياسية. مع هذه الإمكانية ، يمكن استخدام هذه الطبقة للتعلم من التسلسل إلى التسلسل أو أي عمليات على مجموعات النقاط (مجموعات من المتجهات).
    • طبقة هوبفيلد: تأخذ هذه الطبقة مجموعة من المتجهات وتنتج تلخيصًا لتلك المجموعة من المتجهات. تحتوي هذه الطبقة على قائمة من الاستعلامات حيث ينتج كل استعلام متجهًا كمخرج. هنا ، الاستعلام هو المفتاح ومجموعة المدخلات من المتجهات هي قيم في وحدة الانتباه. لذلك ، يمكن أن يكون ناتج هذه الطبقة متجهًا واحدًا أو مجموعة من المتجهات بناءً على عدد الاستعلامات في الطبقة. يمكن استخدام هذا النوع من الطبقات للتعلم متعدد المثيلات ، حيث يمكن أن ينتج ملخصًا عن n الحالات.
    • طبقة هوبفيلدلاير: تأخذ هذه الطبقة مجموعة من النواقل وتنتج مجموعة من النواقل. تحتوي الطبقة على مجموعة أخرى من النواقل في الذاكرة ، والتي يمكن أن تكون مجموعة ثابتة أو متجهات قابلة للتدريب. مجموعة النواقل الناتجة هي ناتج وحدة الانتباه ، حيث تعمل المتجهات في الذاكرة كمفاتيح ومجموعة المدخلات من النواقل تعمل كقيم. يمكن أن تقرب هذه الطبقة العامة آلات المتجهات الداعمة (SVMs) ، وأقرب جوار k ، والأساليب التي تتعلم تكميم المتجهات ، وطرق البحث عن النمط.

ما هو الإنجاز الرئيسي؟

  • شبكات هوبفيلد المقترحة:
    • أظهر أداءً فائقًا على مجموعات بيانات التعلم متعددة المثيلات مثل Tiger و Fox و Elephant و UCSB ؛
    • تفوقت على أساليب التعلم الآلي القياسية وأساليب التعلم العميق على مجموعات البيانات الجدولية UCI Benchmark Collection.

ما هي مجالات البحث المستقبلية؟

  • دراسة مزايا وقيود GRUs / LSTMs والمحولات والشبكات العصبية القائمة على الذاكرة وطبقات التجميع مقارنة بمكافئات شبكة Hopfield الخاصة بهم.

ما هي تطبيقات الأعمال الممكنة؟

  • يمكن إنشاء مثيل لشبكة Hopfield المقترحة في العديد من النماذج المختلفة حيث تتضمن التطبيقات استرجاع المعلومات ، وتصنيف التسلسل ، واكتشاف القيم المتطرفة أو الحالات الحدودية ، وتصميم الأدوية ، من بين مهام أخرى.

من أين تحصل على رمز التنفيذ؟

  • تنفيذ شبكات Hopfield المقترحة متاح على GitHub جيثب:.

هل تستمتع بهذه المقالة؟ قم بالتسجيل للحصول على المزيد من تحديثات أبحاث الذكاء الاصطناعي.

سنخبرك عندما نصدر المزيد من ملخصات البحث.

كوينسمارت. Beste Bitcoin-Börse في أوروبا
المصدر: https://www.topbots.com/iclr-2021-research-papers/

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة