شعار زيفيرنت

أطلق Facebook أحد أصعب تحديات التعلم المعزز في التاريخ

التاريخ:

أطلق Facebook أحد أصعب تحديات التعلم المعزز في التاريخ

أطلق فريق FAIR للتو تحدي NetHack كجزء من مسابقة NeurIPS 2021 القادمة. الهدف هو اختبار أفكار RL الجديدة باستخدام واحدة من أصعب بيئات الألعاب في العالم.




حقوق الصورة: Facebook Research

 

بدأت مؤخرًا رسالة إخبارية جديدة تركز على تعليم الذكاء الاصطناعي و لديها بالفعل أكثر من 50,000 مشترك. TheSequence هي رسالة إخبارية تركز على الذكاء الاصطناعي وتستغرق 5 دقائق لقراءتها (بمعنى عدم وجود ضجة أو أخبار وما إلى ذلك). الهدف هو إبقائك على اطلاع دائم بمشاريع التعلم الآلي والأوراق البحثية والمفاهيم. يرجى المحاولة بالاشتراك أدناه:

صورة

كان التعلم المعزز (RL) في قلب بعض الإنجازات الأكثر إثارة للإعجاب في مجال الذكاء الاصطناعي (AI) في العقد الماضي. من AlphaGo الشهير لـ DeepMind إلى المعالم في ألعاب مثل StarCraft II أو Dota 2 أو Minecraft ، تظل RL واحدة من أسرع المجالات نموًا في مجال التعلم العميق. على الرغم من كل النجاحات التي حققتها ، يعتقد Facebook AI Research (FAIR) أنه يجب دفع RL إلى مستويات جديدة ، ولهذا السبب ، فإنهم يوجهون انتباههم إلى لعبة جديدة: NetHack.

أطلق فريق FAIR للتو تحدي NetHack كجزء من المستقبل مسابقة NeurIPS 2021. الهدف هو اختبار أفكار RL الجديدة باستخدام واحدة من أصعب بيئات الألعاب في العالم.

NetHack و RL

 
NetHack هي لعبة زنزانة تقليدية كانت قيد التطوير منذ الثمانينيات ، ومن الصعب للغاية إتقانها للاعبين الجدد. لمرة واحدة ، الأخطاء في NetHack لها تكلفة غير متناسبة. بمجرد وفاة اللاعب ، تبدأ اللعبة من نقطة الصفر في زنزانة مختلفة تمامًا. لإكمال اللعبة بنجاح ، يحتاج اللاعب إلى تنفيذ حوالي 1980-25 مرة من الخطوات أكثر من StarCraft. بالإضافة إلى ذلك ، فإن حل العديد من المشكلات في NetHack يتطلب إبداعًا واستشارة مصادر المعرفة الخارجية مما يؤدي إلى صعوبة بالغة في وضع نموذج من وجهة نظر استراتيجية.



حقوق الصورة: Facebook Research



حقوق الصورة: Facebook Research

 

من منظور RL ، يقدم NetHack مجموعة فريدة من التحديات:

  • لا يمكن للوكلاء إعادة تعيين البيئة ، لذا فإن طرق التحسين مثل Monte Carlo Tree Search غير مجدية في هذا النوع من الإعدادات.
  • الاستكشاف أكثر أهمية بالنظر إلى الاكتمال الجزئي للبيئة.
  • يتطلب التباين الكبير للتغيرات في البيئة تقنيات RL التكيفية بسرعة.

من بين أشياء أخرى ، يجب أن يجلب تحدي NetHack مجموعة جديدة من أساليب RL التي يمكن أن تعمل في بيئات شديدة التعقيد تكون فيها الأخطاء ذات تكلفة كبيرة. يجب أن يساعد هذا في تقدم البحث في مجالات مثل الملاحة أو العديد من البيئات الصناعية التي تشترك في بعض الخصائص الكلية مع NetHack. لا أطيق الانتظار لرؤية الموجة الأولى من الطلبات.

 
أصلي. تم إعادة النشر بإذن.

هذا الموضوع ذو علاقة بـ:

كوينسمارت. Beste Bitcoin-Börse في أوروبا
المصدر: https://www.kdnuggets.com/2021/06/facebook-launches-toughest-reinforcement-learning-challenges.html

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة

الدردشة معنا

أهلاً! كيف يمكنني مساعدك؟