تعلم السلوك الهرمي وتخطيط الحركة للقيادة الذاتية. (arXiv: 2005.03863v1 [cs.RO])

[مقدم في 8 مايو 2020]

المستخلص: حل القيادة القائم على التعلم ، وهو فرع جديد للقيادة المستقلة
من المتوقع أن يبسط نمذجة القيادة من خلال تعلم الأساسي
آليات من البيانات. لتحسين صنع القرار التكتيكي ل
حل القيادة القائم على التعلم ، نقدم السلوك والحركة الهرمية
التخطيط (HBMP) لنمذجة السلوك في الحل القائم على التعلم بشكل صريح.
نظرًا لمساحة العمل المقترنة بالسلوك والحركة ، فمن الصعب
حل مشكلة HBMP باستخدام التعلم المعزز (RL) للقيادة في الأفق الطويل
مهام. نقوم بتحويل مشكلة HBMP من خلال دمج القائم على أخذ العينات الكلاسيكية
مخطط الحركة ، والتي تعتبر التكلفة المثلى بمثابة مكافآت لها
تعلم سلوك عالي المستوى. ونتيجة لذلك ، تقلل هذه الصيغة من العمل
الفضاء وتنويع المكافآت دون أن تفقد مثالية HBMP. في
بالإضافة إلى ذلك ، نقترح تمثيلًا قابلًا للمشاركة لإدخال البيانات الحسية عبر
منصات محاكاة وبيئة العالم الحقيقي ، بحيث يتم تدريب النماذج في أ
محاكي سريع قائم على الأحداث ، SUMO ، يمكن استخدامه لتهيئة وتسريع
تدريب RL في جهاز محاكاة قائم على الديناميات ، CARLA. نتائج تجريبية
إثبات فعالية الطريقة. الى جانب ذلك ، النموذج بنجاح
نقل إلى العالم الحقيقي ، والتحقق من قدرة التعميم.

تاريخ التقديم

من: Jingke Wang [عرض البريد الإلكتروني]
[v1]
الجمعة ، 8 مايو 2020 05:34:55 UTC (6,978 كيلوبايت)

المصدر: http://arxiv.org/abs/2005.03863

ذكاء البيانات التوليدية

تعلم السلوك الهرمي وتخطيط الحركة للقيادة المستقلة. (arXiv: 2005.03863v1 [cs.RO])

تاريخ التقديم

🔴تأخر صناديق الاستثمار المتداولة في الإيثريوم | هذا الأسبوع في العملات المشفرة – 11 مارس 2024

7 أفضل عملات Meme التي يمكنك شراؤها الآن – ما هي عملة SHIBA INU التالية؟

أحدث المعلومات الاستخباراتية

منصة الأخبار والنشر العالمية Gnomi تطلق برنامج الصحافة المدفوعة

9.25 مليون دولار أمريكي من الاستثمارات المخصصة للشركات الناشئة خلال كأس العالم للتكنولوجيا المالية في قمة دبي للتكنولوجيا المالية

مستقبل الألعاب: أحدث الاتجاهات والابتكارات

ويسعى البنتاغون إلى توسيع صلاحيات العمليات الخاصة للدول الصديقة

انطلق Google DeepMind في رحلة مذهلة عبر متاهات أدمغتنا

قد تقوم Apple بنشر شرائح M2 Ultra على الخوادم السحابية