شعار زيفيرنت

تعلم السلوك الهرمي وتخطيط الحركة للقيادة المستقلة. (arXiv: 2005.03863v1 [cs.RO])

التاريخ:

[مقدم في 8 مايو 2020]

تحميل PDF

المستخلص: حل القيادة القائم على التعلم ، وهو فرع جديد للقيادة المستقلة
من المتوقع أن يبسط نمذجة القيادة من خلال تعلم الأساسي
آليات من البيانات. لتحسين صنع القرار التكتيكي ل
حل القيادة القائم على التعلم ، نقدم السلوك والحركة الهرمية
التخطيط (HBMP) لنمذجة السلوك في الحل القائم على التعلم بشكل صريح.
نظرًا لمساحة العمل المقترنة بالسلوك والحركة ، فمن الصعب
حل مشكلة HBMP باستخدام التعلم المعزز (RL) للقيادة في الأفق الطويل
مهام. نقوم بتحويل مشكلة HBMP من خلال دمج القائم على أخذ العينات الكلاسيكية
مخطط الحركة ، والتي تعتبر التكلفة المثلى بمثابة مكافآت لها
تعلم سلوك عالي المستوى. ونتيجة لذلك ، تقلل هذه الصيغة من العمل
الفضاء وتنويع المكافآت دون أن تفقد مثالية HBMP. في
بالإضافة إلى ذلك ، نقترح تمثيلًا قابلًا للمشاركة لإدخال البيانات الحسية عبر
منصات محاكاة وبيئة العالم الحقيقي ، بحيث يتم تدريب النماذج في أ
محاكي سريع قائم على الأحداث ، SUMO ، يمكن استخدامه لتهيئة وتسريع
تدريب RL في جهاز محاكاة قائم على الديناميات ، CARLA. نتائج تجريبية
إثبات فعالية الطريقة. الى جانب ذلك ، النموذج بنجاح
نقل إلى العالم الحقيقي ، والتحقق من قدرة التعميم.

تاريخ التقديم

من: Jingke Wang [عرض البريد الإلكتروني]
[v1]
الجمعة ، 8 مايو 2020 05:34:55 UTC (6,978 كيلوبايت)

المصدر: http://arxiv.org/abs/2005.03863

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة