شعار زيفيرنت

الممثل الناقد القائم على النموذج: GAN + DRL (الممثل الفاعل) => AGI. (arXiv: 2004.04574v1 [cs.AI])

التاريخ:

(تم التقديم في 4 أبريل 2020)

المستخلص: جهدنا هو توحيد خوارزميات GAN و DRL في نموذج AI موحد
(الذكاء الاصطناعي العام أو الذكاء الاصطناعي للأغراض العامة أو الذكاء الاصطناعي العام الذي يمتلك
تطبيقات الأغراض العامة إلى: (أ) التعلم دون اتصال (للبيانات المخزنة) مثل GAN
في إعداد SL (un / شبه- / بالكامل) مثل تحليلات البيانات الضخمة (التعدين) و
التصور. (ب) التعلم عبر الإنترنت (للأجهزة الحقيقية أو المحاكية) مثل DRL في
إعداد RL (مع / خارج مكافأة البيئة) مثل الروبوتات (الحقيقية أو المحاكاة)
والسيطرة؛ اقتراحنا الأساسي هو إضافة بيئة (توليد / تنبؤية)
نموذج للممثل الناقد (بدون نموذج) معماري ينتج عنه أ
بنية الممثل-الناقد القائمة على النموذج مع خطأ التباين الزمني (TD) و
ذاكرة عرضية. نموذج AI المقترح مشابه لـ DDPG (الخالي من النماذج) و
لذلك يطلق عليه DDPG المستند إلى النموذج. لتقييمها ، نقارنها بـ
(بدون نموذج) DDPG من خلال تطبيقها على مجموعة متنوعة (نطاق واسع) من
بيئات المهام الآلية والتحكم المستقلة المحاكاة في OpenAI Gym و
وكلاء الوحدة. تُظهر تجاربنا الأولية المحدودة أن DRL و GAN بتنسيق
الممثل الناقد القائم على النموذج ينتج عنه زيادة في الذكاء يحركها الهدف
مطلوب لحل كل مهمة بأداء مشابه لـ DDPG (بدون نموذج). لنا
ينصب التركيز المستقبلي على استكشاف إمكانات نموذج الذكاء الاصطناعي المقترح من أجل: (أ) التوحيد
DRL داخل الذكاء الاصطناعي من خلال إنتاج أداء تنافسي مقارنة بالأفضل
النهج القائم على النموذج (PlaNet) والخالي من النماذج (D4PG) ؛ (ب) سد الفجوة
بين مجتمعات الذكاء الاصطناعي والروبوتات من خلال حل مشكلة المكافأة المهمة
الهندسة مع تعلم وظيفة المكافأة من خلال العرض ؛

تاريخ التقديم

من: أراس دارجازاني [عرض البريد الإلكتروني]
[v1]
السبت ، 4 أبريل 2020 ، 02:05:54 UTC (1,336 كيلوبايت)

المصدر: http://arxiv.org/abs/2004.04574

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة