شعار زيفيرنت

مسابقة التعلم المعزز تتخطى حدود الذكاء الاصطناعي المتجسد

التاريخ:

انضم إلى Transform 2021 في الفترة من 12 إلى 16 يوليو. سجل for حدث الذكاء الاصطناعي لهذا العام.


منذ العقود الأولى للذكاء الاصطناعي ، كانت الروبوتات شبيهة بالبشر عنصرًا أساسيًا في كتب الخيال العلمي والأفلام والرسوم المتحركة. ومع ذلك ، بعد عقود من البحث والتطوير في مجال الذكاء الاصطناعي ، لا يزال لدينا شيء يقترب منه ذا جيتسونز روزي الروبوت.

هذا لأن العديد من مهاراتنا الحركية والتخطيط البديهي - الأشياء التي نأخذها كأمر مسلم به - هي أكثر تعقيدًا مما نعتقد. يعد التنقل في مناطق غير معروفة ، والعثور على الأشياء والتقاطها ، واختيار المسارات ، ومهام التخطيط من الأعمال البطولية المعقدة التي لا نقدرها إلا عندما نحاول تحويلها إلى برامج كمبيوتر.

يقع تطوير الروبوتات التي يمكنها الإحساس بالعالم جسديًا والتفاعل مع بيئتها في عالم الذكاء الاصطناعي المتجسد ، وهو أحد الأهداف التي يسعى إليها علماء الذكاء الاصطناعي منذ فترة طويلة. وعلى الرغم من أن التقدم في هذا المجال لا يزال بعيدًا عن قدرات البشر والحيوانات ، إلا أن الإنجازات ملحوظة.

في تطور حديث في الذكاء الاصطناعي المتجسد ، طور العلماء في IBM ومعهد ماساتشوستس للتكنولوجيا وجامعة ستانفورد تحديًا جديدًا سيساعد في تقييم قدرة وكلاء الذكاء الاصطناعي على إيجاد المسارات والتفاعل مع الكائنات وتخطيط المهام بكفاءة. بعنوان تحدي النقل ثلاثي الأبعاد، الاختبار عبارة عن بيئة افتراضية سيتم تقديمها في ورشة عمل الذكاء الاصطناعي المجسدة خلال مؤتمر الرؤية الحاسوبية والتعرف على الأنماط ، الذي عقد عبر الإنترنت في يونيو.

لا توجد تقنيات حالية للذكاء الاصطناعي تقترب من حل تحدي النقل TDW. لكن نتائج المسابقة يمكن أن تساعد في الكشف عن اتجاهات جديدة لمستقبل أبحاث الذكاء الاصطناعي والروبوتات المجسدة.

التعلم المعزز في البيئات الافتراضية

في قلب معظم تطبيقات الروبوتات تعزيز التعلم، وهو فرع من التعلم الآلي يعتمد على الإجراءات والحالات والمكافآت. يتم إعطاء عامل التعلم المعزز مجموعة من الإجراءات التي يمكنه تطبيقها على بيئته للحصول على مكافآت أو الوصول إلى هدف معين. تخلق هذه الإجراءات تغييرات في حالة الوكيل والبيئة. يتلقى وكيل RL مكافآت بناءً على كيفية قيام أفعاله بتقريبه من هدفه.

يبدأ وكلاء RL عادةً بعدم معرفة أي شيء عن بيئتهم واختيار الإجراءات العشوائية. عندما يتلقون تدريجيًا تعليقات من بيئتهم ، يتعلمون تسلسل الإجراءات التي يمكن أن تزيد من مكافآتهم.

يستخدم هذا المخطط ليس فقط في الروبوتات ، ولكن في العديد من التطبيقات الأخرى ، مثل السيارات ذاتية القيادة و توصيات المحتوى. ساعد التعلم المعزز الباحثين أيضًا إتقان الألعاب المعقدة مثل Go و StarCraft 2 و DOTA.

يطرح إنشاء نماذج التعلم المعزز العديد من التحديات. أحدها هو تصميم المجموعة الصحيحة من الحالات والمكافآت والإجراءات ، والتي يمكن أن تكون صعبة للغاية في تطبيقات مثل الروبوتات ، حيث يواجه العملاء بيئة مستمرة تتأثر بعوامل معقدة مثل الجاذبية والرياح والتفاعلات الفيزيائية مع الكائنات الأخرى . هذا على عكس بيئات مثل الشطرنج وجو التي لديها حالات وأفعال منفصلة للغاية.

التحدي الآخر هو جمع بيانات التدريب. يحتاج وكلاء التعلم المعزز إلى التدريب باستخدام بيانات من ملايين حلقات التفاعلات مع بيئاتهم. يمكن أن يؤدي هذا القيد إلى إبطاء تطبيقات الروبوتات لأنه يجب عليهم جمع بياناتهم من العالم المادي ، على عكس ألعاب الفيديو وألعاب الطاولة ، والتي يمكن لعبها في تتابع سريع على العديد من أجهزة الكمبيوتر.

للتغلب على هذا الحاجز ، حاول باحثو الذكاء الاصطناعي إنشاء بيئات محاكاة لتطبيقات التعلم المعزز. اليوم ، غالبًا ما تستخدم السيارات والروبوتات ذاتية القيادة بيئات محاكاة كجزء رئيسي من نظام التدريب الخاص بهم.

قال تشوانج جان ، عضو فريق البحث الرئيسي في MIT-IBM Watson AI Lab ، لـ TechTalks: "قد تكون نماذج التدريب التي تستخدم روبوتات حقيقية باهظة الثمن وفي بعض الأحيان تتضمن اعتبارات تتعلق بالسلامة". ونتيجة لذلك ، كان هناك اتجاه نحو دمج أجهزة المحاكاة ، مثل ما يوفره تحدي TDW-Transport ، لتدريب وتقييم خوارزميات الذكاء الاصطناعي. "

لكن تكرار الديناميكيات الدقيقة للعالم المادي أمر صعب للغاية ، ومعظم البيئات المحاكاة هي تقريب تقريبي لما قد يواجهه عامل التعلم المعزز في العالم الحقيقي. لمعالجة هذا القيد ، بذل فريق TDW Transport Challenge جهودًا كبيرة لجعل بيئة الاختبار واقعية قدر الإمكان.

تم بناء البيئة على قمة منصة ThreeDWorld، والتي وصفها المؤلفون بأنها "منصة محاكاة للعالم الافتراضي للأغراض العامة تدعم كلاً من عرض الصورة الواقعية بالقرب من الصورة ، وتقديم الصوت القائم على أساس مادي ، والتفاعلات المادية الواقعية بين الكائنات والوكلاء."

كتب الباحثون: "كنا نهدف إلى استخدام محاكي بيئة افتراضية فعلية أكثر تقدمًا لتحديد مهمة جديدة للذكاء الاصطناعي تتطلب وجود وكيل لتغيير حالات كائنات متعددة في ظل قيود مادية واقعية" ورقة مصاحبة.

تخطيط المهام والحركة

اختبارات التعلم المعزز لها درجات مختلفة من الصعوبة. تتضمن معظم الاختبارات الحالية مهام التنقل ، حيث يجب على وكيل RL أن يجد طريقه عبر بيئة افتراضية تعتمد على الإدخال المرئي والصوتي.

من ناحية أخرى ، يضع تحدي النقل TDW عوامل التعلم المعزز ضد مشاكل "تخطيط المهام والحركة" (TAMP). يتطلب TAMP من الوكيل ليس فقط العثور على مسارات الحركة المثلى ولكن أيضًا لتغيير حالة الكائنات لتحقيق هدفه.

يتم التحدي في منزل متعدد الغرف مزين بالأثاث والأشياء والحاويات. ينظر وكيل التعلم المعزز إلى البيئة من منظور الشخص الأول ويجب أن يجد كائنًا واحدًا أو عدة أشياء من الغرف ويجمعها في وجهة محددة. الوكيل عبارة عن روبوت ذي سلاحين ، لذا يمكنه حمل جسمين فقط في المرة الواحدة. بدلاً من ذلك ، يمكنها استخدام حاوية لحمل العديد من الأشياء وتقليل عدد الرحلات التي يتعين عليها القيام بها.

في كل خطوة ، يمكن لعامل RL اختيار أحد الإجراءات العديدة ، مثل الدوران أو التحرك للأمام أو التقاط شيء ما. يتلقى الوكيل مكافأة إذا أنجز مهمة النقل في عدد محدود من الخطوات.

في حين أن هذا يبدو وكأنه نوع المشكلة التي يمكن لأي طفل حلها دون تدريب كبير ، إلا أنها في الواقع مهمة معقدة لأنظمة الذكاء الاصطناعي الحالية. يجب أن يجد برنامج التعلم المعزز التوازن الصحيح بين استكشاف الغرف ، وإيجاد المسارات المثلى للوجهة ، والاختيار بين حمل الأشياء بمفردها أو في حاويات ، والقيام بكل ذلك ضمن ميزانية الخطوة المحددة.

قال جان: "من خلال TDW-Transport Challenge ، نقترح تحديًا جديدًا للذكاء الاصطناعي". "على وجه التحديد ، يجب أن يتخذ العامل الآلي إجراءات لتحريك وتغيير حالة عدد كبير من الكائنات في بيئة افتراضية واقعية من حيث الصور والفيزيائية ، والتي تظل هدفًا معقدًا في مجال الروبوتات."

تجريد التحديات لوكلاء الذكاء الاصطناعي

أعلاه: في تحدي النقل ثلاثي الأبعاد ، يمكن لوكيل الذكاء الاصطناعي رؤية العالم من خلال خرائط الألوان والعمق والتجزئة.

في حين أن TDW هي بيئة محاكاة معقدة للغاية ، لا يزال المصممون يستخلصون بعض التحديات التي قد تواجهها الروبوتات في العالم الحقيقي. يمتلك عميل الروبوت الافتراضي ، الملقب بـ Magnebot ، ذراعا تسع درجات من الحرية مع مفاصل في الكتف والكوع والمعصم. ومع ذلك ، فإن أيدي الروبوت عبارة عن مغناطيس ويمكنها التقاط أي شيء دون الحاجة إلى التعامل معه بالأصابع ، التي هي نفسها مهمة صعبة للغاية.

يدرك الوكيل أيضًا البيئة بثلاث طرق مختلفة: كإطار بلون RGB ، وخريطة عمق ، وخريطة تجزئة تُظهر كل كائن على حدة بألوان صلبة. تسهل خرائط العمق والتجزئة على عامل الذكاء الاصطناعي قراءة أبعاد المشهد وتمييز الكائنات عن بعضها عند عرضها من زوايا غير ملائمة.

لتجنب الارتباك ، يتم طرح المشكلات في هيكل بسيط (على سبيل المثال ، "إناء: 2 ، وعاء: 2 ، إبريق: 1 ؛ سرير") بدلاً من أوامر لغة فضفاضة (على سبيل المثال ، "امسك بوعائين ، وزهرين ، والإبريق في غرفة النوم ، وضعيهم جميعًا على السرير ").

ولتبسيط الحالة وفضاء العمل ، حصر الباحثون تنقل Magnebot في حركات 25 سم ودوران 15 درجة.

تتيح هذه التبسيط للمطورين التركيز على مشاكل الملاحة وتخطيط المهام التي يجب على وكلاء الذكاء الاصطناعي التغلب عليها في بيئة TDW.

أخبر Gan TechTalks أنه على الرغم من مستويات التجريد التي تم تقديمها في TDW ، لا يزال الروبوت بحاجة إلى مواجهة التحديات التالية:

  • التآزر بين الملاحة والتفاعل: لا يمكن للوكيل التحرك لإمساك كائن ما إذا لم يكن هذا الكائن في وجهة النظر الأنانية ، أو إذا تم إعاقة المسار المباشر إليه.
  • التفاعل المدرك للفيزياء: قد يفشل الإمساك إذا لم تتمكن ذراع العميل من الوصول إلى شيء ما.
  • التنقل المدرك للفيزياء: قد يؤدي الاصطدام بالعوائق إلى سقوط الأشياء وإعاقة كفاءة النقل بشكل كبير.

هذا يسلط الضوء على تعقيد الرؤية البشرية والوكالة. في المرة القادمة التي تذهب فيها إلى سوبر ماركت ، ضع في اعتبارك مدى سهولة العثور على طريقك عبر الممرات ، ومعرفة الفرق بين المنتجات المختلفة ، والوصول إلى العناصر المختلفة والتقاطها ، ووضعها في سلة أو عربة التسوق الخاصة بك ، واختيار المسار الخاص بك بكفاءة طريق. وأنت تفعل كل هذا دون الوصول إلى خرائط التقسيم والعمق وقراءة العناصر من ملاحظة مكتوبة بخط اليد مجعدة في جيبك.

التعلم التعزيزي العميق لا يكفي

أعلاه: تُظهر التجارب أن نماذج الذكاء الاصطناعي المختلطة التي تجمع بين التعلم المعزز والمخططين الرمزيين هي الأنسب لحل تحدي النقل ثلاثي الأبعاد.

إن TDW-Transport Challenge قيد قبول الطلبات. في غضون ذلك ، قام مؤلفو الورقة بالفعل باختبار البيئة باستخدام العديد من تقنيات التعلم المعزز المعروفة. تظهر النتائج التي توصلوا إليها أن التعلم المعزز الخالص ضعيف جدًا في حل تحديات تخطيط المهام والحركة. يتطلب نهج التعلم المعزز الخالص من وكيل الذكاء الاصطناعي تطوير سلوكه من البداية ، بدءًا من الإجراءات العشوائية وتنقيح سياسته تدريجياً لتحقيق الأهداف في العدد المحدد من الخطوات.

وفقًا لتجارب الباحثين ، بالكاد تمكنت مناهج التعلم المعزز الخالص من تحقيق نجاح فوق 10٪ في اختبارات TDW.

كتب الباحثون: "نعتقد أن هذا يعكس تعقيد التفاعل المادي ومساحة البحث الاستكشافية الكبيرة لمعيارنا". "مقارنةً بمهام التنقل والهدف السابق والملاحة الدلالية ، حيث يحتاج الوكيل فقط إلى التنقل إلى إحداثيات أو كائنات محددة في المشهد ، يتطلب تحدي النقل ثلاثي الأبعاد من الوكلاء تحريك وتغيير الحالة المادية للأشياء في البيئة (أي ، تخطيط المهام والحركة) ، والتي قد تعجز النماذج الشاملة عنها ".

عندما حاول الباحثون نماذج هجينة AI، حيث تم دمج عامل التعلم المعزز مع مخطط رفيع المستوى قائم على القواعد ، رأوا دفعة كبيرة في أداء النظام.

قال غان: "يمكن استخدام هذه البيئة لتدريب نماذج RL ، التي تقصر في هذه الأنواع من المهام وتتطلب قدرات تفكير وتخطيط واضحة". "من خلال تحدي النقل TDW ، نأمل أن نثبت أن أ نموذج هجين رمزي عصبي يمكنه تحسين هذه المشكلة وإظهار أداء أقوى ".

ومع ذلك ، لا تزال المشكلة دون حل إلى حد كبير ، وحتى الأنظمة الهجينة الأفضل أداءً حققت حوالي 50٪ من معدلات النجاح. كتب الباحثون: "مهمتنا المقترحة صعبة للغاية ويمكن استخدامها كمعيار لتتبع تقدم الذكاء الاصطناعي المتجسد في مشاهد واقعية فيزيائية".

أصبحت الروبوتات المتنقلة أ منطقة ساخنة للبحث والتطبيقات. وفقًا لـ Gan ، أعربت العديد من المصانع التصنيعية والذكية بالفعل عن اهتمامها باستخدام بيئة TDW لتطبيقاتها الواقعية. سيكون من المثير للاهتمام معرفة ما إذا كان تحدي النقل TDW سيساعد في إدخال ابتكارات جديدة في هذا المجال.

قال جان: "نأمل أن يساعد تحدي TDW-Transport في تقدم البحث حول العوامل الروبوتية المساعدة في المستودعات والبيوت".

ظهرت هذه القصة في الأصل bdtechtalks.com. حقوق الطبع والنشر 2021

VentureBeat

تتمثل مهمة VentureBeat في أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول التكنولوجيا التحويلية والمعاملات. يقدم موقعنا معلومات أساسية حول تقنيات واستراتيجيات البيانات لإرشادك وأنت تقود مؤسساتك. ندعوك لتصبح عضوًا في مجتمعنا ، للوصول إلى:

  • معلومات محدثة عن الموضوعات التي تهمك
  • رسائلنا الإخبارية
  • محتوى مبوب لرائد الفكر وإمكانية وصول مخفضة إلى الأحداث الثمينة لدينا ، مثل تحويل 2021: يتعلم أكثر
  • ميزات الشبكات والمزيد

تصبح عضوا

كوينسمارت. Beste Bitcoin-Börse في أوروبا
المصدر: https://venturebeat.com/2021/05/01/reinforcement-learning-competition-pushes-the-boundaries-of-embodied-ai/

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة

الدردشة معنا

أهلاً! كيف يمكنني مساعدك؟