شعار زيفيرنت

دورة التعلم التعزيزي العملي ، الجزء الثاني

التاريخ:

By باو لابارتا باجو، عالم رياضيات وعالم بيانات.

يغطي هذا الجزء الأول الحد الأدنى من المفهوم والنظرية التي تحتاجها للشروع في هذه الرحلة من الأساسيات إلى التعلم المعزز المتطور (RL) ، خطوة بخطوة ، مع أمثلة الترميز والدروس التعليمية في بايثون. في كل فصل تالٍ ، سنحل مشكلة مختلفة بصعوبة متزايدة.

في النهاية ، تتضمن مشكلات RL الأكثر تعقيدًا مزيجًا من خوارزميات التعلم المعزز ، والتحسين ، والتعلم العميق. لا تحتاج إلى معرفة التعلم العميق (DL) لمتابعة هذه الدورة. سأقدم لك سياقًا كافيًا لتعريفك بفلسفة التعلم المعزز وفهم كيف تصبح مكونًا حاسمًا في التعلم المعزز الحديث.

في هذا الدرس الأول ، سنغطي أساسيات التعلم المعزز بأمثلة وصفر رياضيات وقليلًا من بايثون.

1. ما هي مشكلة التعلم المعزز؟

التعلم المعزز (RL) هو مجال من مجالات التعلم الآلي (ML) يهتم بمشاكل التعلم حيث

ذكي وكيل يحتاج إلى التعلم ، من خلال التجربة والخطأ ، كيف يأخذ الإجراءات داخل و بيئة من أجل تعظيم أ المكافأة التراكمية.

التعلم المعزز هو نوع التعلم الآلي الأقرب إلى كيفية تعلم البشر والحيوانات.

ما هو الوكيل؟ وبيئة؟ ما هي بالضبط هذه الإجراءات التي يمكن أن يتخذها الوكيل؟ وما الثواب؟ لماذا تقول المكافأة التراكمية؟

إذا كنت تسأل نفسك هذه الأسئلة ، فأنت على الطريق الصحيح.

التعريف الذي قدمته للتو يقدم مجموعة من المصطلحات التي قد لا تكون على دراية بها. في الواقع ، هم غامضون عن قصد. هذا التعميم هو ما يجعل RL قابلة للتطبيق على مجموعة واسعة من مشاكل التعلم التي تبدو مختلفة. هذه هي الفلسفة الكامنة وراء النمذجة الرياضية ، والتي تبقى في جذور RL.

دعونا نلقي نظرة على بعض مشاكل التعلم ، ونرى كيف يستخدمون عدسة RL.

مثال 1: تعلم المشي

بصفتي أبًا لطفل بدأ المشي مؤخرًا ، لا يمكنني التوقف عن سؤال نفسي ، كيف تعلم ذلك؟

كاي وباو.

بصفتي مهندسًا للتعلم الآلي ، أتخيل فهم وتكرار منحنى التعلم المذهل هذا باستخدام البرامج والأجهزة.

دعنا نحاول نمذجة مشكلة التعلم هذه باستخدام مكونات RL:

  • وكيل هو ابني كاي. ويريد أن يقف ويمشي. عضلاته قوية بما يكفي في هذه المرحلة لتكون لها فرصة في ذلك. مشكلة التعلم بالنسبة له هي: كيف يضبط وضع جسمه بالتتابع ، بما في ذلك عدة زوايا على رجليه وخصره وظهره وذراعيه لموازنة جسده وعدم السقوط.

ساي مرحبا لكاي!

  • بيئة هو العالم المادي المحيط به ، بما في ذلك قوانين الفيزياء. أهمها الجاذبية. بدون الجاذبية ، ستتغير مشكلة التعلم للمشي بشكل جذري وحتى تصبح غير ذات صلة: لماذا تريد أن تمشي في عالم يمكنك أن تطير فيه ببساطة؟ قانون آخر مهم في مشكلة التعلم هذه هو قانون نيوتن الثالث ، والذي يخبرنا بكلمات واضحة أنه إذا سقطت على الأرض ، فإن الأرض ستضربك بنفس القوة. أوتش!
  • الإجراءات هي كل التحديثات في زوايا الجسم هذه التي تحدد موضع جسده وسرعته وهو يبدأ في ملاحقة الأشياء من حوله. بالتأكيد يمكنه القيام بأشياء أخرى في نفس الوقت ، مثل تقليد صوت بقرة ، ولكن ربما لا تساعده هذه الأشياء في تحقيق هدفه. نحن نتجاهل هذه الإجراءات في إطار عملنا. لا تؤدي إضافة الإجراءات غير الضرورية إلى تغيير خطوة النمذجة ، ولكنها تجعل حل المشكلة أكثر صعوبة لاحقًا. ملاحظة مهمة (وواضحة) هي أن كاي لا يحتاج إلى تعلم فيزياء نيوتن للوقوف والمشي. سوف يتعلم من خلال مراقبة حالة البيئة واتخاذ الإجراءات وجمع الملاحظات من هذه البيئة. لا يحتاج إلى تعلم نموذج للبيئة لتحقيق هدفه.
  • مكافأة يتلقى هو منبه يأتي من الدماغ يجعله سعيدًا أو يجعله يشعر بالألم. هناك المكافأة السلبية التي يواجهها عند السقوط على الأرض ، وهي ألم جسدي ، ربما يتبعه إحباط. على الجانب الآخر ، هناك العديد من الأشياء التي تساهم بشكل إيجابي في سعادته ، مثل السعادة للوصول إلى الأماكن بشكل أسرع أو التحفيز الخارجي الذي يأتي من زوجتي جاغودا وأنا عندما نقول "عمل جيد!" أو "برافو!" لكل محاولة وتحسين هامشي يظهره.

المزيد عن المكافآت

المكافأة هي إشارة إلى كاي أن ما كان يفعله جيد أو سيء لتعلمه. عندما يتخذ إجراءات جديدة ويعاني من الألم أو السعادة ، يبدأ في تعديل سلوكه لجمع المزيد من ردود الفعل الإيجابية وردود الفعل السلبية الأقل. بعبارة أخرى ، يتعلم

قد تبدو بعض الإجراءات جذابة جدًا للطفل في البداية ، مثل محاولة الجري للحصول على دفعة من الإثارة. ومع ذلك ، سرعان ما يتعلم أنه في بعض (أو معظم) الحالات ، ينتهي به الأمر بالسقوط على وجهه ويعاني من فترة طويلة من الألم والدموع. هذا هو سبب تعظيم الوكلاء الأذكياء المكافأة التراكمية وليس مكافأة هامشية. إنهم يتبادلون المكافآت قصيرة الأجل بمكافآت طويلة الأجل. الفعل الذي من شأنه أن يعطي مكافأة فورية ، ولكن يضع جسدي في وضع على وشك السقوط ، ليس بالشيء الأمثل.

إن السعادة الكبيرة التي يتبعها ألم أكبر ليست وصفة للرفاهية على المدى الطويل. هذا شيء يتعلمه الأطفال في كثير من الأحيان أسهل مما يتعلمه الكبار.

يعد تكرار وشدة المكافآت مفتاحًا لمساعدة الوكيل على التعلم. التعليقات النادرة جدًا (المتفرقة) تعني صعوبة التعلم. فكر في الأمر ، إذا كنت لا تعرف ما إذا كان ما تفعله جيدًا أم سيئًا ، فكيف يمكنك أن تتعلم؟ هذا هو أحد الأسباب الرئيسية التي تجعل بعض مشاكل RL أصعب من غيرها.

شكل المكافأة هو قرار نمذجة صعب للعديد من مشاكل RL في العالم الحقيقي.

مثال 2: تعلم لعب لعبة Monopoly مثل المحترفين

عندما كنت طفلاً ، قضيت الكثير من الوقت في لعب لعبة Monopoly مع الأصدقاء والأقارب. حسنًا ، من لم يفعل؟ إنها لعبة مثيرة تجمع بين الحظ (تقوم برمي النردات) والاستراتيجية.

Monopoly هي لعبة لوحة عقارية لشخصين إلى ثمانية لاعبين. تقوم برمي نردتين للتنقل في جميع أنحاء السبورة ، وشراء العقارات والمتاجرة بها ، وتطويرها بالمنازل والفنادق. تقوم بتحصيل الإيجار من خصومك ، بهدف دفعهم إلى الإفلاس.

تصوير سوزي بندق تبدأ من Pexels.

إذا كنت مهتمًا بهذه اللعبة لدرجة أنك أردت إيجاد طرق ذكية للعبها ، فيمكنك استخدام بعض التعلم المعزز.

ماذا ستكون مكونات RL الأربعة؟

  • وكيل هل أنت من تريد الفوز في لعبة Monopoly.
  • حل متجر العقارات الشامل الخاص بك في جورجيا الإجراءات هم الذين تراهم في لقطة الشاشة هذه أدناه:

مساحة عمل في لعبة مونوبولي. الشكر ل ألف عسفة.

  • بيئة هي الحالة الحالية للعبة ، بما في ذلك قائمة الخصائص والمراكز والمبلغ النقدي لكل لاعب. هناك أيضًا إستراتيجية خصمك ، وهو شيء لا يمكنك التنبؤ به ويقع خارج سيطرتك.
  • وعلى مكافأة تساوي 0 ، باستثناء حركتك الأخيرة ، حيث تكون +1 إذا فزت باللعبة و -1 إذا أفلست. صيغة المكافأة هذه منطقية ولكنها تجعل حل المشكلة صعبًا. كما قلنا أعلاه ، المكافأة المتفرقة تعني حلاً أصعب. بسبب هذا ، هناك طرق أخرى لنمذجة المكافأة ، مما يجعلها أكثر ضوضاءً ولكن أقل نثرًا.

عندما تلعب ضد شخص آخر في لعبة Monopoly ، فأنت لا تعرف كيف ستلعب. ما يمكنك فعله هو اللعب ضد نفسك. بينما تتعلم اللعب بشكل أفضل ، فإن خصمك يفعل ذلك أيضًا (لأنه أنت) ، مما يجبرك على رفع مستوى لعبتك لمواصلة الفوز. ترى حلقة التغذية الراجعة الإيجابية.

تسمى هذه الحيلة اللعب الذاتي. إنه يمنحنا طريقًا إلى ذكاء التمهيد دون استخدام المشورة الخارجية للاعب خبير. اللعب الذاتي هو الفرق الرئيسي بين AlphaGo و ألفاجو صفر، النموذجان اللذان طورهما DeepMind واللذان يلعبان لعبة Go أفضل من أي إنسان.

مثال 3: تعلم القيادة

في غضون عقود (ربما أقل) ، ستقود الآلات سياراتنا وشاحناتنا وحافلاتنا.

تصوير روييانغ تشانغ تبدأ من Pexels.

ولكن كيف؟

تعلم قيادة السيارة ليس بالأمر السهل. هدف السائق واضح: الانتقال من النقطة أ إلى النقطة ب بشكل مريح لها وأي ركاب على متنها.

هناك العديد من الجوانب الخارجية للسائق التي تجعل القيادة صعبة ، بما في ذلك:

  • سلوك السائقين الآخرين
  • اشارات حركة المرور
  • سلوكيات المشاة
  • ظروف الرصف
  • احوال الطقس
  • ... حتى تحسين الوقود (من يريد إنفاق المزيد على هذا؟)

كيف نتعامل مع هذه المشكلة مع التعلم المعزز؟

  • وكيل هو السائق الذي يريد الانتقال من أ إلى ب بشكل مريح.
  • حالة البيئة التي يلاحظها السائق بها الكثير من الأشياء ، بما في ذلك موضع السيارة وسرعتها وتسارعها ، وجميع السيارات الأخرى ، والركاب ، وظروف الطريق ، أو إشارات المرور. إن تحويل مثل هذا المتجه الكبير من المدخلات إلى إجراء مناسب يمثل تحديًا ، كما يمكنك أن تتخيل.
  • الإجراءات ثلاثة في الأساس: اتجاه عجلة القيادة ، وشدة دواسة الوقود ، وشدة الانكسار.
  • مكافأة بعد كل إجراء ، يتم عرض مجموع مرجح للجوانب المختلفة التي تحتاج إلى موازنة أثناء القيادة. يؤدي انخفاض المسافة عن النقطة B إلى مكافأة موجبة ، بينما يؤدي انخفاض المسافة إلى النقطة B إلى مكافأة سلبية. لضمان عدم حدوث تصادم ، يجب أن يكون للاقتراب الشديد (أو حتى الاصطدام) بسيارة أخرى أو حتى أحد المشاة مكافأة سلبية كبيرة جدًا. أيضًا ، من أجل تشجيع القيادة السلسة ، تساهم التغييرات الحادة في السرعة أو الاتجاه في مكافأة سلبية.

بعد هذه الأمثلة الثلاثة ، آمل أن يكون التمثيل التالي لعناصر RL وكيف يلعبون معًا أمرًا منطقيًا:

RL باختصار. الشكر ل ويكيبيديا.

الآن بعد أن فهمنا كيفية صياغة مشكلة RL ، نحتاج إلى حلها.

ولكن كيف؟

2. السياسات ووظائف القيمة

السياسات

تختار الوكيل الإجراء الذي تعتقد أنه الأفضل بناءً على الحالة الحالية للبيئة. هذه هي استراتيجية الوكيل ، والتي يشار إليها عادة باسم الوكيل سياسة.

A سياسة هو رسم الخرائط المكتسبة من الدول إلى الإجراءات.

حل مشكلة التعلم المعزز يعني إيجاد أفضل سياسة ممكنة.

السياسات حتمية عندما يربطون كل ولاية بإجراء واحد ،

or مؤشر ستوكاستيك عندما يربطون كل ولاية بتوزيع احتمالي على جميع الإجراءات الممكنة.

مؤشر الاستوكاستيك هي كلمة تقرأها وتسمعها غالبًا في التعلم الآلي ، وهي تعني في الأساس غير مؤكد or عشوائية. في البيئات التي تتسم بدرجة عالية من عدم اليقين ، مثل الاحتكار حيث تقوم بتدوير النردات ، تكون السياسات العشوائية أفضل من السياسات الحتمية.

توجد عدة طرق لحساب هذه السياسة المثلى بالفعل. تسمى هذه طرق تحسين السياسة.

وظائف القيمة

في بعض الأحيان ، بناءً على المشكلة ، بدلاً من محاولة العثور على السياسة المثلى مباشرةً ، يمكن للمرء محاولة العثور على ملف دالة القيمة المرتبطة بهذه السياسة المثلى.

لكن ما هي دالة القيمة؟ وقبل ذلك ، ماذا تعني القيمة في هذا السياق؟

قيمنا هو رقم مرتبط بكل ولاية s البيئة التي تقدر مدى جودة أن يكون الوكيل في حالة s.

إنها المكافأة التراكمية التي يجمعها الوكيل عند البدء في الولاية s واختيار الإجراءات وفقًا للسياسة π.

دالة القيمة هي تعيين مكتوب من الحالات إلى القيم.

عادة ما يشار إلى وظيفة القيمة للسياسة على أنها

يمكن لدوال القيمة أيضًا تعيين أزواج من (الإجراء ، الحالة) إلى القيم. في هذه الحالة ، يتم استدعاؤهم q- القيمة الوظائف.

دالة القيمة المثلى (أو دالة القيمة q) تفي بمعادلة رياضية تسمى معادلة بيلمان.

هذه المعادلة مفيدة لأنه يمكن تحويلها إلى إجراء تكراري للعثور على دالة القيمة المثلى.

ولكن ، لماذا تعتبر وظائف القيمة مفيدة؟
لأنه يمكنك استنتاج السياسة المثلى من دالة q-value المثلى.

كيف؟
السياسة المثلى هي تلك التي في كل ولاية s الوكيل يختار الإجراء a التي تزيد من قيمة دالة q.

لذلك ، يمكنك القفز من السياسات المثلى إلى وظائف q المثالية والعكس صحيح.

هناك العديد من خوارزميات RL التي تركز على إيجاد وظائف q-value المثلى. تسمى هذه طرق التعلم Q.

علم الحيوان من خوارزميات التعلم المعزز

هناك الكثير من خوارزميات RL المختلفة. يحاول البعض العثور بشكل مباشر على السياسات المثلى ، بينما يحاول البعض الآخر العثور على وظائف القيمة q ، والبعض الآخر في نفس الوقت.

علم الحيوان لخوارزميات RL متنوع ومخيف بعض الشيء.

لا يوجد مقاس واحد يناسب الجميع عندما يتعلق الأمر بخوارزميات RL. تحتاج إلى تجربة عدد قليل منهم في كل مرة تحل فيها مشكلة RL ومعرفة ما يناسب حالتك.

أثناء متابعتك لهذه الدورة التدريبية ، ستقوم بتنفيذ العديد من هذه الخوارزميات والحصول على نظرة ثاقبة لما يعمل بشكل أفضل في كل موقف.

3. كيف يتم توليد بيانات التدريب؟

وكلاء التعلم المعزز متعطشون جدًا للبيانات.

الصورة بواسطة كارستن وينيجارت

لحل مشاكل RL ، أنت بحاجة إلى الكثير من البيانات.

طريقة للتغلب على هذه العقبة عن طريق استخدام بيئات محاكاة. تتطلب كتابة المحرك الذي يحاكي البيئة عادةً عملاً أكثر من حل مشكلة RL. أيضًا ، يمكن للتغييرات بين تطبيقات المحرك المختلفة أن تجعل المقارنات بين الخوارزميات بلا معنى.

هذا هو السبب في أن اللاعبين في OpenAI أصدروا ملف مجموعة أدوات الصالة الرياضية مرة أخرى في عام 2016. تقدم صالة الألعاب الرياضية في OpenAIs واجهة برمجة تطبيقات موحدة لمجموعة من البيئات لمشاكل مختلفة ، بما في ذلك

  • ألعاب أتاري الكلاسيكية ،
  • الأسلحة الآلية
  • أو الهبوط على القمر (حسنًا ، واحد مبسط)

هناك أيضًا بيئات مسجلة الملكية مثل موجو (اشترتها مؤخرا DeepMind). MuJoCo هي بيئة يمكنك من خلالها حل مهام التحكم المستمر في شكل ثلاثي الأبعاد ، مثل تعلم المشي.

تحدد OpenAI Gym أيضًا واجهة برمجة تطبيقات قياسية لبناء البيئات ، مما يسمح للأطراف الثالثة (مثلك) بإنشاء بيئاتك وإتاحتها للآخرين.

إذا كنت مهتمًا بالسيارات ذاتية القيادة ، فعليك التحقق من CARLA ، أشهر محاكي القيادة الحضرية المفتوحة.

4. كود Python المتداول

قد تفكر:

ما غطيناه حتى الآن مثير للاهتمام ، لكن كيف أكتب كل هذا في بايثون؟

وأنا أتفق معك تمامًا

دعونا نرى كيف يبدو كل هذا في بايثون.

هل وجدت شيئًا غير واضح في هذا الرمز؟

ماذا عن السطر 23؟ ما هذا إبسيلون؟

لا داعي للذعر. لم أذكر هذا من قبل ، لكنني لن أتركك بدون تفسير.

تعتبر إبسيلون معلمة أساسية لضمان قيام وكيلنا باستكشاف البيئة بشكل كافٍ قبل استخلاص استنتاجات محددة حول أفضل إجراء يمكن اتخاذه في كل ولاية.

إنها قيمة بين 0 و 1 ، وهي تمثل احتمال أن يختار الوكيل إجراءً عشوائيًا بدلاً من ما تعتقد أنه الأفضل.

هذه المفاضلة بين استكشاف استراتيجيات جديدة مقابل التمسك باستراتيجيات معروفة بالفعل تسمى مشكلة الاستكشاف والاستغلال. هذا عنصر رئيسي في مشاكل RL وهو شيء يميز مشاكل RL عن التعلم الآلي الخاضع للإشراف.

من الناحية الفنية ، نريد أن يجد الوكيل الأفضل عالميًا وليس محليًا.

من الممارسات الجيدة أن تبدأ تدريبك بقيمة كبيرة (على سبيل المثال ، 50٪) ثم تنخفض تدريجياً بعد كل حلقة. بهذه الطريقة ، يستكشف الوكيل الكثير في البداية وأقل عندما يتقن استراتيجيته.

5. خلاصة وواجب منزلي

النقاط الرئيسية لهذا الجزء الأول هي:

  • لكل مشكلة RL وكيل (أو وكلاء) ، وبيئة ، وأفعال ، وحالات ، ومكافآت.
  • يتخذ الوكيل إجراءات بشكل متسلسل بهدف تعظيم إجمالي المكافآت. لذلك ، تحتاج إلى إيجاد السياسة المثلى.
  • وظائف القيمة مفيدة لأنها توفر لنا مسارًا بديلاً للعثور على السياسة المثلى.
  • في الممارسة العملية ، تحتاج إلى تجربة خوارزميات RL المختلفة لمشكلتك ومعرفة ما هو الأفضل.
  • يحتاج وكلاء RL إلى الكثير من بيانات التدريب للتعلم. OpenAI gym هي أداة رائعة لإعادة استخدام وإنشاء بيئاتك.
  • الاستكشاف مقابل الاستغلال ضروري عند تدريب وكلاء RL لضمان عدم تعلق الوكيل بالأفضلية المحلية.

دورة بدون القليل من الواجبات المنزلية لن تكون دورة.

أريدك أن تختار مشكلة في العالم الحقيقي تهمك والتي يمكنك تصميمها وحلها باستخدام التعلم المعزز.

حدد ما هو الوكيل (العملاء) ، والإجراءات ، والحالات ، والمكافآت.

لا تتردد في إرسال بريد إلكتروني إلي على [البريد الإلكتروني محمي] مع مشكلتك ، ويمكنني تقديم ملاحظات لك.

أصلي. تم إعادة النشر بإذن.

المصدر: https://www.kdnuggets.com/2021/12/hands-on-reinforcement-learning-course-part-1.html

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة