شعار زيفيرنت

تحسين مشاركة العملاء من خلال التعلم المعزز

التاريخ:

هذا منشور ضيف شارك في تأليفه تايلور نيمز ، ومهندس التعلم الآلي للموظفين ، وديف جوبتا ، مدير التعلم الآلي ، وآرغي أنجيليس ، مدير أول للمنتجات في Ibotta. Ibotta هي شركة تقنية أمريكية تمكن المستخدمين من خلال تطبيقات سطح المكتب والجوال الخاصة بها من كسب النقود في المتجر وتطبيق الهاتف المحمول والمشتريات عبر الإنترنت من خلال تقديم الإيصالات وحسابات ولاء تجار التجزئة المرتبطة والمدفوعات والتحقق من الشراء.

تسعى Ibotta جاهدة إلى التوصية بالعروض الترويجية المخصصة للاحتفاظ بمستخدميها وإشراكهم بشكل أفضل. ومع ذلك ، فإن العروض الترويجية وتفضيلات المستخدم تتطور باستمرار. هذه البيئة المتغيرة باستمرار مع العديد من المستخدمين الجدد والعروض الترويجية الجديدة هي مشكلة البداية الباردة النموذجية - لا يوجد مستخدم تاريخي وتفاعلات ترويجية كافية لاستخلاص أي استنتاجات منها. التعلم المعزز (RL) هو مجال من مجالات التعلم الآلي (ML) يهتم بكيفية قيام الوكلاء الأذكياء باتخاذ إجراءات في بيئة ما من أجل تعظيم فكرة المكافآت التراكمية. تركز RL على إيجاد توازن بين استكشاف منطقة مجهولة واستغلال المعرفة الحالية. تعد ماكينات الألعاب المتعددة (MAB) إحدى مشكلات التعلم المعززة الكلاسيكية التي تجسد مقايضة الاستكشاف / الاستغلال: زيادة المكافأة على المدى القصير (الاستغلال) مع التضحية بالمكافأة قصيرة الأجل مقابل المعرفة التي يمكن أن تزيد المكافآت على المدى الطويل (الاستكشاف) ). تستكشف خوارزمية MAB التوصيات المثلى للمستخدم وتستغلها.

تعاونت Ibotta مع مختبر أمازون لحلول التعلم الآلي لاستخدام خوارزميات MAB لزيادة مشاركة المستخدم عندما تكون معلومات المستخدم والترويج ديناميكية للغاية.

اخترنا خوارزمية MAB السياقية لأنها فعالة في حالات الاستخدام التالية:

  • تقديم توصيات مخصصة وفقًا لحالة المستخدمين (السياق)
  • التعامل مع جوانب البداية الباردة مثل المكافآت الجديدة والعملاء الجدد
  • استيعاب التوصيات حيث تتغير تفضيلات المستخدمين بمرور الوقت

البيانات

لزيادة عمليات استرداد المكافآت ، يرغب Ibotta في إرسال مكافآت شخصية للعملاء. المكافآت عبارة عن حوافز نقدية ذاتية التمويل من Ibotta ، والتي تعمل كإجراءات لنموذج ماكينات الألعاب المتعددة السياقي.

يستخدم نموذج الماكينة مجموعتين من الميزات:

  • ميزات العمل - تصف الإجراءات ، مثل نوع المكافأة ومتوسط ​​مبلغ المكافأة
  • ميزات العميل - تصف هذه التفضيلات والتفاعلات السابقة للعملاء ، مثل عمليات استرداد قيمة الأصول والنقرات والمشاهدات في الأسابيع الماضية

تُستمد الميزات السياقية من رحلات العملاء التاريخية ، والتي تضمنت 26 مقياس نشاط أسبوعيًا تم إنشاؤها من تفاعلات المستخدمين مع تطبيق Ibotta.

ماكينات الألعاب المتعددة السياقية

قطاع الطرق هو إطار لصنع القرار المتسلسل حيث يختار صانع القرار إجراءً بالتسلسل ، ويحتمل أن يعتمد على المعلومات السياقية الحالية ، ويلاحظ إشارة المكافأة.

قمنا بإعداد سير عمل ماكينات الألعاب المتعددة السياقية على الأمازون SageMaker باستخدام المدمج في فاوبال وابيت (فولكس فاجن) حاوية. يساعد SageMaker علماء البيانات والمطورين على إعداد وبناء وتدريب ونشر نماذج تعلّم آلي عالية الجودة بسرعة من خلال الجمع بين مجموعة واسعة من الإمكانات المصممة لغرض التعلم الآلي. يعتمد نموذج التدريب والاختبار على التجريب في وضع عدم الاتصال. تتعلم الماكينة تفضيلات المستخدم بناءً على تعليقاتهم من التفاعلات السابقة بدلاً من البيئة الحية. يمكن أن تتحول الخوارزمية إلى وضع الإنتاج ، حيث يظل SageMaker بمثابة البنية التحتية الداعمة.

لتنفيذ استراتيجية الاستكشاف / الاستغلال ، قمنا ببناء نظام التدريب والنشر التكراري الذي ينفذ الإجراءات التالية:

  • توصي بإجراء باستخدام نموذج الماكينة السياقية بناءً على سياق المستخدم
  • يلتقط ردود الفعل الضمنية بمرور الوقت
  • تدرب النموذج بشكل مستمر ببيانات تفاعل تزايدي

سير عمل تطبيق العميل على النحو التالي:

  1. يختار تطبيق العميل سياقًا ، والذي يتم إرساله إلى نقطة نهاية SageMaker لاسترداد إجراء.
  2. تُرجع نقطة نهاية SageMaker إجراءً واحتمال استرداد المكافأة المرتبط به و event_id.
  3. نظرًا لأن هذا المحاكي تم إنشاؤه باستخدام التفاعلات التاريخية ، فإن النموذج يعرف الفئة الحقيقية لذلك السياق. إذا اختار الوكيل إجراءً مع استرداد ، تكون المكافأة 1. وإلا ، يحصل الوكيل على مكافأة بقيمة 0.

في حالة توفر البيانات التاريخية وتكون بتنسيق <state, action, action probability, reward>، يمكن لـ Ibotta بدء نموذج حي من خلال تعلم السياسة في وضع عدم الاتصال. بخلاف ذلك ، يمكن لـ Ibotta بدء سياسة عشوائية لليوم الأول والبدء في تعلم سياسة قطاع الطرق من هناك.

فيما يلي مقتطف الشفرة لتدريب النموذج:

hyperparameters = { "exploration_policy": "egreedy" , # supports "egreedy", "bag", "cover" "epsilon": 0.01 , # used if egreedy is the exploration policy "num_policies": 3 , # used if bag or cover is the exploration policy "num_arms": 9,
} job_name_prefix = "ibotta-testbed-bandits-1" vw_image_uri = "462105765813.dkr.ecr.us-east-1.amazonaws.com/sagemaker-rl-vw-container:vw-8.7.0-cpu" # Train the estimator rl_estimator = RLEstimator(entry_point='train-vw_new.py', source_dir="src", image_uri=vw_image_uri, role=role, output_path=s3_output_path, base_job_name=job_name_prefix, instance_type=instance_type, instance_count=1, hyperparameters=hyperparameters) rl_estimator.fit(“s3 bucket/ibotta.csv”, wait=True)

أداء النموذج

قمنا بشكل عشوائي بتقسيم التفاعلات التي تم استردادها كبيانات تدريب (10,000 تفاعل) وبيانات تقييم (5,300 تفاعل معطل).

مقاييس التقييم هي متوسط ​​المكافأة ، حيث يشير الرقم 1 إلى استرداد الإجراء الموصى به ، ويشير 0 إلى عدم استرداد الإجراء الموصى به.

يمكننا تحديد متوسط ​​المكافأة على النحو التالي:

متوسط ​​المكافأة (معدل الاسترداد) = (# من الإجراءات الموصى بها مع الاسترداد) / (إجمالي # الإجراءات الموصى بها)

يوضح الجدول التالي متوسط ​​نتيجة المكافأة:

يعني المكافأة توصية عشوائية موحدة التوصية السياقية المستندة إلى MAB
قطار 11.44% 56.44%
اختبار 10.69% 59.09%

يرسم الشكل التالي تقييم الأداء الإضافي أثناء التدريب ، حيث يكون المحور السيني هو عدد السجلات التي تعلمها النموذج والمحور الصادي هو متوسط ​​المكافأة المتزايدة. يشير الخط الأزرق إلى ماكينات الألعاب المتعددة ؛ يشير الخط البرتقالي إلى توصيات عشوائية.

يوضح الرسم البياني أن متوسط ​​المكافأة المتوقعة يزداد على مدار التكرارات ، ومكافأة الإجراء المتوقع أكبر بكثير من التخصيص العشوائي للإجراءات.

يمكننا استخدام النماذج المدربة مسبقًا كبداية دافئة وإعادة تدريب النموذج باستخدام بيانات جديدة. في هذه الحالة ، تقارب أداء النموذج بالفعل من خلال التدريب الأولي. لم يلاحظ أي تحسن إضافي كبير في الأداء في إعادة تدريب الدُفعة الجديدة ، كما هو موضح في الشكل التالي.

قمنا أيضًا بمقارنة السياسات السياقية مع السياسات العشوائية والعشوائية اللاحقة (التوصية العشوائية باستخدام التوزيع التاريخي لتفضيل المستخدم كبداية دافئة). يتم سرد النتائج ورسمها على النحو التالي:

  • قاطع طريق - 59.09٪ متوسط ​​المكافأة (تدريب 56.44٪)
  • منتظم عشوائي - 10.69٪ متوسط ​​المكافأة (تدريب 11.44٪)
  • الاحتمال الخلفي عشوائي - 34.21٪ متوسط ​​المكافأة (تدريب 34.82٪)

تفوقت خوارزمية ماكينات الألعاب المتعددة السياقية على السياستين الأخريين بشكل ملحوظ.

نبذة عامة

تعاون Amazon ML Solutions Lab مع Ibotta لتطوير حل توصية التعلم المعزز لقطاع الطرق باستخدام حاوية SageMaker RL.

أظهر هذا الحل ارتفاعًا ثابتًا في معدل الاسترداد التدريجي على توصيات RL العشوائية (رفع خمس مرات) وغير السياقية (رفع مرتين) بناءً على اختبار في وضع عدم الاتصال. باستخدام هذا الحل ، يمكن لشركة Ibotta إنشاء محرك توصيات ديناميكي يركز على المستخدم لتحسين مشاركة العملاء. مقارنةً بالتوصية العشوائية ، حسّن الحل دقة التوصية (متوسط ​​المكافأة) من 11٪ إلى 59٪ ، وفقًا للاختبار دون اتصال بالإنترنت. تخطط Ibotta لدمج هذا الحل في المزيد من حالات الاستخدام المخصصة.

"عمل Amazon ML Solutions Lab عن كثب مع فريق التعلم الآلي في Ibotta لبناء محرك توصية ديناميكي إضافي لزيادة عمليات الاسترداد وتحسين مشاركة العملاء. لقد أنشأنا محركًا للتوصية يستفيد من التعلم المعزز الذي يتعلم ويتكيف مع حالة العميل المتغيرة باستمرار ويبدأ المكافآت الجديدة تلقائيًا. في غضون شهرين ، طور علماء ML Solutions Lab حلًا تعليميًا سياقيًا لتعزيز ماكينات الألعاب المتعددة باستخدام حاوية SageMaker RL. أظهر حل RL السياقي زيادة مطردة في معدلات الاسترداد ، وحقق زيادة بمقدار خمس مرات في معدل استرداد المكافأة عن التوصية العشوائية ، ورفع مرتين على حل RL غير السياقي. تحسنت دقة التوصيات من 2٪ باستخدام توصية عشوائية إلى 11٪ باستخدام حل ML Solutions Lab. نظرًا لفعالية ومرونة هذا الحل ، نخطط لدمج هذا الحل في المزيد من حالات استخدام تخصيص Ibotta لتعزيز مهمتنا المتمثلة في جعل كل عملية شراء مجزية لمستخدمينا."

- هيذر شانون ، نائب الرئيس الأول للهندسة والبيانات في Ibotta.


حول المؤلف

أسماء تايلور هو مهندس التعلم الآلي للموظفين في Ibotta ، ويركز على تخصيص المحتوى والتنبؤ بالطلب في الوقت الفعلي. قبل انضمامه إلى Ibotta ، قاد تيلور فرق التعلم الآلي في مجال إنترنت الأشياء ومساحات الطاقة النظيفة.

ديف جوبتا هو مدير هندسي في Ibotta Inc ، حيث يقود فريق التعلم الآلي. تم تكليف فريق ML في Ibotta بتوفير برامج ML عالية الجودة ، مثل الموصيين والمتنبئين وأدوات ML الداخلية. قبل الانضمام إلى Ibotta ، عمل Dev في Predikto Inc ، وهي شركة ناشئة للتعلم الآلي ، و The Home Depot. تخرج من جامعة فلوريدا.

أرجي أنجيليس هو مدير أول للمنتجات في Ibotta ، حيث يقود فرق التعلم الآلي وإضافات المتصفح. قبل انضمامه إلى Ibotta ، عمل Argie كمدير للمنتجات في iReportsource. Argie حاصل على درجة الدكتوراه في علوم الكمبيوتر والهندسة من جامعة ولاية رايت.

فانغ وانغ هو عالم أبحاث أول في مختبر أمازون لحلول التعلم الآلي، حيث تقود قطاع البيع بالتجزئة ، وتعمل مع عملاء AWS عبر مختلف الصناعات لحل مشكلات ML الخاصة بهم. قبل الانضمام إلى AWS ، عمل فانغ كمدير أول لعلوم البيانات في Anthem ، حيث قاد منصة الذكاء الاصطناعي لمعالجة المطالبات الطبية. حصلت على درجة الماجستير في الإحصاء من جامعة شيكاغو.

شين تشين هو مدير أول في مختبر أمازون لحلول التعلم الآلي، حيث يقود وسط الولايات المتحدة ، ومنطقة الصين الكبرى ، وأمريكا اللاتينية ، والسيارات الرأسية. يساعد عملاء AWS في مختلف الصناعات على تحديد حلول التعلم الآلي وبنائها لمعالجة فرص التعلم الآلي الأعلى عائدًا على الاستثمار لمؤسستهم. حصل شين على درجة الدكتوراه في علوم وهندسة الكمبيوتر من جامعة نوتردام.

راج بيسواس هو عالم بيانات في مختبر أمازون لحلول التعلم الآلي. إنه يساعد عملاء AWS على تطوير حلول مدعومة من ML عبر قطاعات صناعية متنوعة لمواجهة تحديات الأعمال الأكثر إلحاحًا. قبل انضمامه إلى AWS ، كان طالب دراسات عليا في علوم البيانات بجامعة كولومبيا.

شينغهوا ليانغ هو عالم تطبيقي في مختبر أمازون لحلول التعلم الآلي، حيث يعمل مع العملاء في مختلف الصناعات ، بما في ذلك التصنيع والسيارات ، ويساعدهم على تسريع اعتمادهم على الذكاء الاصطناعي والسحابة. حصل Xinghua على درجة الدكتوراه في الهندسة من جامعة كارنيجي ميلون.

يي ليو هو عالم تطبيقي في خدمة عملاء أمازون. إنها شغوفة باستخدام قوة ML / AI لتحسين تجربة المستخدم لعملاء Amazon ومساعدة عملاء AWS على بناء حلول سحابية قابلة للتطوير. يمتد عملها العلمي في أمازون عبر مشاركة العضوية ونظام التوصية عبر الإنترنت وتحديد عيوب تجربة العملاء وحلها. خارج العمل ، تستمتع Yi بالسفر واستكشاف الطبيعة مع كلبها.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة

الدردشة معنا

أهلاً! كيف يمكنني مساعدك؟