شعار زيفيرنت

ما وراء التخمين: الاستفادة من إحصائيات بايزي لاختيار عنوان المقالة بشكل فعال - KDnuggets

التاريخ

ما وراء التخمين: الاستفادة من إحصائيات بايزي لاختيار عنوان المقالة بشكل فعال
صورة المؤلف
 

يعد الحصول على عنوان جيد أمرًا بالغ الأهمية لنجاح المقالة. يقضي الناس ثانية واحدة فقط (إذا صدقنا كتاب رايان هوليداي "ثق بي، أنا أكذب" تحديد ما إذا كنت تريد النقر على العنوان لفتح المقالة بأكملها. وسائل الإعلام مهووسة بالتحسين نسبة النقر إلى الظهور (CTR)، عدد النقرات التي يتلقاها العنوان مقسومًا على عدد مرات ظهور العنوان. يؤدي الحصول على عنوان طعم النقر إلى زيادة نسبة النقر إلى الظهور. من المرجح أن تختار وسائل الإعلام عنوانًا يتمتع بنسبة نقر إلى ظهور أعلى بين العنوانين لأن هذا سيولد المزيد من الإيرادات.

أنا لست حقا في الضغط على عائدات الإعلانات. الأمر يتعلق أكثر بنشر معرفتي وخبرتي. ومع ذلك، لا يزال لدى المشاهدين وقت واهتمام محدودان، في حين أن المحتوى على الإنترنت غير محدود فعليًا. لذلك، يجب أن أتنافس مع صناع المحتوى الآخرين لجذب انتباه المشاهدين.

كيف أختار عنوانا مناسبا لمقالتي القادمة؟ وبطبيعة الحال، أنا بحاجة إلى مجموعة من الخيارات للاختيار من بينها. آمل أن أتمكن من إنشاؤها بنفسي أو أن أطلب من ChatGPT. ولكن ماذا أفعل بعد ذلك؟ باعتباري عالم بيانات، أقترح إجراء اختبار A/B/N لفهم الخيار الأفضل بطريقة تعتمد على البيانات. لكن هناك مشكلة. أولاً، يجب أن أقرر بسرعة لأن المحتوى تنتهي صلاحيته بسرعة. ثانيًا، قد لا تكون هناك ملاحظات كافية لاكتشاف فرق ذي دلالة إحصائية في نسب النقر إلى الظهور لأن هذه القيم منخفضة نسبيًا. لذا، هناك خيارات أخرى غير الانتظار لمدة أسبوعين لاتخاذ القرار.

نأمل أن يكون هناك حل! يمكنني استخدام خوارزمية التعلم الآلي "قطاع الطرق المتعددين" التي تتكيف مع البيانات التي نلاحظها حول سلوك المشاهدين. كلما زاد عدد الأشخاص الذين نقروا على خيار معين في المجموعة، كلما زاد عدد الزيارات التي يمكننا تخصيصها لهذا الخيار. في هذه المقالة، سأشرح بإيجاز ما هو "قطاع الطرق البايزي متعدد الأسلحة" وأبين كيف يعمل عمليًا باستخدام بايثون.

قطاع الطرق متعددي الأسلحة هي خوارزميات التعلم الآلي. يستخدم النوع بايزي أخذ عينات طومسون لاختيار خيار بناءً على معتقداتنا السابقة حول التوزيعات الاحتمالية لنسب النقر إلى الظهور التي يتم تحديثها بناءً على البيانات الجديدة بعد ذلك. كل هذه الكلمات المتعلقة بنظرية الاحتمالات والإحصاء الرياضي قد تبدو معقدة ومرهقة. اسمحوا لي أن أشرح المفهوم بأكمله باستخدام أقل عدد ممكن من الصيغ.

لنفترض أن هناك عنوانين فقط للاختيار من بينها. ليس لدينا أي فكرة عن نسبة النقر إلى الظهور الخاصة بهم. لكننا نريد الحصول على اللقب الأعلى أداءً. لدينا خيارات متعددة. الأول هو اختيار أي عنوان نؤمن به أكثر. هذه هي الطريقة التي عملت لسنوات في هذه الصناعة. يخصص الثاني 50% من حركة المرور الواردة للعنوان الأول و50% للثاني. أصبح هذا ممكنًا مع ظهور الوسائط الرقمية، حيث يمكنك تحديد النص الذي سيتم عرضه بدقة عندما يطلب المشاهد قائمة من المقالات لقراءتها. باستخدام هذا الأسلوب، يمكنك التأكد من تخصيص 50% من حركة المرور للخيار الأفضل أداءً. هل هذا حد؟ بالطبع لا! 

قد يقرأ بعض الأشخاص المقالة في غضون دقائق قليلة بعد النشر. بعض الناس سيفعلون ذلك في بضع ساعات أو أيام. وهذا يعني أنه يمكننا ملاحظة كيفية استجابة القراء "الأوائل" لعناوين مختلفة وتحويل تخصيص حركة المرور من 50/50 وتخصيص المزيد قليلاً للخيار الأفضل أداءً. بعد مرور بعض الوقت، يمكننا مرة أخرى حساب نسبة النقر إلى الظهور وضبط التقسيم. في هذا الحد، نريد ضبط تخصيص حركة المرور بعد أن ينقر كل مشاهد جديد على العنوان أو يتخطىه. نحن بحاجة إلى إطار عمل لتكييف تخصيص حركة المرور بشكل علمي وآلي.

وهنا تأتي نظرية بايز، وتوزيع بيتا، وأخذ عينات طومسون.
 

ما وراء التخمين: الاستفادة من إحصائيات بايزي لاختيار عنوان المقالة بشكل فعال
 

لنفترض أن نسبة النقر إلى الظهور لمقالة هي متغير عشوائي "ثيتا". حسب التصميم، فهو يقع في مكان ما بين 0 و1. إذا لم تكن لدينا معتقدات مسبقة، فيمكن أن يكون أي رقم بين 0 و1 باحتمال متساو. بعد أن نلاحظ بعض البيانات "x"، يمكننا تعديل معتقداتنا والحصول على توزيع جديد لـ "ثيتا" والذي سوف يميل إلى أقرب إلى 0 أو 1 باستخدام نظرية بايز.

 

ما وراء التخمين: الاستفادة من إحصائيات بايزي لاختيار عنوان المقالة بشكل فعال

 

يمكن تمثيل عدد الأشخاص الذين ينقرون على العنوان على أنه توزيع ثنائي حيث "n" هو عدد الزوار الذين شاهدوا العنوان، و"p" هو نسبة النقر إلى الظهور للعنوان. هذا هو احتمالنا! إذا قمنا بنمذجة ما سبق (اعتقادنا حول توزيع نسبة النقر إلى الظهور) على أنه أ توزيع بيتا وبأخذ الاحتمالية ذات الحدين، سيكون التوزيع الخلفي أيضًا توزيعًا تجريبيًا بمعلمات مختلفة! في مثل هذه الحالات، يسمى توزيع بيتا أ اقتران سابق إلى الاحتمال.

إثبات هذه الحقيقة ليس بالأمر الصعب ولكنه يتطلب بعض التمارين الرياضية التي لا صلة لها بسياق هذه المقالة. يرجى الرجوع إلى البرهان الجميل هنا:

 

ما وراء التخمين: الاستفادة من إحصائيات بايزي لاختيار عنوان المقالة بشكل فعال
 

يقتصر التوزيع التجريبي على 0 و1، مما يجعله مرشحًا مثاليًا لنموذج توزيع نسبة النقر إلى الظهور. يمكننا أن نبدأ من "a = 1" و"b = 1" كمعلمات توزيع بيتا التي تمثل نسبة النقر إلى الظهور. وفي هذه الحالة، لن تكون لدينا أي معتقدات بشأن التوزيع، مما يجعل أي نسبة نقر إلى ظهور محتملة بنفس القدر. وبعد ذلك، يمكننا البدء في إضافة البيانات المرصودة. كما ترون، فإن كل "نجاح" أو "نقرة" تزيد "أ" بمقدار 1. وكل "فشل" أو "تخطي" يزيد "ب" بمقدار 1. وهذا يؤدي إلى انحراف توزيع نسبة النقر إلى الظهور ولكنه لا يغير عائلة التوزيع. لا يزال توزيع بيتا!

نحن نفترض أنه يمكن تصميم نسبة النقر إلى الظهور كتوزيع تجريبي. بعد ذلك، هناك خياران للعنوان وتوزيعان. كيف نختار ما نعرضه للمشاهد؟ ومن ثم، تسمى الخوارزمية "قطاع الطرق متعدد الأسلحة". في الوقت الذي يطلب فيه أحد المشاهدين عنوانًا، عليك "سحب ذراعيك" وأخذ عينات من نسبة النقر إلى الظهور. بعد ذلك، يمكنك مقارنة القيم وإظهار عنوان يحتوي على أعلى نسبة نقر إلى ظهور في العينة. وبعد ذلك، يقوم المشاهد إما بالنقر أو التخطي. إذا تم النقر على العنوان، فيمكنك ضبط معلمة توزيع بيتا لهذا الخيار "أ"، التي تمثل "النجاحات". بخلاف ذلك، يمكنك زيادة معلمة توزيع بيتا لهذا الخيار "b"، والتي تعني "الفشل". وهذا يؤدي إلى انحراف التوزيع، وبالنسبة للمشاهد التالي، سيكون هناك احتمال مختلف لاختيار هذا الخيار (أو "الذراع") مقارنة بالخيارات الأخرى.

بعد عدة تكرارات، سيكون لدى الخوارزمية تقدير لتوزيعات نسبة النقر إلى الظهور. سيؤدي أخذ العينات من هذا التوزيع بشكل أساسي إلى تشغيل أعلى ذراع نسبة النقر إلى الظهور ولكنه سيسمح للمستخدمين الجدد باستكشاف خيارات أخرى وإعادة ضبط التخصيص.

حسنًا، كل هذا يعمل من الناحية النظرية. هل هو حقا أفضل من تقسيم 50/50 الذي ناقشناه من قبل؟

يمكن العثور على جميع التعليمات البرمجية لإنشاء المحاكاة وإنشاء الرسوم البيانية في ملفي جيثب ريبو.

كما ذكرنا سابقًا، لدينا عنوانان فقط للاختيار من بينهما. ليس لدينا أي معتقدات مسبقة حول نسبة النقر إلى الظهور لهذا العنوان. لذلك، نبدأ من a=1 وb=1 لكلا التوزيعتين التجريبيتين. سأقوم بمحاكاة حركة مرور واردة بسيطة بافتراض وجود قائمة انتظار من المشاهدين. نحن نعرف على وجه التحديد ما إذا كان المشاهد السابق قد "نقر" أو "تخطى" قبل عرض العنوان للمشاهد الجديد. لمحاكاة إجراءات "النقر" و"التخطي"، أحتاج إلى تحديد بعض نسب النقر إلى الظهور الحقيقية. فليكن 5٪ و 7٪. ومن الضروري الإشارة إلى أن الخوارزمية لا تعرف شيئًا عن هذه القيم. أحتاجهم لمحاكاة النقرة؛ سيكون لديك نقرات فعلية في العالم الحقيقي. سأقلب عملة متحيزة للغاية لكل عنوان يلفت الانتباه باحتمال 5% أو 7%. إذا هبطت الرؤوس، فستكون هناك نقرة.

بعد ذلك، الخوارزمية واضحة ومباشرة:

  1. بناءً على البيانات التي تمت ملاحظتها، احصل على توزيعة بيتا لكل عنوان
  2. عينة من نسبة النقر إلى الظهور من كلا التوزيعين
  3. تعرف على نسبة النقر إلى الظهور الأعلى واقلب العملة ذات الصلة
  4. فهم ما إذا كانت هناك نقرة أم لا
  5. زيادة المعلمة "أ" بمقدار 1 إذا كانت هناك نقرة؛ قم بزيادة المعلمة "b" بمقدار 1 إذا كان هناك تخطي
  6. كرر ذلك حتى يكون هناك مستخدمون في قائمة الانتظار.

لفهم جودة الخوارزمية، سنحفظ أيضًا قيمة تمثل حصة من المشاهدين الذين تعرضوا للخيار الثاني لأنه يتمتع بنسبة نقر إلى ظهور "حقيقية" أعلى. دعونا نستخدم استراتيجية تقسيم 50/50 كنظير للحصول على جودة أساسية.

كود المؤلف

بعد وجود 1000 مستخدم في قائمة الانتظار، أصبح لدى "قطاع الطرق متعدد الأذرع" لدينا بالفعل فهم جيد لنسب النقر إلى الظهور. 

 

ما وراء التخمين: الاستفادة من إحصائيات بايزي لاختيار عنوان المقالة بشكل فعال
 

وهنا رسم بياني يوضح أن مثل هذه الاستراتيجية تؤدي إلى نتائج أفضل. بعد 100 مشاهد، تجاوزت نسبة مشاهدي “قطاع الطرق المتعدد الأذرع” 50% من المشاهدين عرضوا الخيار الثاني. نظرًا لأن المزيد والمزيد من الأدلة تدعم العنوان الثاني، خصصت الخوارزمية المزيد والمزيد من حركة المرور إلى العنوان الثاني. شاهد ما يقرب من 80% من جميع المشاهدين الخيار الأفضل أداءً! بينما في التقسيم 50/50، رأى 50٪ فقط من الأشخاص الخيار الأفضل أداءً. 

 

ما وراء التخمين: الاستفادة من إحصائيات بايزي لاختيار عنوان المقالة بشكل فعال
 

قدمت لعبة Bayesian Multi-armed Bandit لـ 25% من المشاهدين خيارًا أفضل أداءً! ومع المزيد من البيانات الواردة، فإن الفرق سيزداد بين هاتين الاستراتيجيتين. 

وبطبيعة الحال، فإن "قطاع الطرق متعددي الأذرع" ليسوا مثاليين. إن أخذ العينات وتقديم الخيارات في الوقت الفعلي أمر مكلف. سيكون من الأفضل أن يكون لديك بنية تحتية جيدة لتنفيذ الأمر برمته مع الكمون المطلوب. علاوة على ذلك، قد لا ترغب في إثارة ذعر المشاهدين بتغيير العناوين. إذا كان لديك عدد كافٍ من الزيارات لإجراء A/B سريعًا، فافعل ذلك! ثم قم بتغيير العنوان يدويًا مرة واحدة. ومع ذلك، يمكن استخدام هذه الخوارزمية في العديد من التطبيقات الأخرى خارج الوسائط. 

أتمنى أن تفهم الآن ما هو "قطاع الطرق متعدد الأسلحة" وكيف يمكن استخدامه للاختيار بين خيارين متكيفين مع البيانات الجديدة. لم أركز على وجه التحديد على الرياضيات والصيغ لأن الكتب المدرسية ستشرح ذلك بشكل أفضل. أنوي تقديم تقنية جديدة وإثارة الاهتمام بها!

إذا كانت لديك أي أسئلة، فلا تتردد في التواصل معنا لينكدين:.

يمكن العثور على دفتر الملاحظات الذي يحتوي على جميع الرموز في ملفي جيثب ريبو.
 
 

ايجور خوميانين هو عالم بيانات في Salmon، وله أدوار بيانات سابقة في Yandex وMcKinsey. أنا متخصص في استخلاص القيمة من البيانات باستخدام الإحصائيات وتصور البيانات.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة