أنشأ Yelp نظامًا للذكاء الاصطناعي لتحديد البريد العشوائي والصور غير الملائمة

انضم إلى Transform 2021 في الفترة من 12 إلى 16 يوليو. سجل fo r حدث الذكاء الاصطناعي لهذا العام.

تبحث الجهات الخبيثة باستمرار عن طرق للتحايل على سياسات المنصات والتلاعب بأنظمتها - ولم يكن عام 2020 استثناءً. وفقا إلى متعقب المضايقات عبر الإنترنت L1ght ، في الأسابيع القليلة الأولى من الوباء ، كانت هناك زيادة بنسبة 40٪ في السمية على خدمات الألعاب الشعبية بما في ذلك Discord. رأى خبراء مكافحة الاحتيال أ ترتفع في أنواع مختلفة من الاحتيال العام الماضي عبر منصات الإنترنت ، بما في ذلك الاحتيال المصرفي والتأمين. ومن مارس 2020 إلى أبريل 2020 ، آي بي إم ملاحظ زيادة بنسبة تزيد عن 6,000٪ في البريد العشوائي المرتبط بـ COVID-19.

لم يكن موقع Yelp محصنًا من الارتفاع الطفيف في المحتوى الرقمي الذي ينطوي على مشاكل. مع ارتفاع عمليات إلغاء السفر ، لاحظت الشركة زيادة في الصور التي يتم تحميلها بنصوص للترويج لأرقام دعم العملاء المزيفة وغيرها من الرسائل الترويجية العشوائية. للتخفيف من حدة المشكلة وأتمتة الحل الذي يعتمد على تقارير المحتوى اليدوية من مجتمع المستخدمين ، يقول Yelp إن مهندسيها قاموا ببناء نظام داخلي مخصص باستخدام خوارزميات التعلم الآلي لتحليل مئات الآلاف من عمليات تحميل الصور يوميًا - اكتشاف غير مناسب والصور غير المرغوب فيها على نطاق واسع.

أتمتة الإشراف على المحتوى

يدير استخدام Yelp للذكاء الاصطناعي والتعلم الآلي سلسلة كاملة من الإعلانات إلى المطاعم والصالون والتوصيات الفندقية. التطبيق المجموعات تستفيد الميزة من مزيج من التعلم الآلي والفرز الحسابي والتنظيم اليدوي لوضع النقاط الفعالة المحلية في متناول المستخدمين. (يحدد تحليل الصور المدعوم بالتعلم العميق تلقائيًا لون العناصر وملمسها وشكلها في الصور التي يرسلها المستخدم ، مما يسمح لـ Yelp بالتنبؤ بسمات مثل "جيد للأطفال" و "الأجواء أنيقة".) تعمل Yelp على تحسين الصور في قوائم الشركات لتقديم الصورة الأكثر صلة بتصفح العملاء المحتملين. ويمكن للمعلنين اختيار نظام ذكاء اصطناعي يوصي بالصور ومراجعة المحتوى لاستخدامه في إعلانات البانر بناءً على "مدى تأثيرها" مع المستخدمين.

هناك أيضًا أطباق شهيرة ، وميزة Yelp التي تبرز الاسم والصور والمراجعات لعناصر قائمة المطاعم الأكثر طلبًا. في الآونة الأخيرة ، أضافت المنصة أدوات للمساعدة في إعادة فتح الأعمال تشير إلى ما إذا كانت تتخذ خطوات مثل فرض التباعد والتعقيم ، وتوظيف مزيج من الاعتدال البشري والتعلم الآلي لتحديث الأقسام بالمعلومات التي نشرتها الشركات في مكان آخر.

قالت الشركة لموقع VentureBeat إن بناء نظام تعديل المحتوى الجديد كان أكثر صعوبة من مشاريع الذكاء الاصطناعي السابقة لأن مهندسي Yelp لديهم مجموعة بيانات محدودة للعمل معها. يتم تدريب معظم خوارزميات التعلم الآلي على بيانات الإدخال المشروحة لمخرج معين حتى يتمكنوا من اكتشاف العلاقات الأساسية بين المدخلات ونتائج المخرجات. خلال مرحلة التدريب ، يتم تغذية النظام بمجموعات البيانات ذات العلامات ، والتي تخبره عن المخرجات المرتبطة بكل قيمة إدخال محددة.

كان موقع Yelp المشروح للبريد العشوائي محدودًا قبل انتشار الوباء وكان لابد من زيادته بمرور الوقت. قال متحدث باسم الشركة: "في النهاية ، طور مهندسونا أسلوبًا متعدد المراحل ومتعدد النماذج للرسائل الترويجية غير المرغوب فيها والمحتوى غير الملائم". في هذا السياق ، تشير كلمة "غير مناسبة" إلى الرسائل غير المرغوب فيها التي تتعارض مع إرشادات محتوى Yelp ، بما في ذلك العُري الإيحائي أو الصريح (على سبيل المثال ، الكشف عن الملابس والنشاط الجنسي) والعنف (الأسلحة والإيماءات العدوانية ورموز الكراهية) والمواد مثل المخدرات والتبغ ، والكحول.

كان على Yelp أيضًا التأكد من أن النظام يفهم سياق المحتوى الذي تم تحميله. على عكس معظم أنظمة الذكاء الاصطناعي ، يفهم البشر معنى النص ومقاطع الفيديو والصوت والصور معًا في السياق. على سبيل المثال ، بالنظر إلى النص والصورة التي تبدو غير ضارة عند النظر إلى بعضهما البعض (على سبيل المثال ، "انظر إلى عدد الأشخاص الذين يحبونك" وصورة صحراء قاحلة) ، يدرك الأشخاص أن هذه العناصر تحمل دلالات قد تكون مؤذية عند إقرانها أو جنبًا إلى جنب.

إطار من جزأين

حل Yelp لمكافحة البريد العشوائي عبارة عن إطار عمل مكون من جزأين يحدد أولاً الصور التي يحتمل أن تحتوي على بريد عشوائي. خلال المرحلة الثانية ، يتم تشغيل المحتوى الذي تم الإبلاغ عنه من خلال نماذج التعلم الآلي المضبوطة من أجل الدقة ، والتي ترسل فقط كمية صغيرة من الصور لمراجعتها من قبل المشرفين البشريين. تلعب مجموعة من الأساليب التجريبية جنبًا إلى جنب مع النماذج لتسريع خط الأنابيب والتفاعل بسرعة مع الرسائل غير المرغوب فيها الجديدة والمحتوى غير المناسب.

قال فيفيك رامان ، نائب رئيس Yelp للهندسة من أجل الثقة والأمان ، لـ VentureBeat عبر البريد الإلكتروني: "لقد استخدمنا مجموعة بيانات مخصصة من عشرات الآلاف من صور Yelp وطبقنا تعلم النقل لضبط النماذج واسعة النطاق المدربة مسبقًا". "تم تدريب النماذج على مثيلات تسريع GPU ، مما جعل تدريب عملية النقل والتعلم فعالاً للغاية - مقارنةً بتدريب شبكة عصبية عميقة من البداية. تتم مراقبة أداء النماذج في الإنتاج للوقوف على أي انجراف والسماح لنا بالرد بسرعة على أي تهديدات متطورة ".

في حالة الرسائل الترويجية العشوائية ، يبحث النظام عن رسومات بسيطة تحتوي على نص أو شعار كثيف. المحتوى غير الملائم أكثر تعقيدًا ، لذا يستفيد إطار العمل من الشبكة العصبية المتبقية لتحديد الصور التي تنتهك سياسات Yelp بالإضافة إلى نموذج الشبكة العصبية التلافيفية لاكتشاف الصور التي تحتوي على أشخاص. تعتمد الشبكات العصبية المتبقية على بنيات معروفة من الخلايا الهرمية في القشرة الدماغية ، والتي تحول المدخلات إلى مخرجات إمكانات العمل. الشبكات العصبية التلافيفية ، المستوحاة بشكل مشابه من العمليات البيولوجية ، بارعة في تحليل الصور المرئية.

عندما يكتشف النظام رسائل ترويجية غير مرغوب فيها ، فإنه يستخرج النص من الصور باستخدام شبكة عصبية أخرى للتعلم العميق ويقوم بالتصنيف عبر تعبير عادي وخدمة معالجة اللغة الطبيعية. بالنسبة للمحتوى غير المناسب ، يتم استخدام نموذج التعلم العميق لمساعدة إطار العمل على معايرة الدقة بناءً على درجات الثقة ومجموعة من استدلالات السياق ، مثل فئة الأعمال ، التي تأخذ في الاعتبار مكان عرض المحتوى.

محاربة الخصوم

تساعد أساليب الاستدلال في موقع Yelp على مكافحة تكرار مرسلي البريد العشوائي. يتم تعقب الصور التي تم وضع علامة عليها على أنها بريد عشوائي بواسطة خدمة مطابقة ضبابية بحيث إذا حاول المستخدمون إعادة تحميل البريد العشوائي ، فسيتم إهماله تلقائيًا بواسطة النظام. إذا لم يكن هناك تطابق مماثل مع البريد العشوائي ، فقد ينتهي به الأمر في قائمة انتظار فريق الإشراف على المحتوى.

أثناء انتظار الإشراف ، يتم إخفاء الصور عن المستخدمين بحيث لا يتعرضون لمحتوى يحتمل أن يكون غير آمن. وفريق الإشراف على المحتوى لديه القدرة على العمل على ملفات تعريف المستخدمين بدلاً من أجزاء فردية من المحتوى. على سبيل المثال ، إذا تم اكتشاف أن أحد المستخدمين يقوم بإنشاء بريد عشوائي ، فسيتم إغلاق ملف تعريف المستخدم الخاص به وإزالة كل المحتوى المرتبط به.

الذكاء الاصطناعي ليس بأي حال من الأحوال رصاصة فضية عندما يتعلق الأمر بالاعتدال في المحتوى. قام الباحثون بتوثيق الحالات التي تم فيها استخدام أدوات الإشراف على المحتوى تلقائيًا على منصات مثل YouTube خطأ تم تصنيف مقاطع الفيديو التي نشرتها المنظمات غير الحكومية والتي توثق انتهاكات حقوق الإنسان من قبل داعش في سوريا على أنها محتوى متطرف وإزالتها. جامعة نيويورك دراسة تشير التقديرات إلى أن أنظمة الذكاء الاصطناعي في Facebook وحدها ترتكب حوالي 300,000 خطأ في إدارة المحتوى يوميًا ، وأن المنشورات الإشكالية تستمر في التسلل عبر عوامل تصفية Facebook.

يقر رامان بأن أنظمة تعديل الذكاء الاصطناعي عرضة للتحيز ، لكنه يقول إن مهندسي Yelp قد اتخذوا خطوات للتخفيف من ذلك. "يمكن أن يأتي [التحيز] من التحيزات الواعية أو اللاواعية لمصمميهم ، أو من مجموعات البيانات نفسها ... عند تصميم هذا النظام ، استخدمنا تقنيات متطورة لأخذ العينات على وجه التحديد لإنتاج مجموعات تدريب متوازنة بهدف صريح يتمثل في تقليل التحيز في النظام. نقوم أيضًا بتدريب النموذج على الدقة لتقليل الأخطاء أو احتمالية إزالة الإيجابيات الكاذبة ".

يؤكد رامان أيضًا أن نظام Yelp الجديد يزيد ، لا يحل محل ، فريق الوسطاء البشريين. الهدف هو إعطاء الأولوية للعناصر التي تقوم فرق الإشراف - الذين لديهم القدرة على استعادة المحتوى الذي تم الإبلاغ عنه بشكل خاطئ - بمراجعتها بدلاً من إزالة الرسائل غير المرغوب فيها بشكل استباقي.

قال رامان: "في حين أنه من المهم الاستفادة من التكنولوجيا لإنشاء عمليات أكثر كفاءة وإدارة المحتوى على نطاق واسع ، إلا أنه من المهم إنشاء ضوابط وتوازنات من خلال الاعتدال البشري". "الصفحات التجارية التي تتلقى عددًا أقل من الزيارات أقل احتمالاً أن يلتقط المستهلك أو صاحب العمل المحتوى ويبلغ عنه للمشرفين لدينا - لذلك ، يساعد سير عمل تعديل الصور لدينا على التخلص من المحتوى المشبوه بطريقة أكثر قابلية للتوسع.

VentureBeat

تتمثل مهمة VentureBeat في أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول التكنولوجيا التحويلية والمعاملات. يقدم موقعنا معلومات أساسية حول تقنيات واستراتيجيات البيانات لإرشادك وأنت تقود مؤسساتك. ندعوك لتصبح عضوًا في مجتمعنا ، للوصول إلى:

معلومات محدثة عن الموضوعات التي تهمك
رسائلنا الإخبارية
محتوى مبوب لرائد الفكر وإمكانية وصول مخفضة إلى الأحداث الثمينة لدينا ، مثل تحويل 2021: يتعلم أكثر
ميزات الشبكات والمزيد

تصبح عضوا

كوينسمارت. Beste Bitcoin-Börse في أوروبا
المصدر: https://venturebeat.com/2021/05/12/yelp-built-an-ai-system-to-identify-spam-and-inapproupt-photos/

ذكاء البيانات التوليدية

أنشأ موقع Yelp نظام ذكاء اصطناعي لتحديد البريد العشوائي والصور غير المناسبة

أتمتة الإشراف على المحتوى

إطار من جزأين

محاربة الخصوم

VentureBeat

تُحدث ChainSwap ثورة في التمويل اللامركزي متعدد السلاسل من خلال عمليات المبادلة داخل السلسلة

سعر البيتكوين يقفز فوق 62 ألف دولار حيث عززت بيانات الوظائف الأمريكية توقعات خفض أسعار الفائدة! إليك ما يمكن توقعه بعد ذلك

أحدث المعلومات الاستخباراتية

توقع سعر Arweave: الواقع المعزز هو الرابح الأكبر بنسبة 19%، إذ تتجه صواريخ التشفير AR/VR الأولى في العالم نحو 6 ملايين دولار

Solana (SOL) يقفز بنسبة 10%، ويختبر Shiba Inu (SHIB) الدعم، ويطلق Furrever Token (FURR) مسابقة بقيمة 10 آلاف دولار

توقعات سعر Bonk: ارتفاع BONK بنسبة 14% حيث يتساءل الخبراء عما إذا كانت عملية الطرح الأولي للعملة الأولية للعملة "Send SOL" الجديدة هذه قد تكون عملة Solana Meme التالية التي ستتفجر

مقاييس Glassnode الرئيسية لديناميكيات السوق بعد النصف

هل من الممكن تحويل 100 دولار إلى 100,000 ألف دولار؟ 4 عملات بديلة أقل من 1 دولار يمكن أن تكسبك الملايين | أخبار البيتكوين الحية

الدنمارك تزيد الإنفاق الدفاعي في ضوء الحرب الروسية طويلة الأمد