شعار زيفيرنت

قم بوضع علامة على المحتوى الضار باستخدام Amazon Comprehend السمية للكشف عن | خدمات الويب الأمازون

التاريخ:

تعمل المجتمعات عبر الإنترنت على زيادة تفاعل المستخدمين عبر صناعات مثل الألعاب ووسائل التواصل الاجتماعي والتجارة الإلكترونية والمواعدة والتعليم الإلكتروني. يثق أعضاء هذه المجتمعات عبر الإنترنت في مالكي المنصات لتوفير بيئة آمنة وشاملة حيث يمكنهم استهلاك المحتوى والمساهمة بحرية. غالبًا ما يتم توظيف مشرفي المحتوى لمراجعة المحتوى الذي ينشئه المستخدم والتحقق من أنه آمن ومتوافق مع شروط الاستخدام الخاصة بك. ومع ذلك، فإن النطاق المتزايد باستمرار والتعقيد والتنوع للمحتوى غير المناسب يجعل سير عمل الإشراف البشري غير قابل للتوسع ومكلفًا. والنتيجة هي مجتمعات فقيرة وضارة وغير شاملة تؤدي إلى فصل المستخدمين وتؤثر سلبًا على المجتمع والأعمال.

إلى جانب المحتوى الذي ينشئه المستخدمون، جلب المحتوى الذي ينشئه الجهاز تحديًا جديدًا للإشراف على المحتوى. يقوم تلقائيًا بإنشاء محتوى واقعي للغاية قد يكون غير مناسب أو ضارًا على نطاق واسع. تواجه الصناعة التحدي الجديد المتمثل في الإشراف التلقائي على المحتوى الناتج عن الذكاء الاصطناعي لحماية المستخدمين من المواد الضارة.

في هذا المنشور، نقدم ميزة الكشف عن السمية، وهي ميزة جديدة من فهم الأمازون يساعدك على اكتشاف المحتوى الضار تلقائيًا في النص الذي ينشئه المستخدم أو الجهاز. يتضمن ذلك النص العادي والنص المستخرج من الصور والنص المكتوب من محتوى الصوت أو الفيديو.

اكتشف السمية في محتوى النص باستخدام Amazon Comprehend

Amazon Comprehend هي خدمة معالجة لغة طبيعية (NLP) تستخدم التعلم الآلي (ML) للكشف عن رؤى وروابط قيمة في النص. إنه يقدم مجموعة من نماذج ML التي يمكن تدريبها مسبقًا أو تخصيصها من خلال واجهات API. يوفر Amazon Comprehend الآن حلاً مباشرًا يستند إلى البرمجة اللغوية العصبية (NLP) لاكتشاف المحتوى السام في النص.

تقوم واجهة برمجة التطبيقات Amazon Comprehend Toxicity Detection API بتعيين درجة سمية إجمالية لمحتوى النص، تتراوح من 0 إلى 1، مما يشير إلى احتمالية كونه سامًا. كما أنه يصنف النص إلى الفئات السبع التالية ويوفر درجة الثقة لكل منها:

  • خطاب الكراهية - الخطاب الذي ينتقد أو يهين أو يدين أو يجرد شخصًا أو مجموعة من إنسانيتهم ​​على أساس الهوية، سواء كانت العرق أو العرق أو الهوية الجنسية أو الدين أو التوجه الجنسي أو القدرة أو الأصل القومي أو مجموعة هوية أخرى.
  • GRAPHIC - الكلام الذي يستخدم صورًا وصفية بصرية ومفصلة وحيوية بشكل غير سار. غالبًا ما يتم استخدام هذه اللغة بشكل مطول لتضخيم الإهانة أو الانزعاج أو الأذى للمتلقي.
  • HARASSMENT_OR_ABUSE – الخطاب الذي يفرض ديناميكيات قوة تخريبية بين المتحدث والمستمع (بغض النظر عن النية)، أو يسعى للتأثير على السلامة النفسية للمتلقي، أو يجعل الشخص موضوعًا.
  • الجنسي – الكلام الذي يشير إلى الاهتمام الجنسي أو النشاط أو الإثارة باستخدام إشارات مباشرة أو غير مباشرة إلى أجزاء الجسم أو السمات الجسدية أو الجنس.
  • العنف_أو_التهديد - الكلام الذي يتضمن تهديدات تسعى إلى إلحاق الألم أو الإصابة أو العداء تجاه شخص أو مجموعة.
  • إهانة – الكلام الذي يتضمن لغة التحقير أو الإهانة أو الاستهزاء أو الإهانة أو التقليل من شأن.
  • شتم – الكلام الذي يحتوي على كلمات أو عبارات أو اختصارات غير مهذبة أو مبتذلة أو مسيئة.

يمكنك الوصول إلى Toxicity Detection API عن طريق الاتصال بها مباشرة باستخدام ملف واجهة سطر الأوامر AWS (AWS CLI) وAWS SDK. اكتشاف السمية في Amazon Comprehend مدعوم حاليًا باللغة الإنجليزية.

استخدم حالات

يلعب الإشراف على النص دورًا حاسمًا في إدارة المحتوى الذي ينشئه المستخدم عبر تنسيقات متنوعة، بما في ذلك منشورات الوسائط الاجتماعية ورسائل الدردشة عبر الإنترنت ومناقشات المنتدى وتعليقات موقع الويب والمزيد. علاوة على ذلك، يمكن للأنظمة الأساسية التي تقبل محتوى الفيديو والصوت استخدام هذه الميزة للإشراف على المحتوى الصوتي المكتوب.

يمثل ظهور الذكاء الاصطناعي التوليدي ونماذج اللغات الكبيرة (LLMs) أحدث اتجاه في مجال الذكاء الاصطناعي. وبالتالي، هناك حاجة متزايدة إلى حلول سريعة الاستجابة للمحتوى المعتدل الناتج عن LLMs. تعتبر واجهة برمجة تطبيقات Amazon Comprehend Toxicity Detection مناسبة بشكل مثالي لتلبية هذه الحاجة.

طلب واجهة برمجة التطبيقات الخاصة بـ Amazon Comprehend Toxicity Detection

يمكنك إرسال ما يصل إلى 10 مقاطع نصية إلى Toxicity Detection API، بحد أقصى لحجم كل منها 1 كيلوبايت. تتم معالجة كل مقطع نص في الطلب بشكل مستقل. في المثال التالي، نقوم بإنشاء ملف JSON اسمه toxicity_api_input.json يحتوي على محتوى النص، بما في ذلك ثلاثة مقاطع نصية نموذجية للإشراف. لاحظ أنه في المثال، يتم إخفاء الكلمات البذيئة كـ XXXX.

{ "TextSegments": [ {"Text": "and go through the door go through the door he's on the right"}, {"Text": "he's on the right XXXXX him"}, {"Text": "what the XXXX are you doing man that's why i didn't want to play"} ], "LanguageCode": "en"
}

يمكنك استخدام AWS CLI لاستدعاء Toxicity Detection API باستخدام ملف JSON السابق الذي يحتوي على محتوى النص:

aws comprehend detect-toxic-content --cli-input-json file://toxicity_api_input.json

استجابة واجهة برمجة التطبيقات الخاصة بـ Amazon Comprehend Toxicity Detection

سيتضمن مخرج JSON لاستجابة واجهة برمجة التطبيقات لاكتشاف السمية نتيجة تحليل السمية في ملف ResultList الميدان. ResultList يسرد عناصر مقطع النص، ويمثل التسلسل الترتيب الذي تم به استلام تسلسلات النص في طلب واجهة برمجة التطبيقات. تمثل السمية درجة الثقة الإجمالية للكشف (بين 0-1). تتضمن التسميات قائمة بملصقات السمية مع درجات الثقة، مصنفة حسب نوع السمية.

يعرض التعليمة البرمجية التالية استجابة JSON من واجهة برمجة التطبيقات Toxicity Detection API بناءً على مثال الطلب في القسم السابق:

{ "ResultList": [ { "Toxicity": 0.009200000204145908, "Labels": [ { "Name": "PROFANITY", "Score": 0.0007999999797903001}, { "Name": "HATE_SPEECH", "Score": 0.0017999999690800905}, { "Name": "INSULT", "Score": 0.003000000026077032}, { "Name": "GRAPHIC", "Score": 0.0010000000474974513}, { "Name": "HARASSMENT_OR_ABUSE", "Score": 0.0013000000035390258}, { "Name": "SEXUAL", "Score": 0.0017000000225380063}, { "Name": "VIOLENCE_OR_THREAT", "Score": 0.004999999888241291} ] }, { "Toxicity": 0.7358999848365784, "Labels": [ { "Name": "PROFANITY", "Score": 0.011900000274181366}, { "Name": "HATE_SPEECH", "Score": 0.019500000402331352}, { "Name": "INSULT", "Score": 0.0714000016450882}, { "Name": "GRAPHIC", "Score": 0.006099999882280827}, { "Name": "HARASSMENT_OR_ABUSE", "Score": 0.018200000748038292}, { "Name": "SEXUAL", "Score": 0.0027000000700354576}, { "Name": "VIOLENCE_OR_THREAT", "Score": 0.8145999908447266} ] }, { "Toxicity": 0.9843000173568726, "Labels": [ { "Name": "PROFANITY", "Score": 0.9369999766349792 }, { "Name": "HATE_SPEECH", "Score": 0.30880001187324524 }, { "Name": "INSULT", "Score": 0.42100000381469727 }, { "Name": "GRAPHIC", "Score": 0.12630000710487366 }, { "Name": "HARASSMENT_OR_ABUSE", "Score": 0.25519999861717224 }, { "Name": "SEXUAL", "Score": 0.19169999659061432 }, { "Name": "VIOLENCE_OR_THREAT", "Score": 0.19539999961853027 } ] } ]
}

في JSON السابق، يعتبر الجزء النصي الأول آمنًا بدرجة سمية منخفضة. ومع ذلك، حصل الجزءان الثاني والثالث من النص على درجات سمية قدرها 73% و98% على التوالي. بالنسبة للجزء الثاني، اكتشف Amazon Comprehend درجة سمية عالية لـ VIOLENCE_OR_THREAT; بالنسبة للجزء الثالث، فإنه يكتشف PROFANITY مع درجة سمية عالية.

نموذج طلب باستخدام Python SDK

يوضح مقتطف التعليمات البرمجية التالي كيفية استخدام Python SDK لاستدعاء Toxicity Detection API. يتلقى هذا الرمز نفس استجابة JSON مثل أمر AWS CLI الموضح سابقًا.

import boto3 import base64
# Initialize a Comprehend boto3 client object
comprehend_client = session.client('comprehend') # Call comprehend Detect Toxic Content API with text segments
response = comprehend_client.detect_toxic_content( TextSegments=[ {"Text": "and go through the door go through the door he's on the right"}, {"Text": "he's on the right XXXXX him"}, {"Text": "what the XXXX are you doing man that's why i didn't want to play"} ], LanguageCode='en'
)

نبذة عامة

في هذا المنشور، قدمنا ​​نظرة عامة على واجهة برمجة تطبيقات Amazon Comprehend Toxicity Detection الجديدة. لقد وصفنا أيضًا كيف يمكنك تحليل استجابة واجهة برمجة التطبيقات JSON. لمزيد من المعلومات، راجع فهم وثيقة API.

يتوفر الآن برنامج Amazon Comprehend لكشف السمية بشكل عام في أربع مناطق: us-east-1، وus-west-2، وeu-west-1، وap-southeast-2.

لمعرفة المزيد حول الإشراف على المحتوى، راجع إرشادات للإشراف على المحتوى على AWS. اتخذ الخطوة الأولى نحو تبسيط عمليات إدارة المحتوى باستخدام AWS.


حول المؤلف

المؤلف - Lana Zhangلانا تشانغ هو مهندس حلول أول في فريق AWS WWSO AI Services، وهو متخصص في الذكاء الاصطناعي والتعلم الآلي للإشراف على المحتوى ورؤية الكمبيوتر ومعالجة اللغات الطبيعية والذكاء الاصطناعي التوليدي. بفضل خبرتها، تكرس جهودها للترويج لحلول AWS AI/ML ومساعدة العملاء في تحويل حلول أعمالهم عبر الصناعات المتنوعة، بما في ذلك وسائل التواصل الاجتماعي والألعاب والتجارة الإلكترونية والإعلام والإعلان والتسويق.

المؤلف - رافيشا SKرافيشا إس كيه هو مدير منتج أول، تقني في AWS مع التركيز على الذكاء الاصطناعي/التعلم الآلي. تتمتع بخبرة تزيد عن 10 سنوات في تحليل البيانات والتعلم الآلي في مجالات مختلفة. تستمتع في أوقات فراغها بالقراءة وتجربة المطبخ واستكشاف المقاهي الجديدة.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة