Zephyrnet Logosu

Amazon Comprehen toksisite tespitini kullanarak zararlı içeriği işaretleyin | Amazon Web Hizmetleri

Tarih:

Çevrimiçi topluluklar; oyun, sosyal medya, e-ticaret, flört ve e-öğrenme gibi sektörlerde kullanıcı etkileşimini artırıyor. Bu çevrimiçi toplulukların üyeleri, içeriği özgürce tüketebilecekleri ve katkıda bulunabilecekleri güvenli ve kapsayıcı bir ortam sağlama konusunda platform sahiplerine güveniyor. İçerik moderatörleri genellikle kullanıcı tarafından oluşturulan içeriği incelemek ve bunların güvenli ve kullanım şartlarınıza uygun olup olmadığını kontrol etmek için kullanılır. Ancak uygunsuz içeriğin sürekli artan ölçeği, karmaşıklığı ve çeşitliliği, insan denetimli iş akışlarını ölçeklenemez ve pahalı hale getiriyor. Sonuç olarak, kullanıcıları uzaklaştıran ve topluluğu ve işletmeyi olumsuz yönde etkileyen yoksul, zararlı ve kapsayıcı olmayan topluluklar ortaya çıkıyor.

Kullanıcı tarafından oluşturulan içeriğin yanı sıra, makine tarafından oluşturulan içerik de içerik denetlemeye yeni bir zorluk getirdi. Uygunsuz veya zararlı olabilecek yüksek düzeyde gerçekçi içerikleri otomatik olarak oluşturur. Sektör, kullanıcıları zararlı materyallerden korumak için yapay zeka tarafından oluşturulan içeriğin otomatik olarak denetlenmesi gibi yeni bir zorlukla karşı karşıya.

Bu yazıda, yeni bir özellik olan toksisite tespitini tanıtıyoruz. Amazon Kavramak Kullanıcı veya makine tarafından oluşturulan metinlerdeki zararlı içeriği otomatik olarak tespit etmenize yardımcı olur. Buna düz metin, resimlerden çıkarılan metin ve ses veya video içeriğinden kopyalanan metin dahildir.

Amazon Comprehen ile metin içeriğindeki zehirliliği tespit edin

Amazon Comprehend, metindeki değerli öngörüleri ve bağlantıları ortaya çıkarmak için makine öğrenimini (ML) kullanan bir doğal dil işleme (NLP) hizmetidir. API arayüzleri aracılığıyla önceden eğitilebilen veya özelleştirilebilen bir dizi makine öğrenimi modeli sunar. Amazon Comprehend artık metinlerde zararlı içerik tespiti için basit, NLP tabanlı bir çözüm sunuyor.

Amazon Comprehend Toxicity Detection API, metin içeriğine 0-1 arasında değişen, toksik olma olasılığını belirten genel bir toksisite puanı atar. Ayrıca metni aşağıdaki yedi kategoriye ayırır ve her biri için bir güven puanı sağlar:

  • NEFRET SÖYLEMİ – Bir kişiyi veya grubu ırk, etnik köken, cinsel kimlik, din, cinsel yönelim, yetenek, ulusal köken veya başka bir kimlik grubu temelinde eleştiren, aşağılayan, kınayan veya insanlıktan çıkaran konuşma.
  • GRAFİK – Görsel olarak açıklayıcı, ayrıntılı ve rahatsız edici derecede canlı görüntüler kullanan konuşma. Bu tür bir dil, alıcıya yönelik bir hakareti, rahatsızlığı veya zararı artırmak için sıklıkla ayrıntılı hale getirilir.
  • TACİZ_VEYA_İSTİSMAR – Konuşan ile dinleyen arasında (niyeti ne olursa olsun) yıkıcı güç dinamikleri empoze eden, muhatabın psikolojik sağlığını etkilemeye çalışan veya bir kişiyi nesneleştiren konuşma.
  • CİNSEL – Vücut parçalarına, fiziksel özelliklere veya cinsiyete doğrudan veya dolaylı göndermeler yaparak cinsel ilgiyi, aktiviteyi veya uyarılmayı belirten konuşma.
  • ŞİDDET_OR_TEHLİKE – Bir kişiye veya gruba acı, yaralama veya düşmanlık getirmeyi amaçlayan tehditleri içeren konuşma.
  • HAKARET – Aşağılayıcı, küçük düşürücü, alaycı, aşağılayıcı veya küçümseyici bir dil içeren konuşma.
  • KÜFÜR – Kaba, kaba veya saldırgan sözcükler, ifadeler veya kısaltmalar içeren konuşma.

Toksisite Tespiti API'sine, doğrudan API'yi kullanarak erişebilirsiniz. AWS Komut Satırı Arayüzü (AWS CLI) ve AWS SDK'ları. Amazon Comprehend'de toksisite tespiti şu anda İngilizce dilinde desteklenmektedir.

Kullanım durumları

Metin denetimi, sosyal medya gönderileri, çevrimiçi sohbet mesajları, forum tartışmaları, web sitesi yorumları ve daha fazlası dahil olmak üzere çeşitli formatlarda kullanıcı tarafından oluşturulan içeriğin yönetilmesinde çok önemli bir rol oynar. Ayrıca video ve ses içeriğini kabul eden platformlar, bu özelliği yazıya dökülmüş ses içeriğini denetlemek için kullanabilir.

Üretken yapay zeka ve büyük dil modellerinin (LLM'ler) ortaya çıkışı, yapay zeka alanındaki en son trendi temsil ediyor. Sonuç olarak, LLM'ler tarafından oluşturulan içeriği denetlemek için duyarlı çözümlere yönelik artan bir ihtiyaç vardır. Amazon Comprehend Toxicity Detection API, bu ihtiyacı karşılamak için idealdir.

Amazon Comprehend Toxicity Detection API isteği

Toksisite Tespiti API'sine her biri 10 KB boyut sınırına sahip en fazla 1 metin segmenti gönderebilirsiniz. İstekteki her metin bölümü bağımsız olarak işlenir. Aşağıdaki örnekte, adında bir JSON dosyası oluşturuyoruz. toxicity_api_input.json denetleme için üç örnek metin bölümü de dahil olmak üzere metin içeriğini içerir. Örnekte küfürlü kelimelerin XXXX olarak maskelendiğini unutmayın.

{ "TextSegments": [ {"Text": "and go through the door go through the door he's on the right"}, {"Text": "he's on the right XXXXX him"}, {"Text": "what the XXXX are you doing man that's why i didn't want to play"} ], "LanguageCode": "en"
}

Metin içeriğini içeren önceki JSON dosyasını kullanarak Toksisite Tespiti API'sini çağırmak için AWS CLI'yi kullanabilirsiniz:

aws comprehend detect-toxic-content --cli-input-json file://toxicity_api_input.json

Amazon Comprehend Toxicity Detection API yanıtı

Toksisite Tespiti API yanıtı JSON çıktısı, toksisite analizi sonucunu içerecektir. ResultList alan. ResultList metin segmenti öğelerini listeler ve sıra, API isteğinde metin dizilerinin alındığı sırayı temsil eder. Toksisite, tespitin genel güven puanını temsil eder (0-1 arası). Etiketler, toksisite türüne göre kategorize edilmiş, güven puanlarına sahip toksisite etiketlerinin bir listesini içerir.

Aşağıdaki kod, önceki bölümdeki istek örneğine göre Toksisite Algılama API'sinden gelen JSON yanıtını gösterir:

{ "ResultList": [ { "Toxicity": 0.009200000204145908, "Labels": [ { "Name": "PROFANITY", "Score": 0.0007999999797903001}, { "Name": "HATE_SPEECH", "Score": 0.0017999999690800905}, { "Name": "INSULT", "Score": 0.003000000026077032}, { "Name": "GRAPHIC", "Score": 0.0010000000474974513}, { "Name": "HARASSMENT_OR_ABUSE", "Score": 0.0013000000035390258}, { "Name": "SEXUAL", "Score": 0.0017000000225380063}, { "Name": "VIOLENCE_OR_THREAT", "Score": 0.004999999888241291} ] }, { "Toxicity": 0.7358999848365784, "Labels": [ { "Name": "PROFANITY", "Score": 0.011900000274181366}, { "Name": "HATE_SPEECH", "Score": 0.019500000402331352}, { "Name": "INSULT", "Score": 0.0714000016450882}, { "Name": "GRAPHIC", "Score": 0.006099999882280827}, { "Name": "HARASSMENT_OR_ABUSE", "Score": 0.018200000748038292}, { "Name": "SEXUAL", "Score": 0.0027000000700354576}, { "Name": "VIOLENCE_OR_THREAT", "Score": 0.8145999908447266} ] }, { "Toxicity": 0.9843000173568726, "Labels": [ { "Name": "PROFANITY", "Score": 0.9369999766349792 }, { "Name": "HATE_SPEECH", "Score": 0.30880001187324524 }, { "Name": "INSULT", "Score": 0.42100000381469727 }, { "Name": "GRAPHIC", "Score": 0.12630000710487366 }, { "Name": "HARASSMENT_OR_ABUSE", "Score": 0.25519999861717224 }, { "Name": "SEXUAL", "Score": 0.19169999659061432 }, { "Name": "VIOLENCE_OR_THREAT", "Score": 0.19539999961853027 } ] } ]
}

Önceki JSON'da, ilk metin segmenti düşük toksisite puanıyla güvenli olarak kabul ediliyor. Ancak ikinci ve üçüncü metin bölümleri sırasıyla %73 ve %98'lik toksisite puanları aldı. İkinci segment için Amazon Comprehend yüksek bir toksisite puanı tespit etti VIOLENCE_OR_THREAT; üçüncü segment için algılar PROFANITY yüksek toksisite puanına sahip.

Python SDK'yı kullanan örnek istek

Aşağıdaki kod parçacığı, Toksisite Tespiti API'sini çağırmak için Python SDK'nın nasıl kullanılacağını gösterir. Bu kod, daha önce gösterilen AWS CLI komutuyla aynı JSON yanıtını alır.

import boto3 import base64
# Initialize a Comprehend boto3 client object
comprehend_client = session.client('comprehend') # Call comprehend Detect Toxic Content API with text segments
response = comprehend_client.detect_toxic_content( TextSegments=[ {"Text": "and go through the door go through the door he's on the right"}, {"Text": "he's on the right XXXXX him"}, {"Text": "what the XXXX are you doing man that's why i didn't want to play"} ], LanguageCode='en'
)

Özet

Bu yazıda yeni Amazon Comprehend Toxicity Detection API'ye genel bir bakış sunduk. Ayrıca API yanıtı JSON'unu nasıl ayrıştırabileceğinizi de açıkladık. Daha fazla bilgi için bkz. API belgesini anlayın.

Amazon Comprehend zehirlilik tespiti artık dört Bölgede genel olarak kullanıma sunuldu: us-east-1, us-west-2, eu-west-1 ve ap-southeast-2.

İçerik denetimi hakkında daha fazla bilgi edinmek için bkz. AWS'de İçerik Denetleme Rehberi. Doğruya doğru ilk adımı atın AWS ile içerik denetleme işlemlerinizi kolaylaştırma.


Yazarlar Hakkında

Yazar - Lana ZhangLana Çang AWS WWSO Yapay Zeka Hizmetleri ekibinde Kıdemli Çözüm Mimarıdır ve İçerik Denetimi, Bilgisayarla Görme, Doğal Dil İşleme ve Üretken Yapay Zeka için Yapay Zeka ve Makine Öğrenimi konusunda uzmanlaşmıştır. Uzmanlığıyla kendini AWS AI/ML çözümlerini tanıtmaya ve müşterilerin sosyal medya, oyun, e-ticaret, medya, reklam ve pazarlama dahil olmak üzere çeşitli sektörlerdeki iş çözümlerini dönüştürmelerine yardımcı olmaya adamıştır.

Yazar - Ravisha SKRavisha SK AWS'de AI/ML'ye odaklanan Teknik Kıdemli Ürün Yöneticisidir. Farklı alanlarda veri analitiği ve makine öğrenimi alanında 10 yıldan fazla deneyime sahiptir. Boş zamanlarında okumayı, mutfakta denemeler yapmayı ve yeni kafeler keşfetmeyi seviyor.

spot_img

En Son İstihbarat

spot_img