ゼファーネットのロゴ

Yelpはスパムや不適切な写真を特定するためのAIシステムを構築しました

日付:

今年の2021月12〜16日にTransformXNUMXに参加してください。 登録するr 今年のAIイベント.


悪意のある攻撃者は、プラットフォームのポリシーを回避し、システムをゲーム化する方法を常に模索しています。2020年も例外ではありませんでした。 従った オンラインハラスメントトラッカーL1ghtにとって、パンデミックの最初の数週間で、Discordを含む人気のあるゲームサービスの毒性が40%増加しました。 不正防止の専門家は、 上昇 昨年、銀行や保険金詐欺など、オンラインプラットフォーム全体でさまざまな種類の詐欺が発生しました。 そして2020年2020月からXNUMX年XNUMX月まで、IBM 観測された COVID-6,000関連のスパムが19%以上増加しました。

Yelpは、問題のあるデジタルコンテンツの増加から免れませんでした。 旅行のキャンセルが増えるにつれ、同社は偽のカスタマーサポート番号やその他の宣伝用スパムを宣伝するためにテキストとともにアップロードされる画像の増加に気づきました。 この問題を軽減し、ユーザーのコミュニティからの手動コンテンツレポートに依存するソリューションを自動化するために、Yelpは、エンジニアが機械学習アルゴリズムを使用してカスタムの社内システムを構築し、XNUMX日あたり数十万枚の写真のアップロードを分析して不適切なものを検出したと述べています。大規模なスパム写真。

コンテンツモデレーションの自動化

YelpのAIと機械学習の使用は、広告からレストラン、サロン、ホテルの推奨まで、あらゆる範囲を網羅しています。 アプリの コレクション この機能は、機械学習、アルゴリズムによる並べ替え、手動によるキュレーションの組み合わせを活用して、ユーザーの指先にローカルホットスポットを配置します。 (ディープラーニングを利用した画像分析により、ユーザーが送信した写真のオブジェクトの色、テクスチャ、形状が自動的に識別され、Yelpは「子供に良い」や「雰囲気は上品」などの属性を予測できます。)Yelpは企業のリストにある写真を最適化します。潜在的な顧客を閲覧するための最も関連性の高い画像を提供します。 また、広告主は、ユーザーとの「影響力」に基づいて、AIシステムに写真を推奨させ、バナー広告で使用するコンテンツをレビューさせることを選択できます。

最も注文の多いレストランのメニューアイテムの名前、写真、レビューを強調するYelpの機能であるPopularDishesもあります。 最近では、ビジネスを再開するのに役立つツールがプラットフォームに追加され、ビジネスが他の場所に投稿した情報でセクションを更新するために、人間によるモデレーションと機械学習の組み合わせを使用して、距離や消毒を実施するなどの措置を講じているかどうかが示されます。

新しいコンテンツモデレーションシステムの構築は、Yelpのエンジニアが扱うデータセットが限られていたため、以前のAIプロジェクトよりも困難であったと同社はVentureBeatに語った。 ほとんどの機械学習アルゴリズムは、入力と出力の結果の間の基本的な関係を検出できるようになるまで、特定の出力に注釈が付けられた入力データでトレーニングされます。 トレーニングフェーズでは、システムにラベル付きのデータセットが提供され、特定の各入力値に関連する出力が示されます。

注釈付きのYelpのスパムのコーパスは、パンデミックの前は制限されていたため、時間の経過とともに拡張する必要がありました。 「最終的に、当社のエンジニアは、宣伝用のスパムや不適切なコンテンツに対して、多段階のマルチモデルアプローチを開発しました」と広報担当者は述べています。 この文脈において、「不適切」とは、示唆的または明示的なヌード(例、衣服の露出、性的行為)、暴力(武器、攻撃的なジェスチャー、憎悪のシンボル)、薬物、タバコなどの物質を含む、Yelpのコンテンツガイドラインに違反するスパムを指します。 、およびアルコール。

また、Yelpは、システムがアップロードされたコンテンツのコンテキストを理解していることを確認する必要がありました。 ほとんどのAIシステムとは異なり、人間はテキスト、ビデオ、オーディオ、画像の意味を文脈の中で一緒に理解します。 たとえば、離れて考えると無害に見えるテキストや画像(たとえば、「あなたを愛している人の数を見てください」や不毛の砂漠の写真)が与えられた場合、人々はこれらの要素がペアになっているときに潜在的に有害な意味合いを帯びていることを認識しています。並置。

XNUMX部構成のフレームワーク

Yelpのスパム対策ソリューションは、スパムを含む可能性が最も高い写真を最初に特定するXNUMXつの部分からなるフレームワークです。 第XNUMX段階では、フラグが立てられたコンテンツが、精度が調整された機械学習モデルを介して実行されます。このモデルは、人間のモデレーターによるレビューのために少量の写真のみを送信します。 一連のヒューリスティックがモデルと一緒に再生され、パイプラインを高速化し、新しい潜在的なスパムや不適切なコンテンツに迅速に対応します。

「数万枚のYelp写真のカスタムデータセットを使用し、転送学習を適用して、事前にトレーニングされた大規模モデルを調整しました」と、Yelpの信頼と安全のためのエンジニアリング担当副社長であるVivekRamanはVentureBeatにメールで語りました。 「モデルはGPUで高速化されたインスタンスでトレーニングされたため、ディープニューラルネットワークを最初からトレーニングする場合と比較して、転送学習プロセスのトレーニングが非常に効率的になりました。 本番環境でのモデルのパフォーマンスを監視して、ドリフトをキャッチし、進化する脅威に迅速に対応できるようにします。」

販促用スパムの場合、システムはテキストまたはロゴを多用する単純なグラフィックを検索します。 不適切なコンテンツはもう少し複雑なので、フレームワークは残差ニューラルネットワークを利用してYelpのポリシーに違反する写真を特定し、畳み込みニューラルネットワークモデルを利用して人物を含む写真を見つけます。 残差ニューラルネットワークは、大脳皮質の錐体細胞から知られている構造に基づいて構築されており、入力を出力に変換します。 活動電位。 同様に生物学的プロセスに触発された畳み込みニューラルネットワークは、視覚的イメージの分析に長けています。

システムがプロモーションスパムを検出すると、別の深層学習ニューラルネットワークを使用して写真からテキストを抽出し、 正規表現 そして自然言語処理サービス。 不適切なコンテンツの場合、ディープラーニングモデルを使用して、フレームワークが信頼スコアと、コンテンツが表示されている場所を考慮したビジネスカテゴリなどの一連のコンテキストヒューリスティックに基づいて精度を調整できるようにします。

敵との戦い

Yelpのヒューリスティックは、繰り返しスパマーと戦うのに役立ちます。 スパムとしてフラグが付けられた写真は、あいまい照合サービスによって追跡されるため、ユーザーがスパムを再アップロードしようとすると、システムによって自動的に破棄されます。 同様のスパム一致がない場合は、コンテンツモデレーションチームのキューに入れられる可能性があります。

モデレートを待っている間、画像はユーザーから隠されているため、安全でない可能性のあるコンテンツにさらされることはありません。 また、コンテンツモデレーションチームは、単一のコンテンツではなく、ユーザープロファイルに基づいて行動することができます。 たとえば、ユーザーがスパムを生成していることが判明した場合、そのユーザープロファイルは閉じられ、関連するすべてのコンテンツが削除されます。

AIは、コンテンツのモデレーションに関しては決して特効薬ではありません。 研究者は、YouTubeなどのプラットフォームで自動化されたコンテンツモデレーションツールが使用された事例を文書化しています 誤って シリアでのISISによる人権侵害を過激派コンテンツとして文書化した非政府組織によって投稿された分類されたビデオは、それらを削除しました。 ニューヨーク大学 研究 FacebookのAIシステムだけでも300,000日あたり約XNUMXのコンテンツモデレーションミスがあり、問題のある投稿はFacebookのフィル​​ターをすり抜け続けていると推定されています。

ラマン氏は、AIモデレーションシステムはバイアスの影響を受けやすいことを認めていますが、Yelpのエンジニアはそれを軽減するための措置を講じていると述べています。 「[バイアス]は、設計者の意識的または無意識的なバイアス、またはデータセット自体から発生する可能性があります…このシステムを設計するとき、システムのバイアスを減らすという明確な目標を持ったバランスの取れたトレーニングセットを作成するために、特に高度なサンプリング手法を使用しました。 また、間違いや誤検知を取り除く可能性を最小限に抑えるために、モデルの精度をトレーニングします。」

ラマンはまた、Yelpの新しいシステムは、人間のモデレーターのチームを置き換えるのではなく、増強すると主張しています。 目標は、誤ってフラグが付けられたコンテンツを復元する権限を持つモデレーションチームが、スパムを積極的に削除するのではなく、レビューするアイテムに優先順位を付けることです。

「テクノロジーを活用して、より効率的なプロセスを作成し、コンテンツを大規模に管理することは重要ですが、人間によるモデレーションを通じてチェックとバランスを作成することはさらに重要です」とラマン氏は述べています。 「トラフィックの少ないビジネスページでは、消費者やビジネスオーナーがコンテンツをキャッチしてモデレーターに報告する可能性が低くなります。そのため、写真モデレーションワークフローは、疑わしいコンテンツをよりスケーラブルな方法で取り除くのに役立ちます。」

VentureBeatの

VentureBeatの使命は、技術的な意思決定者が革新的なテクノロジーと取引についての知識を習得するためのデジタルタウンスクエアになることです。 私たちのサイトは、あなたが組織を率いるときにあなたを導くためのデータ技術と戦略に関する重要な情報を提供します。 以下にアクセスして、コミュニティのメンバーになることをお勧めします。

  • あなたが興味を持っている主題に関する最新情報
  • ニュースレター
  • ゲート付きのソートリーダーコンテンツと、次のような貴重なイベントへの割引アクセス 変換2021: もっと詳しく知る
  • ネットワーク機能など

会員になる

コインスマート。 BesteBitcoin-ヨーロッパのBörse
ソース:https://venturebeat.com/2021/05/12/yelp-built-an-ai-system-to-identify-spam-and-inappropriate-photos/

スポット画像

最新のインテリジェンス

スポット画像

私たちとチャット

やあ! どんな御用でしょうか?