Yelp는 스팸 및 부적절한 사진을 식별하는 AI 시스템을 구축했습니다

이번 2021 월 12 일부터 16 일까지 Transform XNUMX에 참여하세요. FO 등록 r 올해의 AI 이벤트.

악의적 인 행위자들은 플랫폼의 정책을 우회하고 시스템을 조작하는 방법을 끊임없이 찾고 있으며 2020 년도 예외는 아닙니다. 에 따르면 온라인 괴롭힘 추적기 L1ght에 전염병이 발생한 첫 몇 주 동안 Discord를 포함한 인기 게임 서비스의 독성이 40 % 증가했습니다. 사기 방지 전문가들은 일어나 다 작년에 은행 및 보험 사기를 포함하여 온라인 플랫폼 전반에서 다양한 유형의 사기가 발생했습니다. 그리고 2020 년 2020 월부터 XNUMX 년 XNUMX 월까지 IBM은 관찰 COVID-6,000 관련 스팸이 19 % 이상 증가했습니다.

Yelp는 문제가있는 디지털 콘텐츠의 증가로부터 면역이되지 않았습니다. 여행 취소가 증가함에 따라 회사는 가짜 고객 지원 번호 및 기타 프로모션 스팸을 홍보하기 위해 텍스트와 함께 업로드되는 이미지가 증가하는 것을 발견했습니다. 문제를 완화하고 사용자 커뮤니티의 수동 콘텐츠보고에 의존하는 솔루션을 자동화하기 위해 Yelp는 엔지니어가 기계 학습 알고리즘을 사용하여 하루에 수십만 개의 사진 업로드를 분석하는 맞춤형 사내 시스템을 구축했다고 말합니다. 대규모 스팸 사진.

콘텐츠 조정 자동화

Yelp의 AI 및 머신 러닝 사용은 광고에서 레스토랑, 미용실 및 호텔 추천에 이르기까지 모든 영역에서 실행됩니다. 앱의 Collections 기능은 기계 학습, 알고리즘 정렬 및 수동 큐 레이션의 조합을 활용하여 사용자의 손끝에 로컬 핫스팟을 배치합니다. (딥 러닝 기반 이미지 분석은 사용자가 제출 한 사진에서 개체의 색상, 질감 및 모양을 자동으로 식별하여 Yelp가 "어린이에게 좋음"및 "고급스러운 분위기"와 같은 속성을 예측할 수 있도록합니다.) Yelp는 업체 목록의 사진을 최적화합니다. 잠재 고객을 검색 할 때 가장 관련성이 높은 이미지를 제공합니다. 또한 광고주는 AI 시스템이 사용자에 대한 "영향력"을 기준으로 배너 광고에 사용할 사진 및 검토 콘텐츠를 추천하도록 선택할 수 있습니다.

가장 많이 주문 된 레스토랑 메뉴 항목의 이름, 사진 및 리뷰를 강조하는 Yelp의 기능인 Popular Dishes도 있습니다. 최근에 플랫폼은 비즈니스를 재개하는 데 도움이되는 도구를 추가하여 비즈니스가 다른 곳에 게시 한 정보로 섹션을 업데이트하기 위해 인간 중재 및 기계 학습을 결합하여 거리두기 및 위생 화 시행과 같은 조치를 취하고 있는지 여부를 나타냅니다.

Yelp 엔지니어는 작업 할 데이터 세트가 제한적이기 때문에 새로운 콘텐츠 중재 시스템을 구축하는 것이 이전 AI 프로젝트보다 더 어려웠습니다. 회사는 VentureBeat에 말했습니다. 대부분의 기계 학습 알고리즘은 입력과 출력 결과 간의 기본 관계를 감지 할 수있을 때까지 특정 출력에 주석이 달린 입력 데이터에 대해 학습됩니다. 훈련 단계 동안 시스템에는 레이블이 지정된 데이터 세트가 제공되어 각 특정 입력 값과 관련된 출력을 알려줍니다.

Yelp의 주석이 달린 스팸 말뭉치는 대유행 이전에 제한되었고 시간이 지남에 따라 증가해야했습니다. "궁극적으로 우리 엔지니어들은 홍보용 스팸 및 부적절한 콘텐츠에 대한 다단계의 다단계 접근 방식을 개발했습니다."라고 대변인이 말했습니다. 이 맥락에서 "부적절"은 외설적이거나 노골적인 과도한 노출 (예 : 옷, 성행위 노출), 폭력 (무기, 공격적인 제스처, 증오심 표현), 마약, 담배와 같은 물질을 포함하여 Yelp의 콘텐츠 가이드 라인을 위반하는 스팸을 의미합니다. , 알코올.

Yelp는 또한 시스템이 업로드 된 콘텐츠의 컨텍스트를 이해하는지 확인해야했습니다. 대부분의 AI 시스템과 달리 인간은 컨텍스트에서 텍스트, 비디오, 오디오 및 이미지의 의미를 함께 이해합니다. 예를 들어, 따로 고려했을 때 무해 해 보이는 텍스트와 이미지 (예 : "당신을 사랑하는 사람이 얼마나 많은지보세요"및 황량한 사막의 그림)가 주어지면 사람들은 이러한 요소가 짝을 이루었을 때 잠재적으로 해로운 의미를 갖는다는 것을 인식합니다. 나란히.

두 부분으로 구성된 프레임 워크

Yelp의 스팸 방지 솔루션은 스팸을 포함 할 가능성이 가장 높은 사진을 먼저 식별하는 두 부분으로 구성된 프레임 워크입니다. 두 번째 단계에서는 플래그 지정된 콘텐츠가 정밀도를 위해 조정 된 기계 학습 모델을 통해 실행되며, 이는 인간 중재자가 검토 할 소량의 사진 만 전송합니다. 일련의 휴리스틱 스가 모델과 함께 작동하여 파이프 라인 속도를 높이고 새로운 잠재적 스팸 및 부적절한 콘텐츠에 신속하게 대응합니다.

"우리는 수만 장의 Yelp 사진으로 구성된 사용자 지정 데이터 세트를 사용하고 전이 학습을 적용하여 사전 훈련 된 대규모 모델을 조정했습니다."라고 Yelp의 신뢰 및 안전 엔지니어링 부사장 인 Vivek Raman이 VentureBeat에 이메일을 통해 말했습니다. “이 모델은 GPU 가속 인스턴스에서 훈련 되었기 때문에 처음부터 심층 신경망을 훈련하는 것과 비교하여 전이 학습 프로세스 훈련을 매우 효율적으로 만들었습니다. 생산중인 모델의 성능을 모니터링하여 드리프트를 포착하고 진화하는 위협에 신속하게 대응할 수 있습니다. "

프로모션 스팸의 경우 시스템은 텍스트 나 로고가 많은 단순한 그래픽을 검색합니다. 부적절한 콘텐츠는 조금 더 복잡하므로 프레임 워크는 잔류 신경망을 활용하여 Yelp의 정책을 위반하는 사진을 식별하고 컨볼 루션 신경망 모델을 사용하여 사람이 포함 된 사진을 찾습니다. 잔여 신경망은 입력을 출력으로 변환하는 대뇌 피질의 피라미드 세포에서 알려진 구조를 기반으로합니다. 활동 잠재력. 유사한 생물학적 과정에서 영감을 얻은 컨볼 루션 신경망은 시각적 이미지 분석에 능숙합니다.

시스템이 프로모션 스팸을 감지하면 다른 딥 러닝 신경망을 사용하여 사진에서 텍스트를 추출하고 정규식 그리고 자연어 처리 서비스. 부적절한 콘텐츠의 경우 딥 러닝 모델을 사용하여 프레임 워크가 콘텐츠가 표시되는 위치를 고려하는 비즈니스 카테고리와 같은 컨텍스트 휴리스틱 스와 신뢰도 점수를 기반으로 정밀도를 보정하도록 지원합니다.

적과의 전투

Yelp의 휴리스틱은 반복적 인 스팸 발송자와 싸우는 데 도움이됩니다. 스팸으로 신고 된 사진은 퍼지 매칭 서비스에 의해 추적되므로 사용자가 스팸을 다시 업로드하려고하면 시스템에서 자동으로 삭제됩니다. 유사한 스팸 일치가없는 경우 콘텐츠 중재 팀 대기열에있을 수 있습니다.

검토를 기다리는 동안 이미지는 잠재적으로 안전하지 않은 콘텐츠에 노출되지 않도록 사용자에게 숨겨집니다. 또한 콘텐츠 조정 팀은 단일 콘텐츠 대신 사용자 프로필에 대해 조치를 취할 수 있습니다. 예를 들어 사용자가 스팸을 생성하는 것으로 확인되면 해당 사용자 프로필이 닫히고 모든 관련 콘텐츠가 제거됩니다.

콘텐츠 조정과 관련하여 AI는 결코 은색 총알이 아닙니다. 연구원들은 YouTube와 같은 플랫폼에서 자동화 된 콘텐츠 조정 도구가있는 사례를 문서화했습니다. 실수로 시리아에서 ISIS의 인권 침해를 기록한 비정부 기관에서 게시 한 동영상을 극단주의 콘텐츠로 분류하고 삭제했습니다. 뉴욕 대학교 공부 페이스 북의 AI 시스템만으로도 하루에 약 300,000 만 건의 콘텐츠 조정 실수가 발생하고 문제가있는 게시물이 계속해서 페이스 북의 필터를 통과한다고 추정합니다.

Raman은 AI 중재 시스템이 편향에 취약하다는 것을 인정하지만 Yelp의 엔지니어가이를 완화하기위한 조치를 취했다고 말합니다. “[편향]은 설계자의 의식적 또는 무의식적 편견이나 데이터 세트 자체에서 발생할 수 있습니다.이 시스템을 설계 할 때 특히 정교한 샘플링 기술을 사용하여 시스템의 편향을 줄이는 명확한 목표와 함께 균형 잡힌 훈련 세트를 생성했습니다. 또한 실수를 최소화하거나 오탐을 제거 할 가능성을 최소화하기 위해 모델을 정밀하게 교육합니다. "

Raman은 또한 Yelp의 새로운 시스템이 인간 중재자 팀을 대체하는 것이 아니라 확장한다고 주장합니다. 목표는 잘못 신고 된 콘텐츠를 복원 할 권한이있는 중재 팀이 검토하는 항목의 우선 순위를 지정하는 것입니다.

Raman은“기술을 활용하여보다 효율적인 프로세스를 생성하고 대규모 콘텐츠를 관리하는 것이 중요하지만 사람의 조정을 통해 견제와 균형을 유지하는 것이 훨씬 더 중요합니다. "트래픽이 적은 비즈니스 페이지는 소비자 또는 비즈니스 소유자가 콘텐츠를 포착하여 중재자에게보고 할 가능성이 적습니다. 따라서 우리의 사진 중재 워크 플로는 더 확장 가능한 방식으로 의심스러운 콘텐츠를 걸러내는 데 도움이됩니다."

VentureBeat

VentureBeat의 사명은 기술 의사 결정권자가 혁신적인 기술과 거래에 대한 지식을 습득 할 수있는 디지털 타운 스퀘어가되는 것입니다. 당사 사이트는 데이터 기술 및 전략에 대한 필수 정보를 제공하여 조직을 이끌 때 안내합니다. 다음에 액세스 할 수 있도록 커뮤니티의 일원이되도록 귀하를 초대합니다.

관심있는 주제에 대한 최신 정보
뉴스 레터
금지 된 사고 리더 콘텐츠 및 다음과 같은 소중한 이벤트에 대한 할인 된 액세스 변환 2021: 더 알아보기
네트워킹 기능 등

회원 가입

생성 데이터 인텔리전스

Yelp는 스팸 및 부적절한 사진을 식별하는 AI 시스템을 구축했습니다.

콘텐츠 조정 자동화

두 부분으로 구성된 프레임 워크

적과의 전투

VentureBeat

보너스 및 프로모션 이해: 온라인 카지노에서 승리를 극대화하는 방법

감시 카메라의 영상 저장 기능은 무엇입니까?

최신 인텔리전스

비디오 초인종에서 비디오 강화의 이점

비트코인의 200일 평균이 사상 최고치에 접근하고 있습니다. 이것이 중요한 이유는 다음과 같습니다.

뉴질랜드는 국제 기후 목표를 위해 필리핀과 협력하고 동남아시아에 41만 달러의 기후 자금을 약속합니다

학습 경험을 변화시키는 상위 5가지 수학 AI 해결사

OP, YGG, Loom 잠금 해제로 매도측 압력 느껴

라이벌들은 전 세계 비트코인 거래에서 바이낸스의 지배력을 노리고 있습니다 – CryptoInfoNet

우리와 함께 채팅