제퍼넷 로고

Amazon Fraud Detector에서 개념 증명을 구축하여 사기를 빠르게 잡기

시간

아마존 사기 탐지기 가짜 계정 생성 또는 온라인 지불 사기와 같은 잠재적인 사기성 온라인 활동을 쉽게 식별할 수 있는 완전 관리형 서비스입니다. 범용 기계 학습(ML) 패키지와 달리 Amazon Fraud Detector는 사기를 감지하도록 특별히 설계되었습니다. Amazon Fraud Detector는 데이터, 최신 ML 과학 및 20년 이상의 사기 탐지 경험을 결합합니다. Amazon.com 그리고 AWS는 귀사의 비즈니스에서 사기를 탐지하기 위해 맞춤형 ML 모델을 구축합니다.

이 게시물은 Online Fraud Insights 모델에 대한 강력한 개념 증명(POC)을 개발하고 실행하여 비즈니스에 대한 Amazon Fraud Detector의 가치를 평가할 수 있도록 도와줍니다. Online Fraud Insights 모델은 새로운 계정 사기, 온라인 거래 사기 또는 가짜 리뷰와 같은 다양한 사기 유형을 해결하기 위해 조정할 수 있는 감독된 ML 모델입니다. 데이터 가용성에 따라 일반적으로 1~2주 내에 Amazon Fraud Detector POC를 완료할 수 있습니다.

사기 라이프사이클

사기는 모든 형태와 규모로 발생하지만 일반적으로 동일한 XNUMX단계 수명 주기를 따릅니다.

  1. 나쁜 배우가 당신의 플랫폼에 합류합니다
  2. 나쁜 행위자가 사기를 저질렀습니다(동일한 계정에서 종종 여러 번).
  3. 결국 사기를 발견하고 나쁜 행위자를 차단합니다.

다음 다이어그램은 이 수명 주기를 시각화합니다.

악의적인 행위자는 먼저 다이어그램에서 Time Zero(T0)로 표시된 계정을 등록합니다. 후속 사기 이벤트는 T1, T2 및 T3 시간에 발생하며 시스템에서 감지되지 않습니다. 지불 거절의 형태로 몇 시간, 며칠 또는 몇 주가 될 수 있는 나중에 특정 시점(TN)에 사기를 발견하고 나쁜 행위자를 차단합니다.

사기를 늦게 발견하면 비용이 많이 듭니다. 판매된 상품 비용, 인적 검토 비용 및 지불 거절과 관련된 수수료와 관련된 금전적 비용이 있습니다. 또한 회사의 평판 또는 규제 위험이 있을 수 있습니다. 완벽한 시나리오에서는 사기를 예측하고 피해가 발생하기 전에 막을 수 있습니다. 한 가지 방법은 계정(T0)을 등록하는 즉시 나쁜 행위자를 잡아서 처음부터 플랫폼에 들어오지 못하게 하는 것입니다.

Amazon Fraud Detector가 도움이 될 수 있는 곳입니다. 누가 사기를 저지를 가능성이 있는지 예측하는 맞춤형 모델을 구축하고 사기가 발생하기 전에 사기를 예방(또는 최소화)하는 데 도움이 되는 정보를 사용할 수 있습니다.. 경우에 따라 Amazon Fraud Detector는 최대 95% 더 빠르게 사기를 감지하는 데 도움이 되었습니다.

Online Fraud Insights 모델로 POC를 설계할 때 가능한 한 T0에 가까운(이상적으로는 계정 등록 시) 악의적인 행위자를 탐지하는 모델을 구축해야 합니다. 확장된 POC의 일부로 후속 고위험 이벤트(예: 트랜잭션)에서 불량 행위자를 감지하는 추가 모델을 구축할 수도 있습니다.

온라인 사기 통찰력을 위한 POC 계획

Online Fraud Insights 모델로 POC를 시작하려면 다음을 고려하십시오.

  • 특정 사용 사례 – Online Fraud Insights 모델은 새로운 계정 사기, 거래 사기 또는 가짜 리뷰 남용과 같은 다양한 온라인 사기 및 남용 유형을 잘 감지합니다. 이 글을 쓰는 시점에서는 계정 탈취(ATO)를 감지할 수 없습니다.
  • 라이프사이클에서 부정 행위를 감지하려는 경우 – 올바른 POC 설계의 핵심 구성 요소입니다. 사기를 조기에 감지하는 것이 가장 좋습니다.

POC를 세 단계로 나누어야 합니다.

  1. 훈련 데이터 수집 – 모델 학습에 사용할 데이터를 수집합니다.
  2. 모델 학습 및 검출기 구성 – 비즈니스에서 사기를 탐지하도록 모델을 구축하고 훈련합니다. 학습된 모델과 규칙의 조합인 감지기를 빌드합니다.
  3. 성능 평가 – Amazon Fraud Detector가 사기를 더 빨리 포착하고 사기 손실을 줄이는지 확인

무료 평가판 기간 내에 POC를 완료할 수 있으며 일반적으로 1~2주가 소요됩니다. 사용 사례에 대한 도움이 필요한 경우, Amazon Fraud Detector 팀에 문의하십시오..

훈련 데이터 수집

POC의 첫 번째 단계는 관련 데이터를 수집하여 모델을 교육하는 것입니다.

드문 경우를 제외하고 일반적으로 더 많은 데이터가 더 적은 것보다 낫습니다. 모델을 교육하려면 Amazon Fraud Detector에 최소 10,000개의 레코드가 필요하며 그 중 500개 이상이 사기로 식별됩니다. 그러나 더 많은 기록과 다양한 사기 사례를 제공할수록 더 좋습니다. 그렇다고 해서 인위적으로 예제를 만들어야 한다는 의미는 아닙니다. 대신 역사적 사건을 더 추가하면 됩니다. 최소 3~6개월의 데이터를 수집해야 합니다.

사기 탐지 모델을 교육할 때 다음과 같은 데이터를 사용하려고 합니다. 성숙한, 이는 사기 수명 주기가 완료되었음을 의미합니다. 사용 사례에 따라 30–45일 이상이 소요될 수 있습니다. 예를 들어, 카드 부재 거래(지불 거절) 사기를 감지하는 경우 사기 청구를 식별하는 데 일반적으로 명세서 주기가 걸립니다. 학습 데이터 세트의 가장 최근 데이터는 최소 4~6주 이상이어야 하지만 사기 수명 주기를 완료할 수 있을 만큼 충분히 오래된 데이터를 결정할 때 최선의 판단을 사용하십시오.

요약하면 모델을 교육하려면 다음 모범 사례를 따르십시오.

  • 최소 10,000개의 레코드를 사용하고 그 중 500개는 사기 사례입니다(그러나 항상 많을수록 좋습니다).
  • 학습 데이터는 3~6개월에 걸쳐 있습니다(작업량은 적음). 가장 오래된 데이터는 XNUMX년 이하입니다.
  • 모든 비즈니스가 다르지만 데이터 세트는 최소 4주 이상 성숙되었습니다.

모델 학습 및 검출기 구성

학습 데이터를 수집했으므로 이제 모델을 학습하고 탐지기를 만들 차례입니다. 자세한 내용은 다음을 참조하십시오.

AWS SDK를 사용하여 프로그래밍 방식으로 이러한 리소스를 생성하는 방법에 대한 자세한 내용은 AWS 명령 줄 인터페이스 (AWS CLI),를 참조하십시오 GitHub 레포.

모델 점수 임계값 선택

모델은 0(최소 위험)에서 1,000(가장 위험) 사이의 점수를 생성합니다. 가양성의 균형을 유지하면서 수용 가능한 사기 적발률을 식별하려면 점수 임계값을 사용해야 합니다. 예를 들어 사기성 계정 등록을 식별한다고 가정합니다. 다음 차트는 점수 임계값 500(500점 이상은 사기로 분류됨을 의미)에서 사기 계정 등록의 53.2%를 포착한다는 것을 보여줍니다. 또한 합법적인 이벤트의 0.4%가 사기로 잘못 분류되는 것으로 나타났습니다.

Amazon Fraud Detector는 동일한 정보의 표 형식 보기도 제공합니다. 다음 이미지는 점수 임계값 150(150점 이상은 사기로 분류됨을 의미)에서 사기 계정 등록의 74%를 포착함을 보여줍니다. 또한 합법적인 이벤트의 3%가 사기로 잘못 분류되었음을 보여줍니다.

성능 평가

이전 단계를 완료하면 다음 이미지와 같이 사기 사용 사례에 대한 활성 모델 및 감지기 빌드가 있습니다.

이제 이 모델과 탐지기를 사용하여 Amazon Fraud Detector가 비즈니스에 제공하는 가치를 평가할 수 있습니다. 그렇게 하려면 AWS SDK와 GetPrediction API. 그만큼 GetPrediction API는 새로운 이벤트(예: 계정 등록)를 수신하고 모델을 기반으로 사기 점수를 출력하고 탐지기 규칙을 기반으로 결과를 출력합니다. 가장 최근 데이터 또는 최대 30일 이전의 데이터를 사용하여 모델을 테스트해야 합니다. 이렇게 하면 테스트 데이터 세트가 훈련 데이터 세트와 겹치지 않습니다. 최소한 1,000주 동안 5,000~2개의 레코드에 대해 모델을 테스트합니다. 사기를 식별하는 모델의 효과를 적절하게 평가하기에 충분한 데이터가 필요합니다.

실행에 대한 자세한 내용은 GetPrediction 배치 방식의 API, 참조 사기 탐지기 예측 API GitHub에서. 합성 데이터 세트를 테스트 데이터 세트로 교체해야 합니다. 사용 가능한 최신 데이터로 모델을 테스트하려고 하므로 마지막 날(또는 주)의 데이터가 모델 성능을 평가하는 데 가장 중요합니다.

사용 사례 및 데이터 가용성에 따라 다음 평가 전략 중 하나를 고려할 수 있습니다.

  • 사기를 감지하는 시간
  • 절약된 달러
  • 조사 수율

사기를 감지하는 시간

Amazon Fraud Detector가 가치를 추가하는지 확인하는 한 가지 방법은 사기 탐지 시간(TTDF) 지표를 사용하여 벤치마킹하는 것입니다. 악의적인 행위자가 사기 라이프사이클을 시작하는 순간부터 TTDF를 측정합니다. 다음 다이어그램(앞에서도 표시됨)은 사기 감지 타임라인을 보여줍니다.

TTDF는 계정 등록(T0)에서 시작하며 T0과 TN의 차이로 정의됩니다. 목표는 TTDF를 최소화하는 것입니다. POC의 일부로 평균 TTDF가 감소했는지 확인할 수 있습니다.

이 사용 사례의 경우 Amazon Fraud Detector에서 모델을 구축하여 등록 시(T0) 사기를 감지하려고 합니다. TTDF를 계산하려면 다음을 수행해야 합니다.

  1. 모델 성능 메트릭을 사용하여 비즈니스에 대한 참 긍정 비율과 거짓 긍정 비율의 균형을 맞추는 올바른 모델 점수 임계값을 결정하십시오. 1%의 오탐율은 모델 임계값을 선택할 때 좋은 시작점이지만 이상적인 컷오프는 위험 허용 범위와 수행하는 조치(예: 계정 차단 또는 수동 검토를 위해 보내기)에 따라 다릅니다.
  2. Amazon Fraud Detector를 통해 새 계정 등록 샘플을 실행하여 사기 점수 및 결과를 생성합니다. 각 이벤트에 대해 이벤트가 발생한 시간(T0)의 타임스탬프, 위험 점수 및 결과를 저장합니다. 해당 이벤트가 사기로 표시되면 사기 결정이 내려진 시간(TN)의 타임스탬프를 저장합니다.
  3. 사기로 표시된 이벤트의 경우 T0에서 TN을 뺍니다. TTDF입니다.

이상적인 시나리오에서는 Amazon Fraud Detector가 전체 사기의 상당 부분을 식별했으며 TTDF가 현재 시스템보다 짧은 것을 볼 수 있습니다.

절약된 달러

TTDF 전략의 확장으로 현재 접근 방식과 비교하여 절약된 비용을 추정할 수도 있습니다. Online Fraud Insights 모델은 모든 사람을 허용하고 사실 이후에 사기를 식별하는 것(완화)이 아니라 수명 주기 초기에 악의적인 행위자를 차단(예방)하도록 설계되었습니다. 악의적인 행위자가 계정을 등록하지 못하게 막으면 비즈니스 내에서의 후속 활동의 영향을 극적으로 제한할 수 있습니다. 이 사용 사례의 경우 등록(T0) 시 불량 행위자를 탐지한다고 가정합니다.

절약된 비용을 벤치마킹하려면 다음을 완료해야 합니다.

  1. 모델 성능 메트릭을 사용하여 비즈니스에 대한 참 긍정 비율과 거짓 긍정 비율의 균형을 맞추는 올바른 모델 점수 임계값을 결정하십시오. 1%의 오탐율은 모델 임계값을 선택할 때 좋은 시작점이지만 이상적인 컷오프는 위험 허용 범위와 수행하는 조치에 따라 다릅니다.
  2. Amazon Fraud Detector를 통해 등록 이벤트의 테스트 샘플을 실행하여 사기 점수 및 결과를 생성합니다. 각 이벤트에 대해 이벤트가 발생한 시간(T0)의 타임스탬프, 위험 점수 및 결과를 저장합니다. 해당 이벤트가 사기로 표시되면 사기 결정이 내려진 시간(TN)의 타임스탬프와 사기 손실을 달러로 저장합니다.
  3. 다음을 세십시오.
    1. 점수 임계값을 기반으로 방지된 사기 이벤트. 각 사기 사건에 대해 손실을 달러로 저장하는 것을 잊지 마십시오. 이 데이터를 사용할 수 없는 경우 추정치를 사용하십시오.
    2. 점수 임계값에 따라 사기로 잘못 식별된 적법한 이벤트입니다. 잘못 식별된 각각의 적법한 이벤트에 대해 손실된 잠재 수익 또는 오탐 조사와 관련된 비용을 추정합니다.
  4. 각 버킷의 수를 계산하고 이벤트당 비용을 곱하십시오. 예를 들어 1,000개는 사기이고 20개는 합법적인 980개 이벤트 중 다음을 찾을 수 있습니다.
    1. 이 모델은 등록 시 10건의 사기 사건 중 20건을 성공적으로 식별하여 사기가 발생하지 않도록 방지했습니다. 각 사기 사건에 대해 $150의 사기 손실을 가정하므로 완화된 총 사기 손실은 10 x $150 = $1,500입니다.
    2. 이 모델은 합법적인 인구의 1%를 잠재적 사기로 잘못 표시하여 10명의 고객을 잠재적으로 사기로 잘못 표시했습니다. 이러한 고객은 수작업으로 조사되었으며 조사당 비용은 $5입니다. 오탐의 총 비용은 10 x $5 = $50입니다.
  5. 완화된 사기 손실에서 오탐 비용과 Amazon Fraud Detector 실행 비용을 빼서 절약된 총 비용을 계산합니다. 이 사용 사례에서 각 평가 비용이 평가당 $0.03라고 가정하면 절감된 총 비용은 $1,500(사기 손실 완화) – $50(가양성 비용) – $30(Amazon Fraud Detector 실행 비용) = $1,420 절감액입니다.
  6. 선택한 점수 임계값에서 Amazon Fraud Detector의 달러, 개수 및 백분율을 현재 사기 시스템과 비교합니다.

이상적으로 Amazon Fraud Detector는 현재 솔루션에 비해 상당한 절감 효과를 보여줍니다.

조사 수율

Amazon Fraud Detector를 벤치마킹하는 또 다른 방법은 수동 조사 수율과 현재 사기 시스템을 비교하는 것입니다. 수율은 사기로 판명된 조사 수를 총 조사 수로 나눈 값으로 정의됩니다. 이상적으로는 인간 조사관이 오탐지를 조사하는 데 시간을 낭비하지 않도록 높은 수율을 원합니다.

조사 수율을 벤치마킹하려면 다음을 완료하십시오.

  1. 모델 성능 메트릭을 사용하여 비즈니스에 대한 참 긍정 비율과 거짓 긍정 비율의 균형을 맞추는 올바른 모델 점수 임계값을 결정하십시오. 이상적인 컷오프는 위험 허용 범위에 따라 다르지만 5%의 거짓 긍정률은 모델 임계값을 선택할 때 좋은 출발점입니다.
  2. Amazon Fraud Detector를 통해 샘플 이벤트를 실행하여 사기 점수 및 결과를 생성합니다.
  3. 조사를 위해 보낸 이벤트 수(총 조사 수 또는 TIC)와 사기로 표시된 조사 이벤트 수(FIC의 사기 조사 수)를 기록합니다.
  4. 조사 수율을 계산하려면 FIC를 TIC로 나눕니다.
  5. Amazon Fraud Detector의 수익을 현재 사기 시스템의 수익과 비교하십시오.

이상적으로는 Amazon Fraud Detector를 사용하면 수율이 더 높고 충분한 양의 사기도 포착합니다.

결론

POC를 성공적으로 완료한 후 감지기를 섀도우 모드에서 실행하거나 프로덕션 트래픽을 감지기로 라우팅하여 라이브 시스템으로 전환할 수 있습니다. 섀도우 모드 또는 프로덕션으로의 전환은 이 게시물의 범위를 벗어나지만 AWS Solutions Architect는 다음 구현 단계를 통해 작업할 수 있도록 지원할 준비가 되어 있습니다.


저자에 관하여

Chris Porter는 Amazon Fraud Detector에서 근무하는 선임 제품 관리자입니다. 그는 기계 학습을 활용하여 AWS 고객이 사기를 막도록 돕는 일에 열정적입니다. 여가 시간에는 하이킹, 스키, 태평양 북서부의 산 탐험을 즐깁니다.

Mike Ames는 Amazon Fraud Detector에서 일하는 연구 과학 관리자입니다. 그는 기업이 기계 학습을 사용하여 사기, 낭비 및 남용을 방지하도록 돕습니다. 여가 시간에는 전자 만돌린으로 90년대 메탈에 재밍하는 모습을 볼 수 있습니다.

출처: https://aws.amazon.com/blogs/machine-learning/catching-fraud-faster-by-building-a-proof-of-concept-in-amazon-fraud-detector/

spot_img

최신 인텔리전스

spot_img