제퍼넷 로고

십분위수 분석의 잃어버린 기술

시간

십분위수 분석의 잃어버린 기술

분류의 목표는 기계 학습 알고리즘의 기본적이고 널리 사용되는 응용 프로그램입니다. 그러나 겉보기에 간단한 이진 분류기의 결과에서도 추가 분석을 통한 신중한 고려가 이루어지지 않으면 예측의 더 깊은 의미가 모호해질 수 있습니다.


By 벤캇 라만, 아리마 연구소 공동 창립자.


이미지 출처 : Unsplash

이진 로지스틱 회귀 분석은 응답 변수가 이분형(이탈/이탈 안 함, 합격/실패, 스팸/스팸 없음 등)이 되기를 원하는 경우 분류 알고리즘으로 사용됩니다.

일반적으로 우리는 적절한 확률 컷오프 또는 임계값(0.4, 0.5, 0.6 등)을 설정하여 로지스틱 회귀 분석을 분류 알고리즘으로 만듭니다.

임계값을 이용한 분류 문제

확률 임계값을 수정하는 것은 순전히 비즈니스 호출이지 통계적인 호출이 아닙니다.

Frank Harrell은 자신의 블로그에서1 적절하게도 요점을 말해준다 “분류는 강제된 선택이다.”

이제 이 예를 고려해보세요. 임계값 0.5를 선택합니다. ML 알고리즘은 1명의 고객에 대한 불이행 또는 불이행 확률(0- 기본값, 4 - 기본값 없음)을 0.51, 0.49, 0.23 및 0.92로 출력합니다. 임계값을 기준으로 2개는 '기본값'으로 분류되고, 2개는 '기본값 없음'으로 분류됩니다. 하지만 스스로에게 물어보세요. 확률이 0.51과 0.49로 고객을 호출하기에는 너무 가깝지 않습니까? 0.51은 0.49(기본값으로 분류됨)보다 확실히 0.92(기본값 없음으로 분류됨)에 더 가깝습니다.

일부 기계 학습 패키지 및 로우 코드 도구는 예측 확률을 사용자에게 명시적으로 설명하지 않습니다. 따라서 사용자는 예측 확률이 무엇인지 알지 못합니다. 그들은 단순히 결정을 내립니다. 즉, 기본값 또는 기본값 없음(1 또는 0)입니다. 0.49와 0.51의 경우 사용자는 각각 채무 불이행을 하지 않을 것이라는 결정을 행복하게 내렸습니다. 하지만 예측 확률을 들여다보면 결정하기에는 너무 가까웠음을 알 수 있습니다!

임계값의 또 다른 문제는 분류 정확도와 같은 부적절한 채점 규칙을 사용하면 쉽게 조작될 수 있다는 것입니다. 예를 들어, 100명 중 95명은 대출을 연체하고 5명은 그렇지 않습니다. 분류자가 모든 사람을 대출 불이행으로 분류하면 정확도는 95%입니다!

그렇다면 로지스틱 회귀를 사용하는 더 좋은 방법이 있습니까?

금융 및 마케팅과 같은 산업에서는 각각 신용 위험 모델링 및 마케팅 캠페인 타겟팅에 보다 적절한 방식으로 로지스틱 회귀를 사용합니다.

실제 사용 사례

당신이 조직에서 제품의 영업 및 마케팅을 담당하는 CMO라고 가정해 보겠습니다. 해당 제품의 판매를 늘리기 위해 마케팅 캠페인을 시작할 계획입니다. 이를 위해 고정된 예산이 주어졌습니다. 이제 당신은 가능한 최고의 ROI를 원합니다. 즉, 정확한 고정 예산 또는 그 이하의 예산을 지출하여 가능한 최대 매출을 얻고자 합니다. 여기 당신이 가지고 있는 것이 있습니다.

과거에 유사한 제품을 구매했거나 구매하지 않은 고객 10,000명의 데이터가 있습니다.

이번에 구매 가능성을 높이려면 어떤 고객을 타겟팅해야 하는지 알고 싶습니다.

캠페인에 대한 예산이 고정되어 있으므로 제품을 구매할 가능성이 더 높은 사람들을 타겟팅하고 싶을 것입니다. 어떻게 해야 할까요?

그 답은 십분위수 분석이다.

그렇다면 십분위수 분석이란 무엇일까요?

십분위수 분석은 한때 널리 사용되는 기술이었습니다. 그러나 기계 학습 문제를 '분류' 또는 '회귀' 유형으로 교육하고 분류하는 관례로 인해 사람들은 십분위수 분석 유형 분석을 잊어버리게 되었습니다.

많은 노련한 데이터 과학자들은 이 이름을 기억할 것입니다. '이익 차트.' 십분위수 분석은 예측 확률을 기준으로 데이터 세트를 최고 값에서 최저 값으로 또는 그 반대로 분류하는 데 사용됩니다.

이름에서 알 수 있듯이 분석에는 데이터 세트를 XNUMX개의 동일한 그룹으로 나누는 작업이 포함됩니다. 각 그룹은 동일한 번호를 가져야 합니다. 관찰/고객.

응답할 가능성이 가장 높은 것부터 응답할 가능성이 가장 낮은 것 순으로 고객의 순위를 매깁니다.

다음 단계는 다음과 같습니다

1 단계 : 로지스틱 회귀 모델을 구축합니다. 이 경우 종속변수는 '제품을 구매할 확률'로, 1은 구매함, 0은 구매하지 않음을 의미한다. 또한, 관련 독립변수를 선정하였다.

2 단계 : 로지스틱 회귀 알고리즘에서 예측 확률을 구합니다. 확률을 내림차순으로 정렬하세요.

3 단계 : 전체 데이터 세트를 10개의 그룹으로 나눕니다. 각 그룹에는 동일한 수의 관측치가 포함되어야 합니다. 따라서 10,000개의 레코드가 있는 경우 각 그룹에는 1,000개의 레코드/고객이 있습니다.

4 단계 : 각 십분위수에 대한 응답자의 비율을 계산합니다.

5 단계 : 각 십분위수에 대한 응답률을 계산합니다.

6 단계 : 각 십분위수에 대한 상승도를 계산합니다.

상위 십분위에는 응답할 가능성이 가장 높은 고객이 있고, 그 다음으로 응답할 가능성이 가장 높은 고객이 있는 십분위 2 등이 있습니다.

십분위 분석의 주요 장점 중 하나는 확률과 확률 범위가 자체 오류 측정값이라는 것입니다. 즉, 상위 십분위의 확률 범위가 0.75~0.81이면 이 사람이 제품을 구매하지 않을 확률, 즉 오류는 (1-[0.75~0.81]이 됩니다. 여기서 '[]'는 간격을 나타냅니다. 0.75~0.81을 포함하여 0.75~0.81 사이의 값).

아래 표는 일반적인 십분위수 분석 결과를 보여줍니다.

표 1

앞서 언급했듯이 각 십분위수에는 동일한 수의 고객이 있습니다(각 십분위수당 1000명).

각 십분위수에 대한 응답자의 % = 해당 십분위의 응답자 수/전체 10분위의 총 응답자 수

표 1를 참조하십시오.

  • 1분위수에 대한 응답자 % = 224/984 = 22.8%
  • 총 984번입니다. 10개 십분위 전체의 응답자 수
  • 마찬가지로 2분위수에 대한 응답자 % = 16.5%(162/984)
  • 상위 2분위에 대한 응답자의 누적 % = 39.2%

이득 및 이득 차트

표 1에서 1분위수에는 구매할 가능성이 가장 높은 상위 10% 고객이 포함되어 있습니다. 1분위에는 응답자 수가 가장 많습니다(응답자 224명).

따라서 모든 십분위의 전체 응답자 중에서 응답자의 22.8%가 십분위 1에 속합니다. 따라서 고객 기반의 10%에 대해 십분위 22.8에 1%의 응답이 있습니다.

마찬가지로, 20분위와 1분위 고객 기반의 2%에 대해 39.2%의 응답이 있습니다.

아래 게인 차트가 이를 더 잘 설명합니다.

이득 차트를 사용하면 각 십분위수에서 응답하는 고객의 비율을 평가할 수 있습니다. 따라서 하위 십분위의 고객을 타겟팅하는 대신 상위 십분위의 고객만 선택할 수 있습니다.

기준선은 모델 없이 고객을 무작위로 타겟팅할 경우 응답할 고객의 비율을 알려줍니다.

응답률

응답률은 각 십분위별로 응답한 고객의 비율을 나타냅니다. 응답 %는 1분위에서 가장 높고, 2분위가 그 뒤를 잇는 식입니다.

십분위수별 응답률 = 해당 십분위의 응답자 수 / 해당 십분위의 고객 수

표 1를 참조하십시오.

여기서 1분위수 응답률 = 224/1000 = 22.4%

응답률 비교에서 얻은 교훈: 아래 차트는 십분위별 응답률을 나타냅니다. 전체 십분위의 평균 응답률은 9.8%입니다. 따라서 1분위수부터 4분위수까지의 고객은 평균 응답률보다 높으므로 캠페인의 대상이 되어야 합니다.

리프트 및 리프트 곡선

승강기 = 각 십분위의 응답자 누적 % / 고객 %

표 1를 참조하십시오.

  • 십분위수 1의 상승도 = 22.8%/10% = 2.28
  • 십분위수 2의 상승도 = 39.2%/20% = 1.96

해석 방법: 상위 20개 십분위를 목표로 삼는다면 전체 고객의 39.2%를 목표로 삼게 됩니다. 동일한 십분위에서 응답자의 누적 %는 1.96%입니다. 따라서 상승도는 XNUMX입니다.

리프트가 1이면 1번에 비해 이득이 없음을 의미합니다. 무작위로 타겟팅된 고객. XNUMX보다 큰 리프트는 고객을 무작위로 선택하는 것보다 모델 접근 방식이 더 낫다는 것을 의미합니다.

리프트 차트의 시사점: 상승도가 더 높은 십분위수를 식별하는 데 사용할 수 있습니다.

비즈니스 의사결정에 십분위수 분석을 사용하는 방법

이제 십분위수 분석 구축을 완료했으므로 다음으로 관련된 질문은 이 분석을 사용하여 효과적인 비즈니스 결정을 내리는 방법입니다.

십분위수 분석표를 다시 살펴보겠습니다.

위의 결과를 토대로 우리는 제품 구매 가능성이 더 높은 상위 4분위의 고객을 타겟팅하기로 결정했습니다.

비즈니스 관점에서 보면 상위 4개 십분위를 타겟팅하는 ROI가 더 높습니다. 십분위 아래로 내려갈수록 ROI는 급격히 감소하므로 이러한 고객을 추적할 가치가 없습니다.

중요: 본 블로그에서는 십분위수 분석에 중점을 두고 있지만, 10%보다 작은 간격(예: 5%, 1%)을 고려하면 십분위수 분석을 더욱 일반화할 수 있습니다. 설명을 단순화하기 위해 10% 단계(십분위수 분석)로 제한하지만 더 작은 단계로 일반화하는 것은 쉽게 이루어질 수 있습니다.

이상으로 십분위수 분석 기사를 마치겠습니다. 귀하의 의견을 환영합니다.

이 기사는에 의해 공동 저술되었다. 리디마 쿠마르벤캇 라만, 공동 설립자 아리마 연구소.

참조

https://www.fharrell.com/post/classification/

관련 :


PlatoAi. Web3 재창조. 데이터 인텔리전스 증폭.
액세스하려면 여기를 클릭하십시오.

출처: https://www.kdnuggets.com/2021/07/lost-art-decile-analytics.html

spot_img

최신 인텔리전스

spot_img

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?