제퍼넷 로고

강화 학습으로 고객 참여 최적화

시간

이것은 Taylor Names, Staff Machine Learning Engineer, Dev Gupta, Machine Learning Manager, Argie Angeleas, Ibotta의 선임 제품 관리자가 공동으로 작성한 게스트 게시물입니다. Ibotta는 데스크톱 및 모바일 앱 사용자가 영수증 제출, 연결된 소매점 로열티 계정, 결제 및 구매 확인을 통해 매장, 모바일 앱 및 온라인 구매에 대해 캐시백을 받을 수 있도록 하는 미국 기술 회사입니다.

Ibotta는 사용자를 더 잘 유지하고 참여시키기 위해 개인화된 프로모션을 권장하기 위해 노력합니다. 그러나 프로모션과 사용자 선호도는 지속적으로 진화하고 있습니다. 많은 신규 사용자와 새로운 판촉이 있는 끊임없이 변화하는 환경은 전형적인 콜드 스타트 ​​문제입니다. 즉, 추론을 이끌어낼 수 있는 충분한 과거 사용자 및 판촉 상호 작용이 없습니다. 강화 학습(RL)은 누적 보상 개념을 최대화하기 위해 지능형 에이전트가 환경에서 조치를 취해야 하는 방법과 관련된 기계 학습(ML) 영역입니다. RL은 미지의 영역을 탐색하는 것과 현재 지식을 활용하는 것 사이의 균형을 찾는 데 중점을 둡니다. MAB(Multi-armed bandit)는 탐색/착취 트레이드오프를 예시하는 고전적인 강화 학습 문제입니다. ). MAB 알고리즘은 사용자를 위한 최적의 권장 사항을 탐색하고 활용합니다.

아이보타와 콜라보레이션 아마존 머신 러닝 솔루션 랩 사용자 및 프로모션 정보가 매우 동적인 경우 MAB 알고리즘을 사용하여 사용자 참여를 높입니다.

컨텍스트 MAB 알고리즘은 다음 사용 사례에서 효과적이기 때문에 선택했습니다.

  • 사용자의 상태(컨텍스트)에 따른 개인화 추천
  • 신규 보너스 및 신규 고객과 같은 콜드 스타트 ​​측면 다루기
  • 시간이 지남에 따라 사용자의 선호도가 변하는 권장 사항 수용

Data

보너스 상환을 늘리기 위해 Ibotta는 고객에게 개인화된 보너스를 보내기를 원합니다. 보너스는 상황에 맞는 다중 무장 도적 모델의 행동으로 사용되는 Ibotta의 자체 자금 지원 현금 인센티브입니다.

적기 모델은 두 가지 기능 세트를 사용합니다.

  • 액션 기능 – 보너스 유형 및 보너스의 평균 금액과 같은 작업을 설명합니다.
  • 고객 기능 – 지난 주의 사용 횟수, 클릭수, 조회수와 같은 고객의 과거 선호도 및 상호 작용을 설명합니다.

상황별 기능은 Ibotta 앱과의 사용자 상호 작용에서 생성된 26개의 주간 활동 메트릭이 포함된 과거 고객 여정에서 파생됩니다.

상황에 맞는 다중 무장 도적

Bandit은 의사 결정자가 잠재적으로 현재 컨텍스트 정보를 기반으로 작업을 순차적으로 선택하고 보상 신호를 관찰하는 순차적 의사 결정을 위한 프레임워크입니다.

상황에 맞는 multi-armed bandit 워크플로를 설정했습니다. 아마존 세이지 메이커 붙박이를 사용하여 보우팔 와빗(VW) 컨테이너. SageMaker는 데이터 과학자와 개발자가 ML을 위해 특별히 제작된 광범위한 기능 세트를 결합하여 고품질 ML 모델을 신속하게 준비, 구축, 교육 및 배포할 수 있도록 지원합니다. 모델 교육 및 테스트는 오프라인 실험을 기반으로 합니다. 적기는 실제 환경이 아닌 과거 상호작용의 피드백을 기반으로 사용자 선호도를 학습합니다. 알고리즘은 SageMaker가 지원 인프라로 유지되는 프로덕션 모드로 전환할 수 있습니다.

탐색/활용 전략을 구현하기 위해 다음 작업을 수행하는 반복적인 교육 및 배포 시스템을 구축했습니다.

  • 사용자 컨텍스트를 기반으로 Contextual bandit 모델을 사용하여 작업을 권장합니다.
  • 시간이 지남에 따라 암시적 피드백을 캡처합니다.
  • 증분 상호 ​​작용 데이터로 모델을 지속적으로 훈련

클라이언트 애플리케이션의 워크플로는 다음과 같습니다.

  1. 클라이언트 응용 프로그램은 작업을 검색하기 위해 SageMaker 끝점으로 전송되는 컨텍스트를 선택합니다.
  2. SageMaker 끝점은 작업, 관련 보너스 상환 확률 및 event_id.
  3. 이 시뮬레이터는 역사적 상호 작용을 사용하여 생성되었기 때문에 모델은 해당 컨텍스트에 대한 실제 클래스를 알고 있습니다. 에이전트가 상환이 포함된 작업을 선택하면 보상은 1입니다. 그렇지 않으면 에이전트는 보상 0을 얻습니다.

과거 데이터를 이용할 수 있고 다음과 같은 형식으로 되어 있는 경우 <state, action, action probability, reward>, Ibotta는 오프라인에서 정책을 학습하여 라이브 모델을 웜 스타트할 수 있습니다. 그렇지 않으면 Ibotta는 1일 차에 무작위 정책을 시작하고 거기에서 도적 정책을 학습하기 시작할 수 있습니다.

다음은 모델을 학습시키는 코드 스니펫입니다.

hyperparameters = { "exploration_policy": "egreedy" , # supports "egreedy", "bag", "cover" "epsilon": 0.01 , # used if egreedy is the exploration policy "num_policies": 3 , # used if bag or cover is the exploration policy "num_arms": 9,
} job_name_prefix = "ibotta-testbed-bandits-1" vw_image_uri = "462105765813.dkr.ecr.us-east-1.amazonaws.com/sagemaker-rl-vw-container:vw-8.7.0-cpu" # Train the estimator rl_estimator = RLEstimator(entry_point='train-vw_new.py', source_dir="src", image_uri=vw_image_uri, role=role, output_path=s3_output_path, base_job_name=job_name_prefix, instance_type=instance_type, instance_count=1, hyperparameters=hyperparameters) rl_estimator.fit(“s3 bucket/ibotta.csv”, wait=True)

모델 성능

교환된 상호작용을 훈련 데이터(10,000개의 상호작용)와 평가 데이터(5,300개의 홀드아웃 상호작용)로 무작위로 나눕니다.

평가 메트릭은 평균 보상으로, 1은 권장 작업이 사용되었음을 나타내고 0은 권장 작업이 사용되지 않았음을 나타냅니다.

다음과 같이 평균 보상을 결정할 수 있습니다.

평균 보상(상환 비율) = (상환이 포함된 권장 액션 수)/(총 권장 액션 수)

다음 표는 평균 보상 결과를 보여줍니다.

평균 보상 균일한 무작위 추천 상황별 MAB 기반 권장 사항
Train 11.44% 56.44%
Test 10.69% 59.09%

다음 그림은 훈련 중 증분 성능 평가를 표시합니다. 여기서 x축은 모델에서 학습한 레코드 수이고 y축은 증분 평균 보상입니다. 파란색 선은 다중 무장 적기를 나타냅니다. 주황색 선은 임의의 권장 사항을 나타냅니다.

그래프는 예측된 평균 보상이 반복을 통해 증가하고 예측된 행동 보상이 행동의 무작위 할당보다 훨씬 더 크다는 것을 보여줍니다.

이전에 훈련된 모델을 웜 스타트로 사용하고 새 데이터로 모델을 일괄 재훈련할 수 있습니다. 이 경우 초기 학습을 통해 모델 성능이 이미 수렴되었습니다. 다음 그림에서 볼 수 있듯이 새로운 배치 재학습에서는 유의미한 추가 성능 향상이 관찰되지 않았습니다.

또한 컨텍스트 밴딧을 균일 무작위 및 사후 무작위(이전 사용자 선호도 분포를 웜 스타트로 사용하는 무작위 권장) 정책과 비교했습니다. 결과는 다음과 같이 나열되고 플로팅됩니다.

  • 산적 – 59.09% 평균 보상(훈련 56.44%)
  • 균일 랜덤 – 10.69% 평균 보상(훈련 11.44%)
  • 사후 확률 랜덤 – 34.21% 평균 보상(훈련 34.82%)

상황에 맞는 multi-armed bandit 알고리즘은 다른 두 정책을 훨씬 능가했습니다.

요약

Amazon ML Solutions Lab은 Ibotta와 협력하여 SageMaker RL 컨테이너를 사용하여 상황별 밴디트 강화 학습 추천 솔루션을 개발했습니다.

이 솔루션은 오프라인 테스트를 기반으로 무작위(11배 상승) 및 비문맥적 RL(59배 상승) 권장 사항에 대해 꾸준한 증분 상환율 상승을 보여주었습니다. 이 솔루션을 통해 Ibotta는 동적 사용자 중심 추천 엔진을 구축하여 고객 참여를 최적화할 수 있습니다. 오프라인 테스트에 따르면 이 솔루션은 무작위 추천에 비해 추천 정확도(평균 보상)가 XNUMX%에서 XNUMX%로 향상되었습니다. Ibotta는 이 솔루션을 더 많은 개인화 사용 사례에 통합할 계획입니다.

"Amazon ML Solutions Lab은 Ibotta의 기계 학습 팀과 긴밀히 협력하여 사용을 늘리고 고객 참여를 최적화하는 동적 보너스 추천 엔진을 구축했습니다. 우리는 끊임없이 변화하는 고객 상태를 학습하고 적응하는 강화 학습을 활용하는 추천 엔진을 만들었으며 새로운 보너스를 자동으로 콜드 스타트합니다. 2개월 이내에 ML Solutions Lab 과학자들은 SageMaker RL 컨테이너를 사용하여 상황에 맞는 다중 무장 도적 강화 학습 솔루션을 개발했습니다. 맥락적 RL 솔루션은 상여금 상환율이 랜덤 추천에 비해 11배, 비상황적 RL 솔루션에 비해 59배 증가하여 상환율이 꾸준히 증가하는 것을 보여주었습니다. 추천 정확도는 무작위 추천을 사용하여 XNUMX%에서 ML Solutions Lab 솔루션을 사용하여 XNUMX%로 향상되었습니다. 이 솔루션의 효율성과 유연성을 감안할 때, 우리는 이 솔루션을 더 많은 Ibotta 개인화 사용 사례에 통합하여 사용자에게 모든 구매를 보람 있게 만드는 우리의 사명을 더욱 발전시킬 계획입니다."

– Heather Shannon, Ibotta의 엔지니어링 및 데이터 담당 수석 부사장.


저자에 관하여

테일러 이름 Ibotta의 직원 기계 학습 엔지니어로 콘텐츠 개인화 및 실시간 수요 예측에 중점을 두고 있습니다. Ibotta에 합류하기 전에 Taylor는 IoT 및 청정 에너지 공간에서 기계 학습 팀을 이끌었습니다.

데브 굽타 Ibotta Inc의 엔지니어링 관리자로 기계 학습 팀을 이끌고 있습니다. Ibotta의 ML 팀은 추천자, 예측자 및 내부 ML 도구와 같은 고품질 ML 소프트웨어를 제공하는 임무를 맡고 있습니다. Ibotta에 합류하기 전에 Dev는 기계 학습 스타트업인 Predikto Inc와 The Home Depot에서 근무했습니다. 그는 플로리다 대학을 졸업했습니다.

아르지 안젤리아스 Ibotta의 수석 제품 관리자로 기계 학습 및 브라우저 확장 팀을 이끌고 있습니다. Ibotta에 합류하기 전에 Argie는 iReportsource에서 제품 이사로 근무했습니다. Argie는 Wright State University에서 컴퓨터 과학 및 공학 박사 학위를 취득했습니다.

왕 팡 의 수석 연구원입니다. 아마존 머신 러닝 솔루션 랩, 여기에서 그녀는 다양한 산업 분야의 AWS 고객과 협력하여 ML 문제를 해결하는 Retail Vertical을 이끌고 있습니다. AWS에 합류하기 전에 Fang은 Anthem에서 데이터 과학 수석 이사로 근무하면서 의료 청구 처리 AI 플랫폼을 이끌었습니다. 그녀는 University of Chicago에서 통계학 석사를 취득했습니다.

신 첸 의 수석 관리자입니다. 아마존 머신 러닝 솔루션 랩, 그는 미국 중부, 중화권, LATAM 및 Automotive Vertical을 이끌고 있습니다. 그는 다양한 산업 분야의 AWS 고객이 기계 학습 솔루션을 식별하고 구축하여 조직에서 가장 높은 투자 수익을 얻을 수 있는 기계 학습 기회를 제공하도록 돕습니다. Xin은 University of Notre Dame에서 컴퓨터 과학 및 공학 박사 학위를 취득했습니다.

라지 비스와스 데이터 과학자입니다. 아마존 머신 러닝 솔루션 랩. 그는 AWS 고객이 가장 시급한 비즈니스 과제에 대해 다양한 산업 분야에서 ML 기반 솔루션을 개발하도록 돕습니다. AWS에 합류하기 전에 그는 Columbia University의 데이터 과학 대학원생이었습니다.

싱화 량 의 응용 과학자입니다. 아마존 머신 러닝 솔루션 랩, 그는 제조 및 자동차를 포함한 다양한 산업 분야의 고객과 협력하고 AI 및 클라우드 채택을 가속화하도록 돕습니다. Xinghua는 Carnegie Mellon University에서 공학 박사 학위를 취득했습니다.

리우 이순신 Amazon Customer Service의 응용 과학자입니다. 그녀는 ML/AI의 힘을 사용하여 Amazon 고객을 위한 사용자 경험을 최적화하고 AWS 고객이 확장 가능한 클라우드 솔루션을 구축하도록 돕는 데 열정적입니다. Amazon에서 그녀의 과학 연구는 회원 참여, 온라인 추천 시스템, 고객 경험 결함 식별 및 해결에 걸쳐 있습니다. 이씨는 일 외에는 강아지와 함께 여행과 자연 탐험을 즐깁니다.

spot_img

최신 인텔리전스

spot_img

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?