Tối ưu hóa sự tương tác của khách hàng với Học tập tăng cường

Đây là bài đăng của khách được đồng tác giả bởi Taylor Names, Nhân viên Kỹ sư Máy học, Dev Gupta, Giám đốc Học máy và Argie Angeleas, Giám đốc Sản phẩm Cấp cao tại Ibotta. Ibotta là một công ty công nghệ của Mỹ cho phép người dùng sử dụng ứng dụng dành cho máy tính để bàn và thiết bị di động của mình kiếm tiền hoàn lại khi mua hàng tại cửa hàng, ứng dụng dành cho thiết bị di động và mua hàng trực tuyến với việc gửi biên nhận, liên kết tài khoản khách hàng thân thiết của nhà bán lẻ, thanh toán và xác minh mua hàng.

Ibotta cố gắng giới thiệu các chương trình khuyến mãi được cá nhân hóa để giữ chân và thu hút người dùng của mình tốt hơn. Tuy nhiên, các chương trình khuyến mãi và ưu đãi của người dùng không ngừng phát triển. Môi trường luôn thay đổi này với nhiều người dùng mới và chương trình khuyến mãi mới là một vấn đề khởi đầu nguội điển hình — không có đủ người dùng lịch sử và tương tác với quảng cáo để rút ra bất kỳ suy luận nào từ đó. Học tăng cường (RL) là một lĩnh vực của học máy (ML) liên quan đến cách các tác nhân thông minh nên thực hiện hành động như thế nào trong một môi trường để tối đa hóa khái niệm về phần thưởng tích lũy. RL tập trung vào việc tìm kiếm sự cân bằng giữa khám phá lãnh thổ chưa được khám phá và khai thác kiến thức hiện tại. Kẻ cướp nhiều nhánh (MAB) là một bài toán học củng cố cổ điển thể hiện sự cân bằng giữa việc khám phá / khai thác: tối đa hóa phần thưởng trong ngắn hạn (khai thác) trong khi hy sinh phần thưởng ngắn hạn cho kiến thức có thể tăng phần thưởng trong dài hạn (khám phá ). Thuật toán MAB khám phá và khai thác các đề xuất tối ưu cho người dùng.

Ibotta đã hợp tác với Phòng thí nghiệm Giải pháp Máy học của Amazon sử dụng thuật toán MAB để tăng mức độ tương tác của người dùng khi người dùng và thông tin quảng cáo có tính năng động cao.

Chúng tôi đã chọn thuật toán MAB theo ngữ cảnh vì nó hiệu quả trong các trường hợp sử dụng sau:

Đưa ra các đề xuất được cá nhân hóa theo trạng thái của người dùng (ngữ cảnh)
Đối phó với các khía cạnh khởi đầu nguội lạnh, chẳng hạn như tiền thưởng mới và khách hàng mới
Cung cấp các đề xuất trong đó sở thích của người dùng thay đổi theo thời gian

Ngày

Để tăng quy đổi tiền thưởng, Ibotta mong muốn gửi tiền thưởng cá nhân hóa cho khách hàng. Tiền thưởng là các ưu đãi tiền mặt tự tài trợ của Ibotta, được coi là các hành động của mô hình tên cướp đa vũ trang theo ngữ cảnh.

Mô hình tên cướp sử dụng hai bộ tính năng:

Tính năng hành động - Những điều này mô tả các hành động, chẳng hạn như loại tiền thưởng và số tiền trung bình của tiền thưởng
Các tính năng của khách hàng - Những thông tin này mô tả các sở thích và tương tác trước đây của khách hàng, chẳng hạn như số lần mua lại, số nhấp chuột và số lượt xem của những tuần trước

Các tính năng theo ngữ cảnh được lấy từ hành trình lịch sử của khách hàng, bao gồm 26 chỉ số hoạt động hàng tuần được tạo ra từ các tương tác của người dùng với ứng dụng Ibotta.

Tên cướp nhiều nhánh theo ngữ cảnh

Bandit là một khuôn khổ để ra quyết định tuần tự, trong đó người ra quyết định chọn một hành động liên tục, có khả năng dựa trên thông tin ngữ cảnh hiện tại và quan sát một tín hiệu khen thưởng.

Chúng tôi thiết lập quy trình công việc chia nhiều nhánh theo ngữ cảnh trên Amazon SageMaker sử dụng tích hợp sẵn Vowpal Wabbit (VW) thùng đựng hàng. SageMaker giúp các nhà khoa học và nhà phát triển dữ liệu chuẩn bị, xây dựng, đào tạo và triển khai các mô hình ML chất lượng cao một cách nhanh chóng bằng cách tập hợp một loạt các khả năng được xây dựng có mục đích cho ML. Việc đào tạo và thử nghiệm mô hình dựa trên thử nghiệm ngoại tuyến. Kẻ cướp tìm hiểu sở thích của người dùng dựa trên phản hồi của họ từ các tương tác trong quá khứ hơn là môi trường trực tiếp. Thuật toán có thể chuyển sang chế độ sản xuất, nơi SageMaker vẫn là cơ sở hạ tầng hỗ trợ.

Để thực hiện chiến lược thăm dò / khai thác, chúng tôi đã xây dựng hệ thống đào tạo và triển khai lặp đi lặp lại nhằm thực hiện các hành động sau:

Đề xuất một hành động bằng cách sử dụng mô hình chia theo ngữ cảnh dựa trên ngữ cảnh của người dùng
Nắm bắt các phản hồi ngầm theo thời gian
Liên tục đào tạo mô hình với dữ liệu tương tác gia tăng

Quy trình làm việc của ứng dụng khách như sau:

Ứng dụng khách chọn một ngữ cảnh, ngữ cảnh này được gửi đến điểm cuối SageMaker để truy xuất một hành động.
Điểm cuối SageMaker trả về một hành động, xác suất đổi tiền thưởng liên quan và event_id.
Vì trình mô phỏng này được tạo bằng cách sử dụng các tương tác lịch sử, nên mô hình biết lớp thực sự cho ngữ cảnh đó. Nếu nhân viên chọn một hành động có phần thưởng, phần thưởng là 1. Ngược lại, đại lý nhận được phần thưởng là 0.

Trong trường hợp dữ liệu lịch sử có sẵn và ở định dạng <state, action, action probability, reward>, Ibotta có thể bắt đầu một mô hình trực tiếp bằng cách tìm hiểu chính sách ngoại tuyến. Nếu không, Ibotta có thể bắt đầu một chính sách ngẫu nhiên trong ngày đầu tiên và bắt đầu tìm hiểu chính sách cướp từ đó.

Sau đây là đoạn mã để đào tạo mô hình:

hyperparameters = { "exploration_policy": "egreedy" , # supports "egreedy", "bag", "cover" "epsilon": 0.01 , # used if egreedy is the exploration policy "num_policies": 3 , # used if bag or cover is the exploration policy "num_arms": 9,
} job_name_prefix = "ibotta-testbed-bandits-1" vw_image_uri = "462105765813.dkr.ecr.us-east-1.amazonaws.com/sagemaker-rl-vw-container:vw-8.7.0-cpu" # Train the estimator rl_estimator = RLEstimator(entry_point='train-vw_new.py', source_dir="src", image_uri=vw_image_uri, role=role, output_path=s3_output_path, base_job_name=job_name_prefix, instance_type=instance_type, instance_count=1, hyperparameters=hyperparameters) rl_estimator.fit(“s3 bucket/ibotta.csv”, wait=True)

Hiệu suất mô hình

Chúng tôi chia ngẫu nhiên các tương tác đã đổi thành dữ liệu đào tạo (10,000 tương tác) và dữ liệu đánh giá (5,300 tương tác giữ lại).

Chỉ số đánh giá là phần thưởng trung bình, trong đó 1 cho biết hành động được đề xuất đã được đổi và 0 cho biết hành động được đề xuất không được đổi.

Chúng ta có thể xác định phần thưởng trung bình như sau:

Phần thưởng trung bình (tỷ lệ quy đổi) = (# hành động được đề xuất có quy đổi) / (tổng số # hành động được đề xuất)

Bảng sau đây cho thấy kết quả phần thưởng trung bình:

Phần thưởng trung bình	Đề xuất ngẫu nhiên thống nhất	Đề xuất dựa trên MAB theo ngữ cảnh
Train	11.44%	56.44%
Thử nghiệm	10.69%	59.09%

Hình sau vẽ biểu đồ đánh giá hiệu suất gia tăng trong quá trình đào tạo, trong đó trục x là số lượng bản ghi mà mô hình học được và trục y là phần thưởng trung bình gia tăng. Đường màu xanh lam cho biết tên cướp nhiều nhánh; dòng màu cam cho biết các đề xuất ngẫu nhiên.

Biểu đồ cho thấy phần thưởng trung bình được dự đoán tăng lên qua các lần lặp lại và phần thưởng cho hành động được dự đoán lớn hơn đáng kể so với việc chỉ định ngẫu nhiên các hành động.

Chúng tôi có thể sử dụng các mô hình đã được đào tạo trước đó khi khởi động ấm và đào tạo lại hàng loạt mô hình với dữ liệu mới. Trong trường hợp này, hiệu suất của mô hình đã được hội tụ thông qua đào tạo ban đầu. Không có cải thiện hiệu suất bổ sung đáng kể nào được quan sát thấy trong việc đào tạo lại hàng loạt mới, như thể hiện trong hình sau.

Chúng tôi cũng so sánh nhóm chia theo ngữ cảnh với các chính sách ngẫu nhiên đồng nhất và ngẫu nhiên sau (đề xuất ngẫu nhiên sử dụng phân phối tùy chọn người dùng lịch sử làm khởi đầu ấm). Kết quả được liệt kê và vẽ biểu đồ như sau:

Kẻ cướp - 59.09% phần thưởng trung bình (đào tạo 56.44%)
Ngẫu nhiên đồng nhất - 10.69% phần thưởng trung bình (đào tạo 11.44%)
Xác suất sau ngẫu nhiên - 34.21% phần thưởng trung bình (đào tạo 34.82%)

Thuật toán chia nhiều nhánh theo ngữ cảnh hoạt động tốt hơn đáng kể so với hai chính sách còn lại.

Tổng kết

Phòng thí nghiệm Giải pháp ML của Amazon đã hợp tác với Ibotta để phát triển giải pháp đề xuất học tập củng cố theo ngữ cảnh bằng cách sử dụng vùng chứa SageMaker RL.

Giải pháp này đã chứng minh mức tăng tỷ lệ đổi thưởng gia tăng ổn định so với các đề xuất RL ngẫu nhiên (mức tăng năm lần) và không theo ngữ cảnh (mức tăng hai lần) dựa trên một thử nghiệm ngoại tuyến. Với giải pháp này, Ibotta có thể thiết lập một công cụ đề xuất động lấy người dùng làm trung tâm để tối ưu hóa mức độ tương tác của khách hàng. So với đề xuất ngẫu nhiên, giải pháp đã cải thiện độ chính xác của đề xuất (phần thưởng trung bình) từ 11% lên 59%, theo thử nghiệm ngoại tuyến. Ibotta có kế hoạch tích hợp giải pháp này vào nhiều trường hợp sử dụng cá nhân hóa hơn.

"Phòng thí nghiệm Giải pháp ML của Amazon đã hợp tác chặt chẽ với nhóm Học máy của Ibotta để xây dựng một công cụ đề xuất tiền thưởng năng động nhằm tăng số lượt đổi thưởng và tối ưu hóa mức độ tương tác của khách hàng. Chúng tôi đã tạo một công cụ đề xuất tận dụng tính năng học tập củng cố để học hỏi và thích ứng với trạng thái khách hàng luôn thay đổi và tự động bắt đầu các phần thưởng mới. Trong vòng 2 tháng, các nhà khoa học của ML Solutions Lab đã phát triển một giải pháp học tập củng cố tên cướp nhiều nhánh theo ngữ cảnh bằng cách sử dụng vùng chứa SageMaker RL. Giải pháp RL theo ngữ cảnh cho thấy tỷ lệ đổi thưởng tăng ổn định, tỷ lệ đổi thưởng tăng gấp 11 lần so với đề xuất ngẫu nhiên và tăng hai lần so với giải pháp RL không theo ngữ cảnh. Độ chính xác của đề xuất được cải thiện từ 59% khi sử dụng đề xuất ngẫu nhiên lên XNUMX% khi sử dụng giải pháp Phòng thí nghiệm giải pháp ML. Với tính hiệu quả và tính linh hoạt của giải pháp này, chúng tôi có kế hoạch tích hợp giải pháp này vào nhiều trường hợp sử dụng cá nhân hóa Ibotta hơn để tiếp tục sứ mệnh của chúng tôi là làm cho mọi giao dịch mua hàng trở nên hữu ích cho người dùng của chúng tôi."

- Heather Shannon, Phó Chủ tịch Cấp cao về Kỹ thuật & Dữ liệu tại Ibotta.

Về các tác giả

Tên Taylor là một nhân viên kỹ sư máy học tại Ibotta, tập trung vào cá nhân hóa nội dung và dự báo nhu cầu theo thời gian thực. Trước khi gia nhập Ibotta, Taylor đã lãnh đạo các nhóm học máy trong không gian IoT và năng lượng sạch.

Dev Gupta là giám đốc kỹ thuật tại Ibotta Inc, nơi ông lãnh đạo nhóm học máy. Nhóm ML tại Ibotta được giao nhiệm vụ cung cấp phần mềm ML chất lượng cao, chẳng hạn như người giới thiệu, người dự báo và các công cụ ML nội bộ. Trước khi gia nhập Ibotta, Dev đã làm việc tại Predikto Inc, một công ty khởi nghiệp về học máy và The Home Depot. Anh tốt nghiệp Đại học Florida.

Argie Angelas là Giám đốc Sản phẩm Cấp cao tại Ibotta, nơi ông lãnh đạo nhóm Học máy và Mở rộng Trình duyệt. Trước khi gia nhập Ibotta, Argie từng là Giám đốc Sản phẩm của iReportsource. Argie lấy bằng Tiến sĩ Khoa học Máy tính và Kỹ thuật tại Đại học Bang Wright.

Phương Vương là một Nhà Khoa học Nghiên cứu Cấp cao tại Phòng thí nghiệm Giải pháp Máy học của Amazon, nơi cô lãnh đạo Dọc bán lẻ, làm việc với các khách hàng AWS trong nhiều ngành khác nhau để giải quyết các vấn đề ML của họ. Trước khi gia nhập AWS, Fang từng là Giám đốc Khoa học Dữ liệu của Anthem, lãnh đạo nền tảng AI xử lý yêu cầu y tế. Cô lấy bằng thạc sĩ về Thống kê tại Đại học Chicago.

Xin Chen là một quản lý cấp cao tại Phòng thí nghiệm Giải pháp Máy học của Amazon, nơi ông lãnh đạo Trung tâm Hoa Kỳ, Khu vực Đại Trung Quốc, LATAM và Ngành dọc Ô tô. Anh ấy giúp khách hàng AWS trong các ngành khác nhau xác định và xây dựng các giải pháp học máy để giải quyết các cơ hội học máy mang lại lợi tức đầu tư cao nhất cho tổ chức của họ. Xin lấy bằng Tiến sĩ Khoa học Máy tính và Kỹ thuật tại Đại học Notre Dame.

Raj Biswas là Nhà khoa học dữ liệu tại Phòng thí nghiệm Giải pháp Máy học của Amazon. Anh ấy giúp khách hàng AWS phát triển các giải pháp hỗ trợ ML trên các ngành dọc đa dạng cho những thách thức kinh doanh cấp bách nhất của họ. Trước khi gia nhập AWS, anh ấy là nghiên cứu sinh tại Đại học Columbia về Khoa học Dữ liệu.

Hưng Hóa Lương là một nhà khoa học ứng dụng tại Phòng thí nghiệm Giải pháp Máy học của Amazon, nơi anh ấy làm việc với khách hàng trong nhiều ngành khác nhau, bao gồm sản xuất và ô tô, đồng thời giúp họ đẩy nhanh việc áp dụng AI và đám mây của mình. Xinghua lấy bằng Tiến sĩ Kỹ thuật tại Đại học Carnegie Mellon.

Lưu Lưu là một nhà khoa học ứng dụng với Dịch vụ khách hàng của Amazon. Cô ấy đam mê sử dụng sức mạnh của ML / AI để tối ưu hóa trải nghiệm người dùng cho khách hàng Amazon và giúp khách hàng AWS xây dựng các giải pháp đám mây có thể mở rộng. Công việc khoa học của cô trong Amazon bao gồm sự tham gia của thành viên, hệ thống khuyến nghị trực tuyến, xác định và giải quyết các khiếm khuyết trong trải nghiệm khách hàng. Ngoài giờ làm việc, Yi thích đi du lịch và khám phá thiên nhiên cùng chú chó của mình.

Trí thông minh dữ liệu tạo

Tối ưu hóa sự tương tác của khách hàng với học tập củng cố

Ngày

Tên cướp nhiều nhánh theo ngữ cảnh

Hiệu suất mô hình

Tổng kết

Về các tác giả

Bản tin Nexus của Fintech (25 tháng 2024 năm XNUMX): Sọc bước đi trong lĩnh vực tài chính nhúng

Làm thế nào để chọn máy động lực thiết bị nặng?

Tin tức mới nhất

Một lối thoát sảng khoái: Công viên nước Jungle Bogor

Giá GEO giảm 27% nhưng khối lượng VCM tăng, Báo cáo Xpansiv

Bạc sẽ thâm hụt ngày càng tăng vào năm 2024 do những khó khăn về nguồn cung

Các quy định của EU buộc các nhà sản xuất phải sửa chữa dễ dàng hơn | Môi trường

DRS bị trì hoãn đến năm 2027 | Môi trường

Tesla nên triển khai dịch vụ chia sẻ chuyến đi trước Robotaxis – CleanTechnica

Trò chuyện trực tiếp với chúng tôi (chat)