Takviyeli Öğrenme ile Müşteri Etkileşimini Optimize Edin

Bu, Taylor Names, Staff Machine Learning Engineer, Dev Gupta, Machine Learning Manager ve Ibotta'da Kıdemli Ürün Müdürü Argie Angeleas tarafından ortaklaşa yazılan bir konuk gönderisidir. Ibotta, masaüstü ve mobil uygulamalarıyla kullanıcıların mağaza içi, mobil uygulama ve makbuz gönderimi, bağlantılı perakendeci sadakat hesapları, ödemeler ve satın alma doğrulaması ile çevrimiçi satın alma işlemlerinde nakit geri kazanmalarını sağlayan bir Amerikan teknoloji şirketidir.

Ibotta, kullanıcılarını daha iyi elde tutmak ve onların ilgisini çekmek için kişiselleştirilmiş promosyonlar önermeye çalışır. Bununla birlikte, promosyonlar ve kullanıcı tercihleri sürekli olarak gelişmektedir. Pek çok yeni kullanıcının ve yeni promosyonların olduğu bu sürekli değişen ortam, tipik bir soğuk başlangıç sorunudur - herhangi bir çıkarım yapmak için yeterli geçmiş kullanıcı ve promosyon etkileşimi yoktur. Takviye öğrenimi (RL), kümülatif ödüller kavramını en üst düzeye çıkarmak için akıllı aracıların bir ortamda nasıl harekete geçmesi gerektiği ile ilgili bir makine öğrenimi (ML) alanıdır. RL, keşfedilmemiş bölgeleri keşfetmek ve mevcut bilgiyi kullanmak arasında bir denge bulmaya odaklanır. Çok silahlı haydut (MAB), keşif/sömürü ödünleşimini örnekleyen klasik bir pekiştirmeli öğrenme problemidir: kısa vadede ödülü en üst düzeye çıkarmak (sömürü), uzun vadede ödülleri artırabilecek bilgi için kısa vadeli ödülü feda etmek (keşif) ). Bir MAB algoritması, kullanıcı için en uygun önerileri araştırır ve kullanır.

Ibotta ile işbirliği yaptı Amazon Makine Öğrenimi Çözümleri Laboratuvarı kullanıcı ve tanıtım bilgisi oldukça dinamik olduğunda kullanıcı katılımını artırmak için MAB algoritmalarını kullanmak.

Aşağıdaki kullanım durumlarında etkili olduğu için bağlamsal bir MAB algoritması seçtik:

Kullanıcıların durumuna (bağlam) göre kişiselleştirilmiş önerilerde bulunmak
Yeni bonuslar ve yeni müşteriler gibi soğuk başlangıç yönleriyle ilgilenmek
Kullanıcıların tercihlerinin zaman içinde değiştiği önerileri barındırmak

Veri

Bonus kullanımlarını artırmak için Ibotta, müşterilere kişiselleştirilmiş bonuslar göndermek istiyor. Bonuslar, Ibotta'nın kendi kendini finanse eden nakit teşvikleridir ve bağlamsal çok silahlı haydut modelinin eylemleri olarak hizmet eder.

Haydut modeli iki özellik seti kullanır:

Eylem özellikleri – Bunlar, bonus türü ve bonusun ortalama tutarı gibi eylemleri tanımlar.
Müşteri özellikleri – Bunlar, müşterilerin geçmiş haftalardaki ödemeler, tıklamalar ve görüntülemeler gibi geçmiş tercihlerini ve etkileşimlerini tanımlar.

Bağlamsal özellikler, kullanıcıların Ibotta uygulamasıyla etkileşimlerinden oluşturulan 26 haftalık etkinlik metriğini içeren geçmiş müşteri yolculuklarından türetilmiştir.

Bağlamsal çok silahlı haydut

Haydut, karar vericinin potansiyel olarak mevcut bağlamsal bilgilere dayanarak sırayla bir eylem seçtiği ve bir ödül sinyalini gözlemlediği sıralı karar verme çerçevesidir.

Bağlamsal çok kollu haydut iş akışını şurada kurduk: Amazon Adaçayı Yapıcı yerleşik kullanarak Vowpal Wabit (VW) konteyner. SageMaker, veri bilimcilerin ve geliştiricilerin, makine öğrenimi için özel olarak oluşturulmuş geniş bir dizi yeteneği bir araya getirerek yüksek kaliteli makine öğrenimi modellerini hızla hazırlamasına, oluşturmasına, eğitmesine ve dağıtmasına yardımcı olur. Model eğitimi ve testi, çevrimdışı deneylere dayalıdır. Haydut, kullanıcı tercihlerini canlı bir ortamdan ziyade geçmiş etkileşimlerden gelen geri bildirimlere dayanarak öğrenir. Algoritma, SageMaker'ın destekleyici altyapı olarak kaldığı üretim moduna geçebilir.

Keşif/sömürü stratejisini uygulamak için aşağıdaki eylemleri gerçekleştiren yinelemeli eğitim ve dağıtım sistemini oluşturduk:

Kullanıcı bağlamına dayalı olarak bağlamsal haydut modelini kullanarak bir eylem önerir
Zaman içinde örtük geri bildirimi yakalar
Modeli artan etkileşim verileriyle sürekli olarak eğitir

İstemci uygulamasının iş akışı aşağıdaki gibidir:

İstemci uygulaması, bir eylemi almak için SageMaker uç noktasına gönderilen bir bağlam seçer.
SageMaker uç noktası, bir eylem, ilişkili bonus kullanım olasılığı ve event_id.
Bu simülatör tarihsel etkileşimler kullanılarak oluşturulduğundan, model bu bağlam için gerçek sınıfı bilir. Temsilci, geri ödemeli bir eylem seçerse ödül 1'dir. Aksi takdirde, temsilci 0 ödül alır.

Tarihsel verilerin mevcut olduğu ve şu formatta olduğu durumda <state, action, action probability, reward>, Ibotta, politikayı çevrimdışı öğrenerek canlı bir model başlatabilir. Aksi takdirde, Ibotta 1. gün için rastgele bir politika başlatabilir ve oradan bir haydut politikası öğrenmeye başlayabilir.

Modeli eğitmek için kod parçacığı aşağıdadır:

hyperparameters = { "exploration_policy": "egreedy" , # supports "egreedy", "bag", "cover" "epsilon": 0.01 , # used if egreedy is the exploration policy "num_policies": 3 , # used if bag or cover is the exploration policy "num_arms": 9,
} job_name_prefix = "ibotta-testbed-bandits-1" vw_image_uri = "462105765813.dkr.ecr.us-east-1.amazonaws.com/sagemaker-rl-vw-container:vw-8.7.0-cpu" # Train the estimator rl_estimator = RLEstimator(entry_point='train-vw_new.py', source_dir="src", image_uri=vw_image_uri, role=role, output_path=s3_output_path, base_job_name=job_name_prefix, instance_type=instance_type, instance_count=1, hyperparameters=hyperparameters) rl_estimator.fit(“s3 bucket/ibotta.csv”, wait=True)

Model performansı

Kullanılan etkileşimleri eğitim verileri (10,000 etkileşim) ve değerlendirme verileri (5,300 bekleme etkileşimi) olarak rastgele böldük.

Değerlendirme metrikleri, ortalama ödüldür; burada 1, önerilen eylemin kullanıldığını ve 0, önerilen eylemin kullanılmadığını gösterir.

Ortalama ödülü şu şekilde belirleyebiliriz:

Ortalama ödül (kullanım oranı) = (teklif edilen önerilen işlem sayısı)/(toplam # önerilen işlem)

Aşağıdaki tablo ortalama ödül sonucunu gösterir:

Ortalama Ödül	Üniforma Rastgele Öneri	Bağlamsal MAB tabanlı Öneri
Tren	%11.44	%56.44
test	%10.69	%59.09

Aşağıdaki şekil, eğitim sırasında artan performans değerlendirmesini göstermektedir; burada x ekseni model tarafından öğrenilen kayıtların sayısıdır ve y ekseni, artan ortalama ödüldür. Mavi çizgi çok kollu haydutu gösterir; turuncu çizgi rastgele önerileri gösterir.

Grafik, tahmin edilen ortalama ödülün yinelemeler boyunca arttığını ve tahmin edilen eylem ödülünün, eylemlerin rastgele atanmasından önemli ölçüde daha büyük olduğunu göstermektedir.

Önceden eğitilmiş modelleri sıcak başlangıçlar olarak kullanabilir ve modeli yeni verilerle toplu olarak yeniden eğitebiliriz. Bu durumda, model performansı ilk eğitim yoluyla zaten yakınsamıştır. Aşağıdaki şekilde gösterildiği gibi, yeni toplu yeniden eğitimde önemli bir ek performans artışı gözlemlenmedi.

Ayrıca bağlamsal haydutları tek tip rastgele ve sonradan gelen rastgele (sıcak başlangıç olarak geçmiş kullanıcı tercih dağılımını kullanan rastgele öneri) politikalarıyla karşılaştırdık. Sonuçlar aşağıdaki gibi listelenir ve çizilir:

Eşkıya – %59.09 ortalama ödül (eğitim %56.44)
Üniforma rastgele – %10.69 ortalama ödül (eğitim %11.44)
Arka olasılık rastgele – %34.21 ortalama ödül (eğitim %34.82)

Bağlamsal çok kollu haydut algoritması, diğer iki politikadan önemli ölçüde daha iyi performans gösterdi.

Özet

Amazon ML Solutions Lab, bir SageMaker RL kapsayıcısı kullanarak bağlama dayalı bir haydut pekiştirici öğrenim öneri çözümü geliştirmek için Ibotta ile işbirliği yaptı.

Bu çözüm, çevrimdışı bir teste dayalı olarak rastgele (beş kat artış) ve bağlamsal olmayan RL (iki kat artış) önerileri üzerinde sabit bir artımlı ödeme oranı artışı gösterdi. Bu çözümle Ibotta, müşteri etkileşimini optimize etmek için dinamik, kullanıcı merkezli bir öneri motoru oluşturabilir. Çevrimdışı teste göre, rastgele öneriyle karşılaştırıldığında, çözüm öneri doğruluğunu (ortalama ödül) %11'den %59'a çıkardı. Ibotta, bu çözümü daha fazla kişiselleştirme kullanım senaryosuna entegre etmeyi planlıyor.

"Amazon ML Solutions Lab, ödemeleri artırmak ve müşteri etkileşimini optimize etmek için dinamik bir bonus öneri motoru oluşturmak için Ibotta'nın Makine Öğrenimi ekibiyle yakın bir şekilde çalıştı. Sürekli değişen müşteri durumunu öğrenen ve bunlara uyum sağlayan ve yeni bonusları otomatik olarak başlatan pekiştirici öğrenmeden yararlanan bir öneri motoru oluşturduk. 2 ay içinde, ML Solutions Lab bilim adamları, bir SageMaker RL kapsayıcısı kullanarak bağlamsal, çok kollu bir haydut pekiştirme öğrenme çözümü geliştirdi. Bağlamsal RL çözümü, geri ödeme oranlarında istikrarlı bir artış gösterdi, rastgele öneriye göre bonus kullanım oranında beş kat ve bağlamsal olmayan RL çözümüne göre iki kat artış sağladı. Öneri doğruluğu, rastgele öneri kullanıldığında %11'den ML Solutions Lab çözümü kullanıldığında %59'a yükseldi. Bu çözümün etkinliği ve esnekliği göz önüne alındığında, her satın alma işlemini kullanıcılarımız için ödüllendirme misyonumuzu ilerletmek için bu çözümü daha fazla Ibotta kişiselleştirme kullanım senaryosuna entegre etmeyi planlıyoruz.başlıklı bir kılavuz yayınladı

– Heather Shannon, Ibotta Mühendislik ve Veri Kıdemli Başkan Yardımcısı.

Yazarlar Hakkında

Taylor İsimleri Ibotta'da içerik kişiselleştirmeye ve gerçek zamanlı talep tahminine odaklanan bir makine öğrenimi mühendisidir. Ibotta'ya katılmadan önce Taylor, IoT ve temiz enerji alanlarında makine öğrenimi ekiplerini yönetti.

Dev Gupta makine öğrenimi ekibine liderlik ettiği Ibotta Inc'de mühendislik yöneticisidir. Ibotta'daki makine öğrenimi ekibi, önerilerde bulunanlar, tahminciler ve dahili makine öğrenimi araçları gibi yüksek kaliteli makine öğrenimi yazılımı sağlamakla görevlidir. Dev, Ibotta'ya katılmadan önce bir makine öğrenimi girişimi olan Predikto Inc'de ve The Home Depot'ta çalıştı. Florida Üniversitesi'nden mezun oldu.

Argie Angeleas Ibotta'da Makine Öğrenimi ve Tarayıcı Uzantısı ekiplerine liderlik ettiği Kıdemli Ürün Müdürüdür. Ibotta'ya katılmadan önce Argie, iReportsource'da Ürün Direktörü olarak çalıştı. Argie, Wright State Üniversitesi'nden Bilgisayar Bilimi ve Mühendisliği alanında doktora derecesini aldı.

Dişi Wang Kıdemli Araştırma Bilimcisi Amazon Makine Öğrenimi Çözümleri Laboratuvarı, burada ML sorunlarını çözmek için çeşitli sektörlerdeki AWS müşterileriyle birlikte çalışarak Perakende Sektörünü yönetiyor. Fang, AWS'ye katılmadan önce Anthem'de Kıdemli Veri Bilimi Direktörü olarak çalıştı ve tıbbi talep işleme AI platformuna liderlik etti. Yüksek lisansını Chicago Üniversitesi'nden İstatistik alanında aldı.

Xin Chen şirketinde üst düzey yöneticidir Amazon Makine Öğrenimi Çözümleri Laboratuvarı, burada Orta ABD, Büyük Çin Bölgesi, LATAM ve Otomotiv Dikey'i yönetiyor. Farklı sektörlerdeki AWS müşterilerinin, kuruluşlarının en yüksek yatırım getirisi sağlayan makine öğrenimi fırsatlarını ele almak için makine öğrenimi çözümlerini belirlemesine ve oluşturmasına yardımcı olur. Xin, doktora derecesini Notre Dame Üniversitesi'nden Bilgisayar Bilimi ve Mühendisliği alanında aldı.

Raj Biswas bir Veri Bilimcisidir. Amazon Makine Öğrenimi Çözümleri Laboratuvarı. AWS müşterilerinin en acil iş zorlukları için çeşitli sektör dikeylerinde makine öğrenimi destekli çözümler geliştirmesine yardımcı olur. AWS'ye katılmadan önce Columbia Üniversitesi'nde Veri Bilimi alanında yüksek lisans öğrencisiydi.

Xinghua Liang Uygulamalı Bilim Adamıdır Amazon Makine Öğrenimi Çözümleri Laboratuvarıburada imalat ve otomotiv de dahil olmak üzere çeşitli sektörlerdeki müşterilerle çalışıyor ve yapay zeka ve bulut benimsemelerini hızlandırmalarına yardımcı oluyor. Xinghua, doktorasını Mühendislik alanında Carnegie Mellon Üniversitesi'nden aldı.

Yi Liu Amazon Müşteri Hizmetleri ile uygulamalı bir bilim adamıdır. Amazon müşterileri için kullanıcı deneyimini optimize etmek ve AWS müşterilerinin ölçeklenebilir bulut çözümleri oluşturmasına yardımcı olmak için ML/AI'nin gücünü kullanma konusunda tutkulu. Amazon'daki bilimsel çalışması, üyelik katılımını, çevrimiçi öneri sistemini ve müşteri deneyimi kusurlarını belirleme ve çözmeyi kapsar. Yi, iş dışında, köpeğiyle seyahat etmeyi ve doğayı keşfetmeyi sever.

Üretken Veri Zekası

Takviye öğrenimi ile müşteri etkileşimini optimize edin

Veri

Bağlamsal çok silahlı haydut

Model performansı

Özet

Yazarlar Hakkında

Doğal Dil İşlemeye Giriş [Ücretsiz NLP Kursu]

ESL Challenger Melbourne 2024: Skorlar, puan durumları ve daha fazlası – Snowball Esports

En Son İstihbarat

Starliner mürettebatlı test uçuşu önemli incelemeyi geçti

2024 NFL Draft Notları

Makro Guru Raoul Pal'a Göre Ethereum, Solana ve Altcoinler 'Muz Bölgesi'ne Yaklaşıyor - İşte Görünümü - The Daily Hodl

NASA astronotları, Boeing Starliner Mürettebat Uçuş Testi öncesinde Kennedy Uzay Merkezine varıyor

Birleşik Krallık Emniyet Teşkilatı Artık Yeni Kurallar Yürürlüğe Girdikçe Kripto Parayı Daha Kolay Ele Geçirebilecek

BTC Fiyatı Bu Seviyeye Ulaşırsa Bitcoin 7.2 Milyar Dolar Kaybetme Riskiyle Karşı Karşıya

Bizimle sohbet