Zephyrnet Logosu

Amazon Bedrock ve Amazon OpenSearch Serverless'ı kullanarak ürün önerileri için bağlamsal bir metin ve görsel arama motoru oluşturun | Amazon Web Hizmetleri

Tarih:

Bağlamsal ve semantik aramanın yükselişi, e-ticaret ve perakende işletmelerinin tüketiciler için kolay arama yapmasını sağladı. Üretken yapay zeka tarafından desteklenen arama motorları ve öneri sistemleri, doğal dil sorgularını anlayarak ve daha doğru sonuçlar döndürerek ürün arama deneyimini katlanarak artırabilir. Bu, genel kullanıcı deneyimini geliştirerek müşterilerin tam olarak aradıklarını bulmalarına yardımcı olur.

Amazon Açık Arama Hizmeti şimdi destekliyor kosinüs benzerliği k-NN indeksleri için metrik. Kosinüs benzerliği, iki vektör arasındaki açının kosinüsünü ölçer; burada daha küçük bir kosinüs açısı, vektörler arasında daha yüksek bir benzerliği gösterir. Kosinüs benzerliği ile iki vektör arasındaki yönelimi ölçebilirsiniz, bu da onu bazı özel semantik arama uygulamaları için iyi bir seçim yapar.

Bu yazıda, ürün önerileri için bağlamsal bir metin ve görsel arama motorunun nasıl oluşturulacağını gösteriyoruz. Amazon Titan Multimodal Gömme modeli, uygun Amazon Ana KayasıIle Amazon OpenSearch Sunucusuz.

Çok modlu bir yerleştirme modeli, metin, resim ve ses gibi farklı yöntemlerin ortak temsillerini öğrenmek için tasarlanmıştır. Çok modlu bir yerleştirme modeli, görüntüleri ve bunlara karşılık gelen başlıkları içeren büyük ölçekli veri kümeleri üzerinde eğitim alarak, görüntüleri ve metinleri paylaşılan bir gizli alana yerleştirmeyi öğrenir. Aşağıda kavramsal olarak nasıl çalıştığına ilişkin üst düzey bir genel bakış yer almaktadır:

  • Ayrı kodlayıcılar – Bu modellerde her modalite için ayrı kodlayıcılar bulunur; metin için bir metin kodlayıcı (örneğin, BERT veya RoBERTa), görüntüler için görüntü kodlayıcı (örneğin, görüntüler için CNN) ve ses için ses kodlayıcılar (örneğin, Wav2Vec gibi modeller) . Her kodlayıcı, ilgili yöntemlerin anlamsal özelliklerini yakalayan yerleştirmeler üretir
  • Modalite füzyonu – Tek modlu kodlayıcılardan gelen yerleştirmeler, ek sinir ağı katmanları kullanılarak birleştirilir. Amaç, modaliteler arasındaki etkileşimleri ve korelasyonları öğrenmektir. Yaygın füzyon yaklaşımları birleştirme, öğe bazında işlemler, havuzlama ve dikkat mekanizmalarını içerir.
  • Paylaşılan temsil alanı – Füzyon katmanları, bireysel modalitelerin ortak bir temsil alanına yansıtılmasına yardımcı olur. Model, çok modlu veri kümeleri üzerinde eğitim alarak, aynı temel semantik içeriği temsil eden her bir modaliteden gelen yerleştirmelerin birbirine daha yakın olduğu ortak bir yerleştirme alanını öğrenir.
  • Aşağı akış görevleri – Oluşturulan ortak çok modlu yerleştirmeler daha sonra çok modlu erişim, sınıflandırma veya çeviri gibi çeşitli aşağı yönlü görevler için kullanılabilir. Model, bireysel modal yerleştirmelerle karşılaştırıldığında bu görevlerdeki performansı artırmak için modaliteler arasındaki korelasyonları kullanır. En önemli avantaj, ortak modelleme yoluyla metin, görüntü ve ses gibi yöntemler arasındaki etkileşimleri ve anlambilimi anlama yeteneğidir.

Çözüme genel bakış

Çözüm, metin veya resim sorgularına dayalı ürünleri almak ve önermek için büyük dil modeli (LLM) destekli bir arama motoru prototipi oluşturmaya yönelik bir uygulama sağlar. Kullanma adımlarını ayrıntılı olarak açıklıyoruz Amazon Titan Multimodal Gömmeler görüntüleri ve metni yerleştirmelere kodlamak, yerleştirmeleri bir OpenSearch Hizmeti dizinine almak ve OpenSearch Hizmetini kullanarak dizini sorgulamak için model k-en yakın komşular (k-NN) işlevselliği.

Bu çözüm aşağıdaki bileşenleri içerir:

  • Amazon Titan Multimodal Gömme modeli – Bu temel model (FM), bu gönderide kullanılan ürün görsellerinin yerleştirmelerini oluşturur. Amazon Titan Multimodal Embeddings ile içeriğiniz için yerleştirmeler oluşturabilir ve bunları bir vektör veritabanında saklayabilirsiniz. Bir son kullanıcı herhangi bir metin ve resim kombinasyonunu arama sorgusu olarak gönderdiğinde, model arama sorgusu için yerleştirmeler oluşturur ve son kullanıcılara alakalı arama ve öneri sonuçları sağlamak için bunları depolanan yerleştirmelerle eşleştirir. Benzersiz içeriğinizin anlaşılmasını geliştirmek ve ince ayar için resim-metin çiftlerini kullanarak daha anlamlı sonuçlar sağlamak için modeli daha da özelleştirebilirsiniz. Model, varsayılan olarak 1,024 boyutlu vektörler (yerleştirmeler) oluşturur ve bu modele Amazon Bedrock aracılığıyla erişilir. Hız ve performansı optimize etmek için daha küçük boyutlar da oluşturabilirsiniz.
  • Amazon OpenSearch Sunucusuz – OpenSearch Hizmeti için isteğe bağlı sunucusuz bir yapılandırmadır. Amazon Titan Multimodal Embeddings modeli tarafından oluşturulan yerleştirmeleri depolamak için Amazon OpenSearch Serverless'ı bir vektör veritabanı olarak kullanıyoruz. Amazon OpenSearch Sunucusuz koleksiyonunda oluşturulan bir dizin, Alma Artırılmış Nesil (RAG) çözümümüz için vektör deposu görevi görür.
  • Amazon SageMaker Stüdyosu – Makine öğrenimi (ML) için entegre bir geliştirme ortamıdır (IDE). ML uygulayıcıları, verilerinizin hazırlanmasından ML modellerinin oluşturulmasına, eğitilmesine ve dağıtılmasına kadar tüm ML geliştirme adımlarını gerçekleştirebilir.

Çözüm tasarımı iki bölümden oluşur: veri indeksleme ve bağlamsal arama. Veri indeksleme sırasında ürün görsellerini işleyerek bu görsellere yönelik yerleştirmeler oluşturursunuz ve ardından vektör veri deposunu doldurursunuz. Bu adımlar, kullanıcı etkileşimi adımlarından önce tamamlanır.

Bağlamsal arama aşamasında, kullanıcıdan gelen bir arama sorgusu (metin veya görsel) yerleştirmelere dönüştürülür ve benzerlik aramasına dayalı olarak benzer ürün görsellerini bulmak için vektör veri tabanında bir benzerlik araması çalıştırılır. Daha sonra en iyi benzer sonuçları görüntülersiniz. Bu gönderinin tüm kodu şurada mevcuttur: GitHub repo.

Aşağıdaki şemada çözüm mimarisi gösterilmektedir.

Çözüm iş akışı adımları aşağıdadır:

  1. Herkese açık ürün açıklama metnini ve görsellerini indirin Amazon Basit Depolama Hizmeti (Amazon S3) kovası.
  2. Veri kümesini gözden geçirin ve hazırlayın.
  3. Amazon Titan Multimodal Yerleştirmeler modelini (amazon.titan-embed-image-v1) kullanarak ürün görselleri için yerleştirmeler oluşturun. Çok sayıda görseliniz ve açıklamanız varsa isteğe bağlı olarak Amazon Bedrock için toplu çıkarım.
  4. Gömmeleri şuraya kaydedin: Amazon OpenSearch Sunucusuz arama motoru olarak
  5. Son olarak, kullanıcı sorgusunu doğal dilde alın, Amazon Titan Multimodal Embeddings modelini kullanarak yerleştirmelere dönüştürün ve ilgili arama sonuçlarını almak için bir k-NN araması gerçekleştirin.

Çözümü geliştirmek için IDE olarak SageMaker Studio'yu (şemada gösterilmemiştir) kullanıyoruz.

Bu adımlar aşağıdaki bölümlerde ayrıntılı olarak ele alınmaktadır. Ayrıca çıktının ekran görüntülerini ve ayrıntılarını da ekliyoruz.

Önkoşullar

Bu yazıda sunulan çözümü uygulamak için aşağıdakilere sahip olmalısınız:

  • An AWS hesabı ve FM'lere aşinalık, Amazon Bedrock, Amazon Adaçayı Yapıcıve Açık Arama Hizmeti.
  • Amazon Bedrock'ta etkinleştirilen Amazon Titan Multimodal Yerleştirmeler modeli. Etkinleştirildiğini şuradan doğrulayabilirsiniz: Model erişimi Amazon Bedrock konsolunun sayfası. Amazon Titan Multimodal Embeddings etkinleştirilirse erişim durumu şu şekilde gösterilir: Erişim izni, aşağıdaki ekran görüntüsünde gösterildiği gibi.

Model mevcut değilse, seçimini yaparak modele erişimi etkinleştirin. Model erişimini yönetin, seçerek Amazon Titan Multimodal Gömmeler G1ve seçerek Model erişimi iste. Model hemen kullanıma etkinleştirilir.

Çözümü kurun

Önkoşul adımları tamamlandığında çözümü kurmaya hazırsınız:

  1. AWS hesabınızda SageMaker konsolunu açın ve Stüdyo Gezinti bölmesinde.
  2. Alanınızı ve kullanıcı profilinizi seçin, ardından Stüdyo Aç.

Alan adınız ve kullanıcı profili adınız farklı olabilir.

  1. Klinik Sistem terminali altında Yardımcı programlar ve dosyalar.
  2. Klonlamak için aşağıdaki komutu çalıştırın GitHub repo SageMaker Studio örneğine:
git clone https://github.com/aws-samples/amazon-bedrock-samples.git

  1. gidin multimodal/Titan/titan-multimodal-embeddings/amazon-bedrock-multimodal-oss-searchengine-e2e klasör.
  2. Açın titan_mm_embed_search_blog.ipynb not defteri.

Çözümü çalıştırın

Dosyayı açın titan_mm_embed_search_blog.ipynb ve Data Science Python 3 çekirdeğini kullanın. Üzerinde koşmak menü seç Tüm Hücreleri Çalıştır kodu bu not defterinde çalıştırmak için.

Bu not defteri aşağıdaki adımları gerçekleştirir:

  1. Bu çözüm için gerekli paketleri ve kitaplıkları yükleyin.
  2. Herkese açık olanı yükle Amazon Berkeley Nesneleri Veri Kümesi ve pandaların veri çerçevesindeki meta veriler.

Veri seti, çok dilli meta veriler ve 147,702 benzersiz katalog görseli içeren 398,212 ürün listesinden oluşan bir koleksiyondur. Bu gönderi için yalnızca ABD İngilizcesindeki öğe resimlerini ve öğe adlarını kullanacaksınız. Yaklaşık 1,600 ürün kullanıyorsunuz.

  1. Amazon Titan Multimodal Yerleştirmeler modelini kullanarak öğe görselleri için yerleştirmeler oluşturun. get_titan_multomodal_embedding() işlev. Soyutlama amacıyla, bu not defterinde kullanılan tüm önemli işlevleri, utils.py dosyası.

Daha sonra, bir Amazon OpenSearch Sunucusuz vektör mağazası (koleksiyon ve dizin) oluşturup kurarsınız.

  1. Yeni vektör arama koleksiyonunu ve dizinini oluşturmadan önce, ilk olarak ilişkili üç OpenSearch Hizmeti ilkesi oluşturmanız gerekir: şifreleme güvenlik ilkesi, ağ güvenliği ilkesi ve veri erişim ilkesi.

  1. Son olarak, vektör dizinine gömülen görüntüyü alın.

Artık gerçek zamanlı çok modlu arama gerçekleştirebilirsiniz.

Bağlamsal bir arama çalıştırın

Bu bölümde, bir metin veya resim sorgusuna dayalı bağlamsal aramanın sonuçlarını gösteriyoruz.

Öncelikle metin girişine dayalı bir görsel araması yapalım. Aşağıdaki örnekte "bardak bardağı" metin girişini kullanıyoruz ve benzer öğeleri bulmak için bunu arama motoruna gönderiyoruz.

Aşağıdaki ekran görüntüsü sonuçları göstermektedir.

Şimdi basit bir görsele dayanarak sonuçlara bakalım. Giriş görüntüsü vektör yerleştirmelerine dönüştürülür ve benzerlik aramasına dayalı olarak model sonucu döndürür.

Herhangi bir görseli kullanabilirsiniz ancak aşağıdaki örnekte, öğe kimliğine dayalı olarak veri kümesinden rastgele bir görsel kullanıyoruz (örneğin, item_id = “B07JCDQWM6”) ve ardından benzer öğeleri bulmak için bu görseli arama motoruna gönderin.

Aşağıdaki ekran görüntüsü sonuçları göstermektedir.

Temizlemek

Gelecekte masraf oluşmasını önlemek için bu çözümde kullanılan kaynakları silin. Bunu not defterinin temizleme bölümünü çalıştırarak yapabilirsiniz.

Sonuç

Bu gönderi, güçlü bağlamsal arama uygulamaları oluşturmak için Amazon Bedrock'ta Amazon Titan Multimodal Embeddings modelinin kullanımına ilişkin bir adım adım yol gösterdi. Özellikle ürün listeleme arama uygulamasının bir örneğini gösterdik. Gömme modelinin, resimlerden ve metinsel verilerden bilgilerin verimli ve doğru bir şekilde keşfedilmesini nasıl sağladığını ve böylece ilgili öğeleri ararken kullanıcı deneyimini nasıl iyileştirdiğini gördük.

Amazon Titan Multimodal Embeddings, son kullanıcılar için daha doğru ve bağlamsal olarak alakalı çok modlu arama, öneri ve kişiselleştirme deneyimlerini desteklemenize yardımcı olur. Örneğin, yüz milyonlarca görsele sahip bir hazır fotoğrafçılık şirketi, arama işlevini güçlendirmek için bu modeli kullanabilir; böylece kullanıcılar bir ifade, görsel veya görsel ve metin kombinasyonunu kullanarak görselleri arayabilir.

Amazon Bedrock'taki Amazon Titan Multimodal Embeddings modeli artık ABD Doğu (K. Virginia) ve ABD Batı (Oregon) AWS Bölgelerinde kullanıma sunuldu. Daha fazla bilgi edinmek için bkz. Amazon Titan Image Generator, Multimodal Embeddings ve Text modelleri artık Amazon Bedrock'ta mevcut, Amazon Titan ürün sayfası, Ve Amazon Bedrock Kullanıcı Kılavuzu. Amazon Bedrock'ta Amazon Titan Multimodal Yerleştirmeleri kullanmaya başlamak için şu adresi ziyaret edin: Amazon Bedrock konsolu.

Amazon Titan Multimodal Gömmeler modeliyle oluşturmaya başlayın Amazon Ana Kayası bugün.


Yazarlar Hakkında

Sandeep Singh Amazon Web Services'te Kıdemli Üretken Yapay Zeka Veri Bilimcisidir ve işletmelerin üretken yapay zeka ile yenilik yapmasına yardımcı olur. Üretken Yapay Zeka, Yapay Zeka, Makine Öğrenimi ve Sistem Tasarımı konularında uzmanlaşmıştır. Çeşitli endüstrilerdeki karmaşık iş sorunlarını çözmek, verimliliği ve ölçeklenebilirliği optimize etmek için son teknoloji ürünü AI/ML destekli çözümler geliştirme konusunda tutkulu.

Mani Khanuja Teknoloji Lideri – Üretken Yapay Zeka Uzmanıdır, Applied Machine Learning and High Performance Computing on AWS kitabının yazarıdır ve Üretimde Kadınlar Eğitimi Vakfı Yönetim Kurulu Yönetim Kurulu üyesidir. Bilgisayarla görme, doğal dil işleme ve üretken yapay zeka gibi çeşitli alanlarda makine öğrenimi projelerine liderlik ediyor. AWS re:Invent, Women in Manufacturing West, YouTube web seminerleri ve GHC 23 gibi iç ve dış konferanslarda konuşuyor. Boş zamanlarında sahilde uzun koşulara çıkmayı seviyor.

Ruinder Grewal AWS'de Kıdemli AI/ML Uzman Çözüm Mimarıdır. Şu anda Amazon SageMaker'da model ve MLOps sunmaya odaklanıyor. Bu görevden önce, modeller oluşturma ve barındırma konusunda Makine Öğrenimi Mühendisi olarak çalıştı. İş dışında tenis oynamayı ve dağ yollarında bisiklet sürmeyi seviyor.

spot_img

En Son İstihbarat

spot_img