شعار زيفيرنت

أنشئ محرك بحث سياقي عن النصوص والصور لتوصيات المنتجات باستخدام Amazon Bedrock وAmazon OpenSearch Serverless | خدمات ويب أمازون

التاريخ:

أدى ظهور البحث السياقي والدلالي إلى جعل شركات التجارة الإلكترونية وتجارة التجزئة تبحث بشكل مباشر عن عملائها. يمكن لمحركات البحث وأنظمة التوصية المدعومة بالذكاء الاصطناعي التوليدي تحسين تجربة البحث عن المنتج بشكل كبير من خلال فهم استعلامات اللغة الطبيعية وإرجاع نتائج أكثر دقة. يؤدي ذلك إلى تحسين تجربة المستخدم بشكل عام، مما يساعد العملاء في العثور على ما يبحثون عنه بالضبط.

خدمة Amazon OpenSearch يدعم الآن تشابه جيب التمام متري لمؤشرات k-NN. يقيس تشابه جيب التمام جيب تمام الزاوية بين متجهين ، حيث تشير زاوية جيب التمام الأصغر إلى تشابه أعلى بين المتجهات. باستخدام تشابه جيب التمام ، يمكنك قياس الاتجاه بين متجهين ، مما يجعله اختيارًا جيدًا لبعض تطبيقات البحث الدلالية المحددة.

في هذا المنشور، نعرض كيفية إنشاء محرك بحث سياقي للنصوص والصور للحصول على توصيات المنتج باستخدام نموذج Amazon Titan Multimodal Embeddings، متوفر في أمازون بيدروك، مع أمازون أوبن سيرش سيرفرليس.

تم تصميم نموذج التضمين متعدد الوسائط لتعلم التمثيلات المشتركة للطرائق المختلفة مثل النص والصور والصوت. من خلال التدريب على مجموعات البيانات واسعة النطاق التي تحتوي على الصور والتسميات التوضيحية المقابلة لها، يتعلم نموذج التضمين متعدد الوسائط كيفية تضمين الصور والنصوص في مساحة كامنة مشتركة. فيما يلي نظرة عامة رفيعة المستوى حول كيفية عملها من الناحية المفاهيمية:

  • ترميز منفصل - تحتوي هذه النماذج على برامج تشفير منفصلة لكل طريقة - أداة تشفير نصية للنص (على سبيل المثال، BERT أو RoBERTa)، أداة تشفير للصور (على سبيل المثال، CNN للصور)، وأجهزة تشفير صوتية للصوت (على سبيل المثال، نماذج مثل Wav2Vec) . يقوم كل مشفر بإنشاء تضمينات تلتقط السمات الدلالية للطرائق الخاصة بكل منها
  • طريقة الانصهار - يتم دمج التضمينات من أجهزة التشفير أحادية الوسائط باستخدام طبقات الشبكة العصبية الإضافية. الهدف هو معرفة التفاعلات والعلاقات بين الطرائق. تتضمن أساليب الدمج الشائعة التسلسل، والعمليات المتعلقة بالعناصر، والتجميع، وآليات الاهتمام.
  • مساحة التمثيل المشتركة - تساعد طبقات الدمج على إبراز الطرائق الفردية في مساحة تمثيل مشتركة. من خلال التدريب على مجموعات البيانات متعددة الوسائط، يتعلم النموذج مساحة تضمين مشتركة حيث تكون التضمينات من كل طريقة تمثل نفس المحتوى الدلالي الأساسي أقرب إلى بعضها البعض.
  • المهام المصب - يمكن بعد ذلك استخدام التضمينات المشتركة متعددة الوسائط التي تم إنشاؤها في العديد من المهام النهائية مثل استرجاع الوسائط المتعددة أو التصنيف أو الترجمة. يستخدم النموذج الارتباطات عبر الطرائق لتحسين الأداء في هذه المهام مقارنة بتضمينات الوسائط الفردية. الميزة الرئيسية هي القدرة على فهم التفاعلات والدلالات بين الطرائق مثل النص والصور والصوت من خلال النمذجة المشتركة.

حل نظرة عامة

يوفر الحل تنفيذًا لبناء نموذج أولي لمحرك بحث مدعوم بنموذج لغة كبير (LLM) لاسترداد المنتجات والتوصية بها بناءً على استعلامات نصية أو صورية. نحن بالتفصيل خطوات استخدام أمازون تيتان التضمين المتعدد الوسائط نموذج لتشفير الصور والنصوص في التضمينات، واستيعاب التضمينات في فهرس خدمة OpenSearch، والاستعلام عن الفهرس باستخدام خدمة OpenSearch وظيفة k-أقرب الجيران (k-NN)..

يتضمن هذا الحل المكونات التالية:

  • نموذج Amazon Titan Multimodal Embeddings - يقوم نموذج الأساس (FM) بإنشاء تضمينات لصور المنتج المستخدمة في هذا المنشور. باستخدام Amazon Titan Multimodal Embeddings، يمكنك إنشاء عمليات تضمين للمحتوى الخاص بك وتخزينها في قاعدة بيانات متجهة. عندما يرسل المستخدم النهائي أي مجموعة من النص والصورة كاستعلام بحث، يقوم النموذج بإنشاء عمليات تضمين لاستعلام البحث ويطابقها مع عمليات التضمين المخزنة لتوفير نتائج البحث والتوصيات ذات الصلة للمستخدمين النهائيين. يمكنك تخصيص النموذج بشكل أكبر لتعزيز فهمه للمحتوى الفريد الخاص بك وتوفير نتائج ذات معنى أكبر باستخدام أزواج الصور والنص من أجل الضبط الدقيق. افتراضيًا، يقوم النموذج بإنشاء متجهات (تضمينات) ذات 1,024 بُعدًا، ويمكن الوصول إليها عبر Amazon Bedrock. يمكنك أيضًا إنشاء أبعاد أصغر لتحسين السرعة والأداء
  • أمازون أوبن سيرش سيرفرليس - إنه تكوين بدون خادم عند الطلب لخدمة OpenSearch. نحن نستخدم Amazon OpenSearch Serverless كقاعدة بيانات متجهة لتخزين عمليات التضمين التي تم إنشاؤها بواسطة نموذج Amazon Titan Multimodal Embeddings. يعمل الفهرس الذي تم إنشاؤه في مجموعة Amazon OpenSearch Serverless بمثابة مخزن متجه لحل الجيل المعزز للاسترجاع (RAG) الخاص بنا.
  • أمازون ساجميكر ستوديو – إنها بيئة تطوير متكاملة (IDE) للتعلم الآلي (ML). يمكن لممارسي ML تنفيذ جميع خطوات تطوير ML — بدءًا من إعداد بياناتك وحتى إنشاء نماذج ML وتدريبها ونشرها.

يتكون تصميم الحل من جزأين: فهرسة البيانات والبحث السياقي. أثناء فهرسة البيانات، تقوم بمعالجة صور المنتج لإنشاء تضمينات لهذه الصور ثم تعبئة مخزن بيانات المتجهات. يتم إكمال هذه الخطوات قبل خطوات تفاعل المستخدم.

في مرحلة البحث السياقي، يتم تحويل استعلام البحث (نص أو صورة) من المستخدم إلى تضمينات ويتم تشغيل بحث التشابه في قاعدة بيانات المتجهات للعثور على صور المنتج المماثلة بناءً على بحث التشابه. ثم تقوم بعرض أعلى النتائج المشابهة. كل الكود الخاص بهذا المنشور متاح في جيثب ريبو.

يوضح الرسم البياني التالي بنية الحل.

فيما يلي خطوات سير عمل الحل:

  1. قم بتنزيل نص وصف المنتج والصور من الجمهور خدمة تخزين أمازون البسيطة دلو (أمازون S3).
  2. مراجعة وإعداد مجموعة البيانات.
  3. أنشئ تضمينات لصور المنتج باستخدام نموذج Amazon Titan Multimodal Embeddings (amazon.titan-embed-image-v1). إذا كان لديك عدد كبير من الصور والأوصاف، فيمكنك اختياريًا استخدام الملف استنتاج دفعة لأمازون بيدروك.
  4. تخزين التضمينات في أمازون أوبن سيرش سيرفرليس كمحرك البحث.
  5. أخيرًا، قم بإحضار استعلام المستخدم باللغة الطبيعية، وقم بتحويله إلى عمليات تضمين باستخدام نموذج Amazon Titan Multimodal Embeddings، وقم بإجراء بحث k-NN للحصول على نتائج البحث ذات الصلة.

نحن نستخدم SageMaker Studio (غير موضح في الرسم التخطيطي) باعتباره IDE لتطوير الحل.

وتتم مناقشة هذه الخطوات بالتفصيل في الأقسام التالية. نقوم أيضًا بتضمين لقطات شاشة وتفاصيل الإخراج.

المتطلبات الأساسية المسبقة

لتنفيذ الحل المقدم في هذا المنشور، يجب أن يكون لديك ما يلي:

  • An حساب AWS والإلمام بـ FMs وAmazon Bedrock، الأمازون SageMakerوخدمة البحث المفتوح.
  • تم تمكين نموذج Amazon Titan Multimodal Embeddings في Amazon Bedrock. يمكنك التأكد من تمكينه على الوصول إلى النموذج صفحة وحدة تحكم Amazon Bedrock. إذا تم تمكين Amazon Titan Multimodal Embeddings، فستظهر حالة الوصول كـ تم منح حق الوصول، كما هو موضح في الصورة التالية.

إذا لم يكن النموذج متاحًا، قم بتمكين الوصول إلى النموذج عن طريق الاختيار إدارة الوصول إلى النموذج، واختيار Amazon Titan Multimodal Embeddings G1والاختيار طلب الوصول إلى النموذج. النموذج متاح للاستخدام على الفور.

جهز الحل

عند اكتمال خطوات المتطلبات الأساسية، تصبح جاهزًا لإعداد الحل:

  1. في حساب AWS الخاص بك، افتح وحدة تحكم SageMaker واختر استوديو في جزء التنقل.
  2. اختر النطاق وملف تعريف المستخدم الخاص بك، ثم اختر فتح ستوديو.

قد يكون المجال الخاص بك واسم ملف تعريف المستخدم مختلفين.

  1. اختار محطة النظام مع المرافق والملفات.
  2. قم بتشغيل الأمر التالي لاستنساخ جيثب ريبو إلى مثيل SageMaker Studio:
git clone https://github.com/aws-samples/amazon-bedrock-samples.git

  1. انتقل إلى multimodal/Titan/titan-multimodal-embeddings/amazon-bedrock-multimodal-oss-searchengine-e2e المجلد.
  2. فتح titan_mm_embed_search_blog.ipynb دفتر.

قم بتشغيل الحل

فتح الملف titan_mm_embed_search_blog.ipynb واستخدم نواة Data Science Python 3. على ال يجري القائمة، اختر قم بتشغيل كافة الخلايا لتشغيل التعليمات البرمجية في هذا الكمبيوتر الدفتري.

يقوم هذا الدفتر بالخطوات التالية:

  1. قم بتثبيت الحزم والمكتبات المطلوبة لهذا الحل.
  2. تحميل المتاحة للجمهور مجموعة بيانات كائنات أمازون بيركلي والبيانات الوصفية في إطار بيانات الباندا.

مجموعة البيانات عبارة عن مجموعة من 147,702 قائمة منتجات مع بيانات وصفية متعددة اللغات و398,212 صورة كتالوج فريدة. في هذا المنشور، يمكنك فقط استخدام صور العناصر وأسماء العناصر باللغة الإنجليزية الأمريكية. أنت تستخدم ما يقرب من 1,600 منتج.

  1. قم بإنشاء تضمينات لصور العناصر باستخدام نموذج Amazon Titan Multimodal Embeddings باستخدام get_titan_multomodal_embedding() وظيفة. ومن أجل التجريد، قمنا بتحديد جميع الوظائف الهامة المستخدمة في هذا الدفتر في utils.py ملف.

بعد ذلك، يمكنك إنشاء وإعداد متجر ناقلات Amazon OpenSearch Serverless (التجميع والفهرس).

  1. قبل إنشاء مجموعة بحث المتجهات الجديدة والفهرس، يجب عليك أولاً إنشاء ثلاث سياسات خدمة OpenSearch مرتبطة: سياسة أمان التشفير، وسياسة أمان الشبكة، وسياسة الوصول إلى البيانات.

  1. وأخيرا، استيعاب الصورة المضمنة في فهرس المتجهات.

يمكنك الآن إجراء بحث متعدد الوسائط في الوقت الفعلي.

قم بإجراء بحث سياقي

نعرض في هذا القسم نتائج البحث السياقي بناءً على استعلام نصي أو مصور.

أولاً، لنجري بحثًا عن الصور بناءً على إدخال النص. في المثال التالي، نستخدم إدخال النص "زجاج أدوات الشرب" ونرسله إلى محرك البحث للعثور على عناصر مماثلة.

تظهر لقطة الشاشة التالية النتائج.

الآن دعونا نلقي نظرة على النتائج بناء على صورة بسيطة. يتم تحويل الصورة المدخلة إلى تضمينات متجهة، واستنادًا إلى بحث التشابه، يقوم النموذج بإرجاع النتيجة.

يمكنك استخدام أي صورة، ولكن في المثال التالي، نستخدم صورة عشوائية من مجموعة البيانات بناءً على معرف العنصر (على سبيل المثال، item_id = "B07JCDQWM6")، ثم أرسل هذه الصورة إلى محرك البحث للعثور على عناصر مماثلة.

تظهر لقطة الشاشة التالية النتائج.

تنظيف

لتجنب تكبد رسوم مستقبلية، احذف الموارد المستخدمة في هذا الحل. يمكنك القيام بذلك عن طريق تشغيل قسم التنظيف في دفتر الملاحظات.

وفي الختام

يقدم هذا المنشور شرحًا تفصيليًا لاستخدام نموذج Amazon Titan Multimodal Embeddings في Amazon Bedrock لإنشاء تطبيقات بحث سياقية قوية. على وجه الخصوص، أظهرنا مثالاً لتطبيق البحث عن قائمة المنتجات. لقد رأينا كيف يتيح نموذج التضمين اكتشافًا فعالاً ودقيقًا للمعلومات من الصور والبيانات النصية، وبالتالي تعزيز تجربة المستخدم أثناء البحث عن العناصر ذات الصلة.

تساعدك Amazon Titan Multimodal Embeddings على توفير تجارب بحث متعددة الوسائط أكثر دقة وملاءمة للسياق، والتوصية، وتجارب التخصيص للمستخدمين النهائيين. على سبيل المثال، يمكن لشركة التصوير الفوتوغرافي التي لديها مئات الملايين من الصور استخدام النموذج لتشغيل وظيفة البحث الخاصة بها، بحيث يمكن للمستخدمين البحث عن الصور باستخدام عبارة أو صورة أو مجموعة من الصورة والنص.

يتوفر الآن نموذج Amazon Titan Multimodal Embeddings في Amazon Bedrock في مناطق AWS شرق الولايات المتحدة (شمال فرجينيا) وغرب الولايات المتحدة (أوريغون). لمعرفة المزيد، راجع Amazon Titan Image Generator والتضمينات المتعددة الوسائط ونماذج النص متاحة الآن في Amazon Bedrockأطلقت حملة صفحة منتج أمازون تيتان، و دليل مستخدم أمازون بيدروك. للبدء في استخدام Amazon Titan Multimodal Embeddings في Amazon Bedrock، قم بزيارة وحدة تحكم أمازون بيدروك.

ابدأ الإنشاء باستخدام نموذج Amazon Titan Multimodal Embeddings في أمازون بيدروك اليوم.


حول المؤلف

سانديب سينغ هو أحد كبار علماء بيانات الذكاء الاصطناعي التوليدي في Amazon Web Services، حيث يساعد الشركات على الابتكار باستخدام الذكاء الاصطناعي التوليدي. وهو متخصص في الذكاء الاصطناعي التوليدي والذكاء الاصطناعي والتعلم الآلي وتصميم الأنظمة. إنه متحمس لتطوير أحدث الحلول التي تعتمد على الذكاء الاصطناعي/التعلم الآلي لحل مشاكل الأعمال المعقدة للصناعات المتنوعة، وتحسين الكفاءة وقابلية التوسع.

ماني خانوجا هي قائدة تقنية - متخصصون في الذكاء الاصطناعي التوليدي، ومؤلفة كتاب التعلم الآلي التطبيقي والحوسبة عالية الأداء على AWS، وعضو مجلس إدارة مجلس إدارة مؤسسة المرأة في تعليم التصنيع. تقود مشاريع التعلم الآلي في مجالات مختلفة مثل رؤية الكمبيوتر ومعالجة اللغة الطبيعية والذكاء الاصطناعي التوليدي. وهي تتحدث في مؤتمرات داخلية وخارجية مثل AWS re:Invent وWomen in Manufacturing West وندوات عبر الإنترنت على YouTube وGHC 23. وفي أوقات فراغها، تحب الذهاب لمسافات طويلة على طول الشاطئ.

روبيندر جريوال هو أحد كبار مهندسي الحلول المتخصصة في الذكاء الاصطناعي/تعلم الآلة لدى AWS. وهو يركز حاليًا على تقديم النماذج وعمليات MLOps على Amazon SageMaker. قبل هذا الدور، عمل مهندسًا للتعلم الآلي في بناء واستضافة النماذج. وخارج العمل، يستمتع بلعب التنس وركوب الدراجات على الطرق الجبلية.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة