לוגו זפירנט

בנו מנוע חיפוש טקסט ותמונות קונטקסטואלי להמלצות על מוצרים באמצעות Amazon Bedrock ו-Amazon OpenSearch Serverless | שירותי האינטרנט של אמזון

תאריך:

עליית החיפוש ההקשרי והסמנטי גרמה לעסקים בתחום המסחר האלקטרוני והקמעונאי לחפש פשוט עבור הצרכנים שלהם. מנועי חיפוש ומערכות המלצות המופעלות על ידי בינה מלאכותית גנרטיבית יכולים לשפר את חוויית החיפוש של המוצר באופן אקספוננציאלי על ידי הבנת שאילתות שפה טבעית והחזרת תוצאות מדויקות יותר. זה משפר את חווית המשתמש הכוללת, ועוזר ללקוחות למצוא בדיוק את מה שהם מחפשים.

שירות חיפוש פתוח של אמזון עכשיו תומך דמיון קוסינוס מדד עבור אינדקסים של k-NN. דמיון קוסינוס מודד את הקוסינוס של הזווית בין שני וקטורים, כאשר זווית קוסינוס קטנה יותר מציינת דמיון גבוה יותר בין הוקטורים. עם דמיון קוסינוס, אתה יכול למדוד את הכיוון בין שני וקטורים, מה שהופך אותו לבחירה טובה עבור כמה יישומי חיפוש סמנטיים ספציפיים.

בפוסט זה, אנו מראים כיצד לבנות מנוע חיפוש טקסט ותמונות קונטקסטואלי עבור המלצות למוצרים באמצעות ה Amazon Titan Multimodal Embeddings דגם, זמין ב סלע אמזוןעם Amazon OpenSearch ללא שרתים.

מודל הטמעות רב-מודאלי נועד ללמוד ייצוגים משותפים של אופנים שונים כמו טקסט, תמונות ואודיו. על ידי אימון על מערכי נתונים בקנה מידה גדול המכילים תמונות והכיתובים התואמים להם, מודל הטמעות רב-מודאלי לומד להטמיע תמונות וטקסטים במרחב סמוי משותף. להלן סקירה ברמה גבוהה של איך זה עובד מבחינה רעיונית:

  • מקודדים נפרדים - לדגמים אלה יש מקודדים נפרדים לכל אופציה - מקודד טקסט לטקסט (לדוגמה, BERT או RoBERTa), מקודד תמונה לתמונות (לדוגמה, CNN לתמונות), ומקודדי שמע לאודיו (לדוגמה, דגמים כמו Wav2Vec) . כל מקודד יוצר הטמעות הלוכדות תכונות סמנטיות של האופנים שלהם
  • היתוך מודאלי – ההטבעות מהמקודדים החד-מודאליים משולבות באמצעות שכבות רשת עצביות נוספות. המטרה היא ללמוד אינטראקציות ומתאמים בין השיטות. גישות היתוך נפוצות כוללות שרשור, פעולות של אלמנטים, איגום ומנגנוני קשב.
  • מרחב ייצוג משותף - שכבות ההיתוך עוזרות להקרין את האופנים האישיים לתוך מרחב ייצוג משותף. על ידי הכשרה על מערכי נתונים רב-מודאליים, המודל לומד מרחב הטמעה משותף שבו הטמעות מכל מודאליות המייצגות את אותו תוכן סמנטי בסיסי קרובות יותר זו לזו.
  • משימות במורד הזרם - ההטבעות המולטי-מודאליות המשותפות שנוצרו לאחר מכן יכולות לשמש עבור משימות שונות במורד הזרם כמו אחזור רב-מודאלי, סיווג או תרגום. המודל משתמש בקורלציות בין אופנים כדי לשפר את הביצועים במשימות אלו בהשוואה להטמעות מודאליות בודדות. היתרון העיקרי הוא היכולת להבין אינטראקציות וסמנטיקה בין אופנים כמו טקסט, תמונות ואודיו באמצעות מודלים משותפים.

סקירת פתרונות

הפתרון מספק יישום לבניית אב-טיפוס של מנוע חיפוש מופעל במודל שפה גדול (LLM) כדי לאחזר ולהמליץ ​​על מוצרים על סמך שאילתות טקסט או תמונה. אנו מפרטים את השלבים לשימוש ב- Embeddings Multimodal של Amazon Titan מודל לקידוד תמונות וטקסט להטמעות, הטמעת הטמעות באינדקס OpenSearch Service ושאילתה לאינדקס באמצעות שירות OpenSearch פונקציונליות k-nearest neighbors (k-NN)..

פתרון זה כולל את הרכיבים הבאים:

  • Amazon Titan Multimodal Embeddings דגם - מודל היסוד הזה (FM) מייצר הטבעות של תמונות המוצר המשמשות בפוסט זה. עם Amazon Titan Multimodal Embeddings, אתה יכול ליצור הטבעות עבור התוכן שלך ולאחסן אותם במסד נתונים וקטורי. כאשר משתמש קצה שולח שילוב כלשהו של טקסט ותמונה כשאילתת חיפוש, המודל יוצר הטמעות עבור שאילתת החיפוש ומתאים אותן להטבעות המאוחסנות כדי לספק תוצאות חיפוש והמלצות רלוונטיות למשתמשי הקצה. אתה יכול להתאים אישית את המודל כדי לשפר את ההבנה שלו לגבי התוכן הייחודי שלך ולספק תוצאות משמעותיות יותר באמצעות צמדי תמונה-טקסט לכוונון עדין. כברירת מחדל, המודל יוצר וקטורים (הטבעות) של 1,024 ממדים, והגישה אליו מתבצעת דרך Amazon Bedrock. אתה יכול גם ליצור ממדים קטנים יותר כדי לייעל את המהירות והביצועים
  • Amazon OpenSearch ללא שרתים - זוהי תצורה ללא שרת לפי דרישה עבור OpenSearch Service. אנו משתמשים ב-Amazon OpenSearch Serverless כמסד נתונים וקטור לאחסון הטמעות שנוצרו על ידי מודל Amazon Titan Multimodal Embeddings. אינדקס שנוצר בקולקציית Amazon OpenSearch Serverless משמש כחנות הווקטור לפתרון ה-Retrieval Augmented Generation (RAG) שלנו.
  • סטודיו SageMaker של אמזון - זוהי סביבת פיתוח משולבת (IDE) ללמידת מכונה (ML). מתרגלי ML יכולים לבצע את כל שלבי הפיתוח של ML - מהכנת הנתונים שלך ועד לבנייה, הדרכה ופריסה של מודלים של ML.

עיצוב הפתרון מורכב משני חלקים: אינדקס נתונים וחיפוש קונטקסטואלי. במהלך אינדקס נתונים, אתה מעבד את תמונות המוצר כדי ליצור הטבעות עבור תמונות אלה ולאחר מכן מאכלס את מאגר הנתונים הווקטוריים. השלבים האלה הושלמו לפני שלבי האינטראקציה עם המשתמש.

בשלב החיפוש ההקשרי, שאילתת חיפוש (טקסט או תמונה) מהמשתמש מומרת להטמעות ומופעל חיפוש דמיון במסד הנתונים הווקטוריים כדי למצוא את תמונות המוצר הדומות על סמך חיפוש דמיון. לאחר מכן תציג את התוצאות הדומות המובילות. כל הקוד לפוסט הזה זמין ב- GitHub ריפו.

התרשים הבא ממחיש את ארכיטקטורת הפתרונות.

להלן שלבי זרימת העבודה של הפתרון:

  1. הורד את הטקסט והתמונות של תיאור המוצר מהציבור שירות אחסון פשוט של אמזון (אמזון S3) דלי.
  2. סקור והכן את מערך הנתונים.
  3. צור הטמעות עבור תמונות המוצר באמצעות מודל Amazon Titan Multimodal Embeddings (amazon.titan-embed-image-v1). אם יש לך מספר עצום של תמונות ותיאורים, אתה יכול לחלופין להשתמש ב- מסקנות אצווה עבור Amazon Bedrock.
  4. אחסן הטבעות לתוך Amazon OpenSearch ללא שרתים בתור מנוע החיפוש.
  5. לבסוף, אחזר את שאילתת המשתמש בשפה טבעית, המר אותה להטמעות באמצעות מודל Amazon Titan Multimodal Embeddings, ובצע חיפוש k-NN כדי לקבל את תוצאות החיפוש הרלוונטיות.

אנו משתמשים ב-SageMaker Studio (לא מוצג בתרשים) בתור ה-IDE לפיתוח הפתרון.

שלבים אלה נדונים בפירוט בסעיפים הבאים. אנו כוללים גם צילומי מסך ופרטים של הפלט.

תנאים מוקדמים

כדי ליישם את הפתרון המופיע בפוסט זה, צריך להיות לך את הדברים הבאים:

  • An חשבון AWS והיכרות עם FMs, Amazon Bedrock, אמזון SageMaker, ושירות OpenSearch.
  • מודל ההטבעות הרב-מודאליות של Amazon Titan מופעל ב- Amazon Bedrock. אתה יכול לאשר שהוא מופעל ב- גישה לדגם עמוד של קונסולת אמזון היסוד. אם Amazon Titan Multimodal Embeddings מופעלת, סטטוס הגישה יראה כ גישה מאופשרת, כפי שמוצג בצילום המסך הבא.

אם הדגם אינו זמין, אפשר גישה לדגם על ידי בחירה נהל גישה לדגם, בחירה Amazon Titan Multimodal Embeddings G1, ובחירה בקש גישה לדגם. הדגם מופעל לשימוש מיידי.

הגדר את הפתרון

לאחר השלמת השלבים המוקדמים, אתה מוכן להגדיר את הפתרון:

  1. בחשבון AWS שלך, פתח את מסוף SageMaker ובחר סטודיו בחלונית הניווט.
  2. בחר את הדומיין ופרופיל המשתמש שלך ולאחר מכן בחר סטודיו פתוח.

שם הדומיין ושם פרופיל המשתמש שלך עשויים להיות שונים.

  1. בחרו מסוף מערכת תחת כלי עזר וקבצים.
  2. הפעל את הפקודה הבאה כדי לשכפל את GitHub ריפו למופע SageMaker Studio:
git clone https://github.com/aws-samples/amazon-bedrock-samples.git

  1. נווט אל multimodal/Titan/titan-multimodal-embeddings/amazon-bedrock-multimodal-oss-searchengine-e2e תיקייה.
  2. פתח את titan_mm_embed_search_blog.ipynb מחברת.

הפעל את הפתרון

פתח את הקובץ titan_mm_embed_search_blog.ipynb והשתמש בליבת Data Science Python 3. על הפעלה בתפריט, בחר הפעל את כל התאים כדי להפעיל את הקוד במחברת זו.

מחברת זו מבצעת את השלבים הבאים:

  1. התקן את החבילות והספריות הנדרשות לפתרון זה.
  2. טען את הזמין לציבור ערכת נתונים של Amazon Berkeley Objects ומטא נתונים במסגרת נתונים של פנדה.

מערך הנתונים הוא אוסף של 147,702 רשימות מוצרים עם מטא נתונים רב לשוניים ו-398,212 תמונות קטלוג ייחודיות. עבור פוסט זה, אתה משתמש רק בתמונות הפריטים ובשמות הפריטים באנגלית אמריקאית. אתה משתמש בכ-1,600 מוצרים.

  1. צור הטבעות עבור תמונות הפריט באמצעות מודל Amazon Titan Multimodal Embeddings באמצעות get_titan_multomodal_embedding() פוּנקצִיָה. למען ההפשטה, הגדרנו את כל הפונקציות החשובות המשמשות במחברת זו ב- utils.py קובץ.

לאחר מכן, אתה יוצר ומגדיר חנות וקטורית של Amazon OpenSearch Serverless (אוסף ואינדקס).

  1. לפני שאתה יוצר את אוסף החיפוש הווקטורי החדש ואינדקס, עליך ליצור תחילה שלוש מדיניות של שירות OpenSearch משויכים: מדיניות אבטחת ההצפנה, מדיניות אבטחת הרשת ומדיניות הגישה לנתונים.

  1. לבסוף, הכנס את התמונה המוטמעת באינדקס הווקטור.

כעת תוכל לבצע חיפוש מולטי-מודאלי בזמן אמת.

הפעל חיפוש קונטקסטואלי

בחלק זה, אנו מציגים את תוצאות החיפוש ההקשרי על סמך שאילתת טקסט או תמונה.

ראשית, בואו נבצע חיפוש תמונות על סמך קלט טקסט. בדוגמה הבאה, אנו משתמשים בקלט הטקסט "כוס משקה" ושולחים אותו למנוע החיפוש כדי למצוא פריטים דומים.

צילום המסך הבא מציג את התוצאות.

עכשיו בואו נסתכל על התוצאות על סמך תמונה פשוטה. תמונת הקלט מומרת להטבעות וקטוריות, ועל סמך חיפוש הדמיון, המודל מחזיר את התוצאה.

אתה יכול להשתמש בכל תמונה, אבל עבור הדוגמה הבאה, אנו משתמשים בתמונה אקראית ממערך הנתונים המבוסס על מזהה פריט (לדוגמה, item_id = "B07JCDQWM6"), ולאחר מכן שלח תמונה זו למנוע החיפוש כדי למצוא פריטים דומים.

צילום המסך הבא מציג את התוצאות.

לנקות את

כדי להימנע מחיובים עתידיים, מחק את המשאבים המשמשים בפתרון זה. אתה יכול לעשות זאת על ידי הפעלת קטע הניקוי של המחברת.

סיכום

פוסט זה הציג הדרכה על השימוש במודל Amazon Titan Multimodal Embeddings ב- Amazon Bedrock לבניית יישומי חיפוש קונטקסטואליים רבי עוצמה. במיוחד, הדגמנו דוגמה ליישום חיפוש פרטי מוצר. ראינו כיצד מודל ההטמעות מאפשר גילוי יעיל ומדויק של מידע מתמונות ונתונים טקסטואליים, ובכך משפר את חווית המשתמש תוך חיפוש אחר הפריטים הרלוונטיים.

Amazon Titan Multimodal Embeddings עוזר לך להפעיל חוויות חיפוש, המלצות וחוויות התאמה אישית מדויקות יותר ורלוונטיות יותר מבחינה הקשרית עבור משתמשי קצה. לדוגמה, חברת צילום מלאי עם מאות מיליוני תמונות יכולה להשתמש במודל כדי להפעיל את פונקציונליות החיפוש שלו, כך שמשתמשים יכולים לחפש תמונות באמצעות ביטוי, תמונה או שילוב של תמונה וטקסט.

הדגם של Amazon Titan Multimodal Embeddings ב- Amazon Bedrock זמין כעת באזורי ה-AWS במזרח ארה"ב (נ' וירג'יניה) ובמערב ארה"ב (אורגון). למידע נוסף, עיין ב דגמי Amazon Titan Image Generator, Multimodal Embeddings ו-Text זמינים כעת באמזון, ה עמוד המוצר של Amazon Titan, וה מדריך למשתמש של Amazon Bedrock. כדי להתחיל עם אמזון טיטאן Multimodal Embeddings ב- Amazon Bedrock, בקר באתר קונסולת אמזון Bedrock.

התחל לבנות עם דגם Amazon Titan Multimodal Embeddings ב סלע אמזון היום.


על הכותבים

סנדאפ סינג הוא מדען נתונים בכיר בינה מלאכותית ב-Amazon Web Services, שעוזר לעסקים לחדש עם AI גנרטיבי. הוא מתמחה בבינה מלאכותית גנרטיבית, בינה מלאכותית, למידת מכונה ועיצוב מערכות. הוא נלהב לפיתוח פתרונות AI/ML חדישים לפתרון בעיות עסקיות מורכבות עבור תעשיות מגוונות, תוך אופטימיזציה של יעילות ומדרגיות.

מני חנוג'ה היא מובילה טכנולוגית - מומחי בינה מלאכותית, מחברת הספר Applied Machine Learning and High Performance Computing on AWS, וחברה במועצת המנהלים של קרן החינוך לנשים בייצור. היא מובילה פרויקטים של למידת מכונה בתחומים שונים כגון ראייה ממוחשבת, עיבוד שפה טבעית ובינה מלאכותית יצירתית. היא מדברת בכנסים פנימיים וחיצוניים כגון AWS re:Invent, Women in Manufacturing West, סמינרים מקוונים של YouTube ו-GHC 23. בזמנה הפנוי היא אוהבת לצאת לריצות ארוכות לאורך החוף.

רופנדר גרוואל הוא ארכיטקט פתרונות מומחה בינה מלאכותית/ML בכיר עם AWS. כיום הוא מתמקד בהגשה של דגמים ו-MLOps ב-Amazon SageMaker. לפני תפקיד זה, הוא עבד כמהנדס למידת מכונה בבניית ואירוח מודלים. מחוץ לעבודה, הוא נהנה לשחק טניס ולרכוב על אופניים בשבילי הרים.

ספוט_ימג

המודיעין האחרון

ספוט_ימג