شعار زيفيرنت

تحسينات البحث في خدمة Amazon OpenSearch Service: تقرير إخباري لعام 2023 | خدمات الويب الأمازون

التاريخ:

لقد تطور ما يتوقعه المستخدمون من محركات البحث على مر السنين. لم يعد مجرد عرض النتائج ذات الصلة المعجمية بسرعة كافيًا لمعظم المستخدمين. يبحث المستخدمون الآن عن طرق تتيح لهم الحصول على نتائج أكثر صلة من خلال الفهم الدلالي أو حتى البحث من خلال أوجه التشابه المرئية بين الصور بدلاً من البحث النصي في البيانات الوصفية. خدمة Amazon OpenSearch يتضمن العديد من الميزات التي تتيح لك تحسين تجربة البحث الخاصة بك. نحن متحمسون بشأن ميزات خدمة OpenSearch والتحسينات التي أضفناها إلى مجموعة الأدوات هذه في عام 2023.

كان عام 2023 عامًا للابتكار السريع في مجال الذكاء الاصطناعي (AI) والتعلم الآلي (ML)، وكان البحث مستفيدًا كبيرًا من هذا التقدم. طوال عام 2023، استثمرت Amazon OpenSearch Service في تمكين فرق البحث من استخدام أحدث تقنيات الذكاء الاصطناعي/التعلم الآلي لتحسين تجارب البحث الحالية لديك وتعزيزها، دون الحاجة إلى إعادة كتابة تطبيقاتك أو إنشاء تنسيقات مخصصة، مما يؤدي إلى إطلاق العنان للتطوير السريع والتكرار والإنتاج. تتضمن هذه الاستثمارات تقديم طرق بحث جديدة بالإضافة إلى وظائف لتبسيط تنفيذ الطرق المتاحة، والتي نراجعها في هذا المنشور.

الخلفية: البحث المعجمي والدلالي

قبل أن نبدأ، دعونا نراجع البحث المعجمي والدلالي.

البحث المعجمي

في البحث المعجمي، يقوم محرك البحث بمقارنة الكلمات الموجودة في استعلام البحث بالكلمات الموجودة في المستندات، ومطابقة كلمة بكلمة. فقط العناصر التي تحتوي على كلمات كتبها المستخدم هي التي تتطابق مع الاستعلام. يُستخدم البحث المعجمي التقليدي، استنادًا إلى نماذج تكرار المصطلحات مثل BM25، على نطاق واسع وفعال للعديد من تطبيقات البحث. ومع ذلك، فإن تقنيات البحث المعجمي تكافح من أجل تجاوز الكلمات المضمنة في استعلام المستخدم، مما يؤدي إلى عدم عرض النتائج المحتملة ذات الصلة العالية دائمًا.

البحث الدلالي

في البحث الدلالي، يستخدم محرك البحث نموذج تعلم الآلة لتشفير النص أو الوسائط الأخرى (مثل الصور ومقاطع الفيديو) من المستندات المصدر كمتجه كثيف في مساحة متجهة عالية الأبعاد. ويسمى هذا أيضا تضمين النص في الفضاء المتجه. وبالمثل، يقوم بترميز الاستعلام كمتجه ثم يستخدم مقياس المسافة للعثور على المتجهات القريبة في الفضاء متعدد الأبعاد للعثور على التطابقات. تسمى خوارزمية العثور على المتجهات القريبة k-nearest المجاورة (k-NN). لا يتطابق البحث الدلالي مع مصطلحات الاستعلام الفردية - فهو يبحث عن المستندات التي يكون دمجها المتجه بالقرب من تضمين الاستعلام في مساحة المتجه وبالتالي يشبه الاستعلام من الناحية الدلالية. يتيح لك ذلك إرجاع العناصر ذات الصلة للغاية حتى لو لم تحتوي على أي من الكلمات الموجودة في الاستعلام.

لقد قدم OpenSearch بحثًا عن تشابه المتجهات (k-NN وk-NN التقريبي) لعدة سنوات، وهو ما كان ذا قيمة للعملاء الذين اعتمدوه. ومع ذلك، لم يعتمده جميع العملاء الذين لديهم الفرصة للاستفادة من k-NN، وذلك بسبب الجهد الهندسي الكبير والموارد المطلوبة للقيام بذلك.

إصدارات 2023: الأساسيات

في عام 2023، تم إطلاق العديد من الميزات والتحسينات على خدمة OpenSearch، بما في ذلك الميزات الجديدة التي تمثل اللبنات الأساسية لتحسينات البحث المستمرة.

أداة OpenSearch لمقارنة نتائج البحث

مقارنة نتائج البحث تتيح لك هذه الأداة، المتوفرة بشكل عام في الإصدار 2.11 من خدمة OpenSearch، مقارنة نتائج البحث من طريقتين للتصنيف جنبًا إلى جنب، في لوحات معلومات OpenSearch، لتحديد ما إذا كان أحد الاستعلامات يؤدي إلى نتائج أفضل من الآخر. بالنسبة للعملاء المهتمين بتجربة أحدث طرق البحث المدعومة بالنماذج المدعومة بالتعلم الآلي، فإن القدرة على مقارنة نتائج البحث أمر بالغ الأهمية. يمكن أن يشمل ذلك مقارنة البحث المعجمي، والبحث الدلالي، وتقنيات البحث الهجين لفهم فوائد كل تقنية مقابل مجموعتك، أو إجراء تعديلات مثل وزن المجال واستراتيجيات الجذع أو التجسيد المختلفة.

تعرض لقطة الشاشة التالية مثالاً لاستخدام أداة مقارنة نتائج البحث.


لمعرفة المزيد حول البحث الدلالي والبحث عبر الوسائط وتجربة العرض التوضيحي لأداة مقارنة نتائج البحث، راجع جرّب البحث الدلالي باستخدام محرك المتجهات الخاص بـ Amazon OpenSearch Service.

البحث عن خطوط الأنابيب

يتطلع ممارسون البحث إلى تقديم طرق جديدة لتحسين استعلامات البحث وكذلك النتائج. مع التوفر العام لمسارات البحث، بدءًا من الإصدار 2.9 من خدمة OpenSearch، يمكنك إنشاء استعلام بحث ومعالجة النتائج كتركيبة من خطوات المعالجة المعيارية، دون تعقيد برنامج التطبيق الخاص بك. من خلال دمج المعالجات لوظائف مثل عوامل التصفية، ومع القدرة على إضافة برنامج نصي للتشغيل على المستندات المفهرسة حديثًا، يمكنك جعل تطبيقات البحث الخاصة بك أكثر دقة وكفاءة وتقليل الحاجة إلى التطوير المخصص.

تتضمن مسارات البحث ثلاثة معالجات مدمجة: filter_query، وrename_field، وطلب البرنامج النصي، بالإضافة إلى واجهات برمجة التطبيقات الجديدة التي تركز على المطورين لتمكين المطورين الذين يرغبون في إنشاء معالجاتهم الخاصة من القيام بذلك. سيستمر OpenSearch في إضافة معالجات مدمجة إضافية لتوسيع هذه الوظيفة بشكل أكبر في الإصدارات القادمة.

يوضح الرسم البياني التالي بنية خطوط أنابيب البحث.

ناقلات بحجم البايت في لوسين

حتى الآن، يدعم البرنامج الإضافي k-NN في OpenSearch الفهرسة والاستعلام عن المتجهات من النوع float، حيث يشغل كل عنصر متجه 4 بايت. قد يكون هذا مكلفًا من حيث الذاكرة والتخزين، خاصة في حالات الاستخدام واسعة النطاق. باستخدام ميزة ناقل البايت الجديدة في الإصدار 2.9 من خدمة OpenSearch، يمكنك تقليل متطلبات الذاكرة بعامل 4 وتقليل زمن وصول البحث بشكل كبير، مع الحد الأدنى من فقدان الجودة (الاستدعاء). لمعرفة المزيد، راجع ناقلات البايت الكمية في OpenSearch.

دعم محللي اللغة الجديدة

كانت خدمة OpenSearch تدعم سابقًا المكونات الإضافية لمحلل اللغة مثل IK (الصينية)، وKuromoji (اليابانية)، وSeunjeon (الكورية)، من بين العديد من المكونات الأخرى. أضفنا دعمًا لـ Nori (الكورية)، وSudachi (اليابانية)، وPinyin (الصينية)، وتحليل STConvert (الصينية). تتوفر هذه المكونات الإضافية الجديدة كنوع حزمة جديد، ZIP-PLUGIN، إلى جانب نوع الحزمة TXT-DICTIONARY المدعوم مسبقًا. يمكنك التنقل إلى الباقات صفحة وحدة تحكم خدمة OpenSearch لربط هذه المكونات الإضافية بمجموعتك، أو استخدام AssociatePackage API.

إصدارات 2023: تحسينات سهلة الاستخدام

قامت خدمة OpenSearch أيضًا بإجراء تحسينات في عام 2023 لتعزيز سهولة الاستخدام ضمن ميزات البحث الرئيسية.

البحث الدلالي مع البحث العصبي

في السابق، كان تنفيذ البحث الدلالي يعني أن تطبيقك كان مسؤولاً عن البرامج الوسيطة لدمج نماذج تضمين النص في البحث واستيعابها، وتنظيم ترميز المجموعة، ثم استخدام بحث k-NN في وقت الاستعلام.

تم تقديم خدمة البحث المفتوح البحث العصبي في الإصدار 2.9، يمكّن المطورين من إنشاء وتشغيل تطبيقات البحث الدلالي مع تقليل الأحمال الثقيلة غير المتمايزة بشكل كبير. لم يعد تطبيقك بحاجة للتعامل مع توجيه المستندات والاستعلامات؛ يقوم البحث الدلالي بذلك، ويستدعي k-NN أثناء وقت الاستعلام. يعمل البحث الدلالي عبر ميزة البحث العصبي على تحويل المستندات أو الوسائط الأخرى إلى تضمينات متجهة وفهرسة كل من النص وتضمينات المتجهات الخاصة به في فهرس متجه. عند استخدام استعلام عصبي أثناء البحث، يقوم البحث العصبي بتحويل نص الاستعلام إلى تضمين متجه، ويستخدم البحث المتجه لمقارنة الاستعلام وعمليات تضمين المستندات، ويعيد أقرب النتائج. تم إصدار هذه الوظيفة في البداية كتجربة في الإصدار 2.4 من خدمة OpenSearch، وهي الآن متاحة بشكل عام مع الإصدار 2.9.

موصلات AI/ML لتمكين ميزات البحث المدعومة بالذكاء الاصطناعي

باستخدام OpenSearch Service 2.9، يمكنك استخدام موصلات AI المبتكرة لخدمات AWS AI وML وبدائل الجهات الخارجية لتشغيل الميزات مثل البحث العصبي. على سبيل المثال، يمكنك الاتصال بنماذج تعلم الآلة الخارجية المستضافة على الأمازون SageMaker، والذي يوفر إمكانات شاملة لإدارة النماذج بنجاح في الإنتاج. إذا كنت ترغب في استخدام أحدث نماذج الأساس من خلال تجربة مُدارة بالكامل، فيمكنك استخدام الموصلات لـ أمازون بيدروك لتشغيل حالات الاستخدام مثل البحث متعدد الوسائط. يتضمن إصدارنا الأولي موصلاً لـ Cohere Embed، ومن خلال SageMaker وAmazon Bedrock، يمكنك الوصول إلى المزيد من خيارات الجهات الخارجية. يمكنك تكوين بعض عمليات التكامل هذه على نطاقاتك من خلال تكاملات وحدة تحكم خدمة OpenSearch (انظر لقطة الشاشة التالية)، وحتى نشر النموذج تلقائيًا في SageMaker.

يتم فهرسة النماذج المدمجة في مجال خدمة OpenSearch الخاصة بك، حتى يتمكن فريقك من اكتشاف مجموعة متنوعة من النماذج المتكاملة والمتوفرة للاستخدام بسهولة. لديك أيضًا خيار تمكين عناصر التحكم في الأمان الدقيقة على موارد النموذج والموصل للتحكم في الوصول إلى مستوى النموذج والموصل.

لتعزيز النظام البيئي المفتوح، قمنا بإنشاء إطار عمل لتمكين الشركاء من إنشاء موصلات الذكاء الاصطناعي ونشرها بسهولة. يمكن لموفري التكنولوجيا ببساطة إنشاء ملف مخطط، وهو مستند JSON يصف اتصال RESTful الآمن بين OpenSearch وخدمتك. يمكن لشركاء التكنولوجيا نشر الموصلات الخاصة بهم على موقع مجتمعنا، ويمكنك استخدام موصلات الذكاء الاصطناعي هذه على الفور - سواء لمجموعة تتم إدارتها ذاتيًا أو على خدمة OpenSearch. يمكنك العثور على مخططات لكل موصل في مستودع ML Commons GitHub.

البحث المختلط مدعوم بمجموعة النتائج

أحدثت التقنيات الدلالية، مثل تضمين المتجهات للبحث العصبي ونماذج اللغة الكبيرة التوليدية للذكاء الاصطناعي (LLMs) لمعالجة اللغة الطبيعية، ثورة في البحث، مما قلل من الحاجة إلى إدارة قائمة المرادفات اليدوية وضبطها. من ناحية أخرى، يتفوق البحث النصي (المعجمي) على البحث الدلالي في بعض الحالات المهمة، مثل أرقام الأجزاء أو أسماء العلامات التجارية. يمنح البحث المختلط، وهو مزيج من الطريقتين، صلة بحث أعلى بنسبة 14% (كما تم قياسها بواسطة NDCG@10 - وهو مقياس لجودة التصنيف) مقارنة بـ BM25 وحده، لذلك يرغب العملاء في استخدام البحث المختلط للحصول على أفضل ما في كليهما. لمزيد من المعلومات حول دقة وأداء نتائج المقارنة المرجعية التفصيلية، راجع قم بتحسين صلة البحث باستخدام البحث المختلط، المتوفر بشكل عام في OpenSearch 2.10.

حتى الآن، كان الجمع بينهما يمثل تحديًا نظرًا لاختلاف مقاييس الملاءمة لكل طريقة. في السابق، لتنفيذ نهج مختلط، كان عليك تشغيل استعلامات متعددة بشكل مستقل، ثم تطبيع النتائج ودمجها خارج OpenSearch. مع إطلاق الجديد الجمع بين النتيجة المختلطة والتطبيع نوع الاستعلام في OpenSearch Service 2.11، يتعامل OpenSearch مع تسوية النتائج ودمجها في استعلام واحد، مما يجعل البحث المختلط أسهل في التنفيذ وطريقة أكثر كفاءة لتحسين ملاءمة البحث.

طرق بحث جديدة

وأخيرًا، تتميز خدمة OpenSearch الآن بطرق بحث جديدة.

استرجاع متناثر العصبية

تقديم خدمة البحث المفتوح 2.11 بحث متناثر العصبية، وهو نوع جديد من أسلوب التضمين المتناثر الذي يشبه في كثير من النواحي الفهرسة الكلاسيكية القائمة على المصطلحات، ولكن مع تمثيل الكلمات والعبارات منخفضة التردد بشكل أفضل. يستخدم الاسترجاع الدلالي المتناثر نماذج المحولات (مثل BERT) لبناء تضمينات غنية بالمعلومات تحل مشكلة عدم تطابق المفردات بطريقة قابلة للتطوير، مع وجود تكلفة حسابية وزمن وصول مماثل للبحث المعجمي. توفر وظيفة الاسترجاع المتفرق الجديدة هذه مع OpenSearch وضعين لهما مزايا مختلفة: وضع المستند فقط ووضع التشفير الثنائي. يمكن أن يوفر وضع المستند فقط أداءً منخفض الاستجابة يمكن مقارنته ببحث BM25، مع وجود قيود على بناء الجملة المتقدم مقارنةً بالطرق الكثيفة. يمكن أن يؤدي وضع التشفير الثنائي إلى زيادة أهمية البحث إلى الحد الأقصى أثناء الأداء في فترات استجابة أعلى. باستخدام هذا التحديث، يمكنك الآن اختيار الطريقة التي تناسب متطلبات الأداء والدقة والتكلفة بشكل أفضل.

بحث متعدد الوسائط

تقدم خدمة OpenSearch Service 2.11 البحث متعدد الوسائط عن النصوص والصور باستخدام البحث العصبي. تسمح لك هذه الوظيفة بالبحث في أزواج الصور والنصوص، مثل عناصر كتالوج المنتج (صورة المنتج ووصفه)، بناءً على التشابه البصري والدلالي. يتيح ذلك تجارب بحث جديدة يمكنها تقديم نتائج أكثر صلة. على سبيل المثال، يمكنك البحث عن "بلوزة بيضاء" لاسترداد المنتجات التي تحتوي على صور تطابق هذا الوصف، حتى لو كان عنوان المنتج هو "قميص بلون كريمي". نموذج ML الذي يدعم هذه التجربة قادر على ربط الدلالات والخصائص المرئية. يمكنك أيضًا البحث بالصور لاسترداد المنتجات المشابهة بصريًا أو البحث حسب النص والصورة للعثور على المنتجات الأكثر تشابهًا مع عنصر معين في كتالوج المنتجات.

يمكنك الآن بناء هذه الإمكانات في تطبيقك للاتصال مباشرة بالنماذج متعددة الوسائط وتشغيل استعلامات بحث متعددة الوسائط دون الحاجة إلى إنشاء برامج وسيطة مخصصة. يمكن دمج نموذج Amazon Titan Multimodal Embeddings مع خدمة OpenSearch لدعم هذه الطريقة. تشير إلى بحث متعدد الوسائط للحصول على إرشادات حول كيفية البدء في البحث الدلالي متعدد الوسائط، وابحث عن المزيد من أنواع الإدخال التي ستتم إضافتها في الإصدارات المستقبلية. يمكنك أيضًا تجربة العرض التوضيحي لـ البحث عبر الوسائط عن النصوص والصور، والتي تظهر البحث عن الصور باستخدام الأوصاف النصية.

نبذة عامة

توفر خدمة OpenSearch مجموعة من الأدوات المختلفة لإنشاء تطبيق البحث الخاص بك، ولكن أفضل تنفيذ سيعتمد على مجموعتك واحتياجات عملك وأهدافه. نحن نشجع ممارسي البحث على بدء الاختبار طرق البحث المتاحة من أجل العثور على الملاءمة المناسبة لحالة الاستخدام الخاصة بك. في عام 2024 وما بعده، يمكنك أن تتوقع الاستمرار في رؤية هذه الوتيرة السريعة لابتكار البحث من أجل إبقاء أحدث وأكبر تقنيات البحث في متناول ممارسي البحث في OpenSearch.


حول المؤلف

داجني براون هو مدير أول للمنتج في فريق Amazon Web Services OpenSearch. إنها متحمسة لتحسين سهولة استخدام OpenSearch، وتوسيع الأدوات المتاحة لدعم جميع حالات استخدام العملاء بشكل أفضل.

ستافروس ماراكيس هو مدير فني أول للمنتجات في مشروع OpenSearch التابع لشركة Amazon Web Services. إنه متحمس لمنح العملاء الأدوات اللازمة لتحسين جودة نتائج البحث الخاصة بهم.

ديلان تونج هو مدير منتج أول في Amazon Web Services. وهو يقود مبادرات المنتج الخاصة بالذكاء الاصطناعي والتعلم الآلي (ML) على OpenSearch بما في ذلك إمكانات قاعدة بيانات المتجهات الخاصة بـ OpenSearch. يتمتع ديلان بعقود من الخبرة في العمل مباشرة مع العملاء وإنشاء المنتجات والحلول في قواعد البيانات والتحليلات ومجال الذكاء الاصطناعي/تعلم الآلة. حصل ديلان على درجة البكالوريوس والماجستير في علوم الكمبيوتر من جامعة كورنيل.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة