شعار زيفيرنت

قواعد المعرفة لـ Amazon Bedrock تدعم الآن البحث المختلط | خدمات الويب الأمازون

التاريخ:

At AWS إعادة: اختراع 2023، أعلنا عن التوفر العام لـ قواعد المعرفة لأمازون بيدروك. باستخدام قاعدة المعرفة، يمكنك توصيل النماذج الأساسية (FMs) بشكل آمن أمازون بيدروك إلى بيانات شركتك من أجل الجيل المعزز للاسترجاع المُدار بالكامل (RAG).

في باقة السابقة آخر، قمنا بوصف كيفية إدارة قواعد المعرفة لـ Amazon Bedrock لسير عمل RAG الشامل لك وشاركنا التفاصيل حول بعض الميزات التي تم إطلاقها مؤخرًا.

بالنسبة للتطبيقات المستندة إلى RAG، تعتمد دقة الاستجابة الناتجة من نماذج اللغات الكبيرة (LLMs) على السياق المقدم للنموذج. يتم استرداد السياق من قاعدة بيانات المتجهات بناءً على استعلام المستخدم. يتم استخدام البحث الدلالي على نطاق واسع لأنه قادر على فهم المزيد من الأسئلة التي تشبه الأسئلة البشرية - لا يرتبط استعلام المستخدم دائمًا بشكل مباشر بالكلمات الرئيسية المحددة في المحتوى الذي يجيب عليه. يساعد البحث الدلالي في تقديم الإجابات بناءً على معنى النص. ومع ذلك، فإنه يحتوي على قيود في التقاط جميع الكلمات الرئيسية ذات الصلة. ويعتمد أدائها على جودة تضمينات الكلمة المستخدمة لتمثيل معنى النص. للتغلب على هذه القيود، فإن الجمع بين البحث الدلالي والبحث عن الكلمات الرئيسية (المختلط) سيعطي نتائج أفضل.

في هذا المنشور، نناقش الميزة الجديدة للبحث المختلط، والتي يمكنك تحديدها كخيار استعلام إلى جانب البحث الدلالي.

نظرة عامة على البحث المختلط

يستفيد البحث المختلط من نقاط القوة في خوارزميات البحث المتعددة، ويدمج قدراتها الفريدة لتعزيز ملاءمة نتائج البحث التي يتم إرجاعها. بالنسبة للتطبيقات المستندة إلى RAG، يتم عادةً دمج إمكانات البحث الدلالي مع البحث التقليدي المستند إلى الكلمات الرئيسية لتحسين مدى ملاءمة نتائج البحث. فهو يتيح البحث في محتوى المستندات ومعناها الأساسي. على سبيل المثال، فكر في الاستعلام التالي:

What is the cost of the book "<book_name>" on <website_name>?

في هذا الاستعلام عن اسم الكتاب واسم موقع الويب، سيعطي البحث بالكلمة الرئيسية نتائج أفضل، لأننا نريد تكلفة الكتاب المحدد. لكن قد يكون لمصطلح "التكلفة" مرادفات مثل "السعر"، لذا سيكون من الأفضل استخدام البحث الدلالي الذي يفهم معنى النص. يوفر البحث المختلط أفضل ما في كلا الطريقتين: دقة البحث الدلالي وتغطية الكلمات الرئيسية. إنه يعمل بشكل رائع مع التطبيقات المستندة إلى RAG حيث يتعين على المسترد التعامل مع مجموعة واسعة من استعلامات اللغة الطبيعية. تساعد الكلمات الأساسية في تغطية كيانات محددة في الاستعلام مثل اسم المنتج واللون والسعر، بينما تفهم الدلالات المعنى والقصد داخل الاستعلام بشكل أفضل. على سبيل المثال، إذا كنت ترغب في إنشاء روبوت دردشة لموقع ويب للتجارة الإلكترونية للتعامل مع استفسارات العملاء مثل سياسة الإرجاع أو تفاصيل المنتج، فسيكون استخدام البحث المختلط هو الأكثر ملاءمة.

حالات الاستخدام للبحث المختلط

فيما يلي بعض حالات الاستخدام الشائعة للبحث المختلط:

  • فتح سؤال المجال الإجابة - يتضمن ذلك الإجابة على أسئلة حول مجموعة واسعة من المواضيع. ويتطلب ذلك البحث في مجموعات كبيرة من المستندات ذات المحتوى المتنوع، مثل بيانات موقع الويب، والتي يمكن أن تتضمن موضوعات مختلفة مثل الاستدامة والقيادة والنتائج المالية والمزيد. البحث الدلالي وحده لا يمكنه تعميم هذه المهمة بشكل جيد، لأنه يفتقر إلى القدرة على المطابقة المعجمية للكيانات غير المرئية، وهو أمر مهم للتعامل مع الأمثلة خارج المجال. ولذلك، فإن الجمع بين البحث المعتمد على الكلمات الرئيسية والبحث الدلالي يمكن أن يساعد في تضييق النطاق وتوفير نتائج أفضل للإجابة على أسئلة المجال المفتوح.
  • روبوتات الدردشة القائمة على السياق - يمكن للمحادثات أن تغير اتجاهها بسرعة وتغطي موضوعات غير متوقعة. يمكن للبحث المختلط أن يتعامل بشكل أفضل مع مربعات الحوار المفتوحة هذه.
  • البحث المخصص - يستفيد البحث على نطاق الويب عبر المحتوى غير المتجانس من النهج المختلط. يعالج البحث الدلالي استعلامات الرأس الشائعة، بينما تغطي الكلمات الرئيسية استعلامات طويلة نادرة.

على الرغم من أن البحث المختلط يوفر تغطية أوسع من خلال الجمع بين نهجين، فإن البحث الدلالي يتمتع بمزايا الدقة عندما يكون المجال ضيقًا وتكون الدلالات محددة جيدًا، أو عندما يكون هناك مجال صغير للتفسير الخاطئ، مثل أنظمة الإجابة على الأسئلة الواقعية.

فوائد البحث المختلط

سيعرض كل من البحث عن الكلمات الرئيسية والبحث الدلالي مجموعة منفصلة من النتائج بالإضافة إلى درجات ملاءمتها، والتي يتم دمجها بعد ذلك لإرجاع النتائج الأكثر صلة. تدعم قواعد المعرفة الخاصة بـ Amazon Bedrock حاليًا أربعة متاجر متجهة: أمازون أوبن سيرش سيرفرليس, إصدار متوافق مع Amazon Aurora PostgreSQL, كوز الصنوبرو ريديس سحابة المؤسسة. حتى كتابة هذه السطور، تتوفر ميزة البحث المختلط لـ OpenSearch Serverless، مع دعم لمتاجر المتجهات الأخرى قريبًا.

فيما يلي بعض فوائد استخدام البحث المختلط:

  • دقة محسنة - تعتمد دقة الاستجابة المتولدة من FM بشكل مباشر على مدى ملاءمة النتائج المسترجعة. بناءً على بياناتك، قد يكون من الصعب تحسين دقة تطبيقك باستخدام البحث الدلالي فقط. تتمثل الفائدة الرئيسية لاستخدام البحث المختلط في الحصول على جودة محسنة للنتائج المستردة، مما يساعد بدوره FM على إنشاء إجابات أكثر دقة.
  • توسيع قدرات البحث – يلقي البحث بالكلمات الرئيسية شبكة أوسع ويجد المستندات التي قد تكون ذات صلة ولكنها قد لا تحتوي على بنية دلالية في جميع أنحاء المستند. فهو يسمح لك بالبحث عن الكلمات الرئيسية بالإضافة إلى المعنى الدلالي للنص، وبالتالي توسيع إمكانيات البحث.

في الأقسام التالية، نوضح كيفية استخدام البحث المختلط مع قواعد المعرفة لـ Amazon Bedrock.

استخدم خيارات البحث المختلط والبحث الدلالي عبر SDK

عند استدعاء Retrieve API، تحدد Knowledge Bases for Amazon Bedrock استراتيجية البحث المناسبة لك لتمنحك النتائج الأكثر صلة. لديك خيار تجاوزه لاستخدام البحث المختلط أو الدلالي في واجهة برمجة التطبيقات.

استرداد واجهة برمجة التطبيقات

تم تصميم Retrieve API لجلب نتائج البحث ذات الصلة من خلال توفير استعلام المستخدم ومعرف قاعدة المعرفة وعدد النتائج التي تريد من API إرجاعها. تعمل واجهة برمجة التطبيقات هذه على تحويل استعلامات المستخدم إلى عمليات تضمين، والبحث في قاعدة المعرفة باستخدام البحث المختلط أو البحث الدلالي (المتجه)، وإرجاع النتائج ذات الصلة، مما يمنحك مزيدًا من التحكم لإنشاء مهام سير عمل مخصصة أعلى نتائج البحث. على سبيل المثال، يمكنك إضافة منطق المعالجة اللاحقة إلى النتائج المستردة أو إضافة المطالبة الخاصة بك والاتصال بأي FM توفره Amazon Bedrock لإنشاء الإجابات.

لإظهار مثال على التبديل بين خيارات البحث الهجين والدلالي (المتجه)، قمنا بإنشاء قاعدة معرفية باستخدام وثيقة أمازون 10K لعام 2023. لمزيد من التفاصيل حول إنشاء قاعدة المعرفة، راجع أنشئ تطبيق chatbot سياقيًا باستخدام قواعد المعرفة لـ Amazon Bedrock.

لتوضيح قيمة البحث المختلط نستخدم الاستعلام التالي:

As of December 31st 2023, what is the leased square footage for physical stores in North America?

تتضمن إجابة الاستعلام السابق بعض الكلمات الرئيسية، مثل date, physical storesو North America. الرد الصحيح هو 22,871 thousand square feet. دعونا نلاحظ الفرق في نتائج البحث لكل من البحث الهجين والدلالي.

يوضح التعليمة البرمجية التالية كيفية استخدام البحث المختلط أو الدلالي (المتجه) باستخدام Retrieve API مع Boto3:

import boto3

bedrock_agent_runtime = boto3.client(
    service_name = "bedrock-agent-runtime"
)

def retrieve(query, kbId, numberOfResults=5):
    return bedrock_agent_runtime.retrieve(
        retrievalQuery= {
            'text': query
        },
        knowledgeBaseId=kbId,
        retrievalConfiguration= {
            'vectorSearchConfiguration': {
                'numberOfResults': numberOfResults,
                'overrideSearchType': "HYBRID/SEMANTIC", # optional
            }
        }
    )
response = retrieve("As of December 31st 2023, what is the leased square footage for physical stores in North America?", "<knowledge base id>")["retrievalResults"]

overrideSearchType الخيار في retrievalConfiguration يقدم خيار استخدام أي منهما HYBRID or SEMANTIC. افتراضيًا، سيحدد الإستراتيجية المناسبة لك لتعطيك النتائج الأكثر صلة، وإذا كنت تريد تجاوز الخيار الافتراضي لاستخدام البحث المختلط أو الدلالي، فيمكنك تعيين القيمة على HYBRID/SEMANTIC. إخراج ملف Retrieve تتضمن واجهة برمجة التطبيقات (API) أجزاء النص المستردة، ونوع الموقع، وURI للبيانات المصدر، ودرجات ملاءمة عمليات الاسترجاع. تساعد النتائج في تحديد الأجزاء التي تتطابق بشكل أفضل مع استجابة الاستعلام.

فيما يلي نتائج الاستعلام السابق باستخدام البحث المختلط (مع تنقيح بعض النتائج للإيجاز):

[
  {
    "content": {
      "text": "... Description of Use Leased Square Footage (1).... Physical stores (2) 22,871  ..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.6389407
  },
  {
    "content": {
      "text": "Property and equipment, net by segment is as follows (in millions): December 31, 2021 2022 2023 North America $ 83,640 $ 90,076 $ 93,632 International 21,718 23,347 24,357 AWS 43,245 60,324 72,701 Corporate 1.."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.6389407
  },
  {
    "content": {
      "text": "..amortization of property and equipment acquired under finance leases of $9.9 billion, $6.1 billion, and $5.9 billion for 2021, 2022, and 2023. 54 Table of Contents Note 4 — LEASES We have entered into non-cancellable operating and finance leases for fulfillment network, data center, office, and physical store facilities as well as server and networking equipment, aircraft, and vehicles. Gross assets acquired under finance leases, ..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.61908984
  }
]

فيما يلي نتائج البحث الدلالي (مع تنقيح بعض النتائج للإيجاز):

[
  {
    "content": {
      "text": "Property and equipment, net by segment is as follows (in millions):    December 31,    2021 2022 2023   North America $ 83,640 $ 90,076 $ 93,632  International 21,718 23,347 24,357  AWS 43,245 60,324 72,701.."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.6389407
  },
  {
    "content": {
      "text": "Depreciation and amortization expense on property and equipment was $22.9 billion, $24.9 billion, and $30.2 billion which includes amortization of property and equipment acquired under finance leases of $9.9 billion, $6.1 billion, and $5.9 billion for 2021, 2022, and 2023.   54        Table of Contents   Note 4 — LEASES We have entered into non-cancellable operating and finance leases for fulfillment network, data center, office, and physical store facilities as well a..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.61908984
  },
  {
    "content": {
      "text": "Incentives that we receive from property and equipment   vendors are recorded as a reduction to our costs. Property includes buildings and land that we own, along with property we have acquired under build-to-suit lease arrangements when we have control over the building during the construction period and finance lease arrangements..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.61353767
  }
]

كما ترون في النتائج، تمكن البحث المختلط من استرداد نتيجة البحث باستخدام اللقطات المربعة المؤجرة للمتاجر الفعلية في أمريكا الشمالية كما هو مذكور في استعلام المستخدم. كان السبب الرئيسي هو أن البحث المختلط كان قادرًا على دمج النتائج من الكلمات الرئيسية مثل date, physical storesو North America في الاستعلام، في حين أن البحث الدلالي لم يفعل ذلك. لذلك، عندما يتم تعزيز نتائج البحث باستعلام المستخدم والموجه، لن يتمكن FM من تقديم الاستجابة الصحيحة في حالة البحث الدلالي.

الآن دعونا نلقي نظرة على RetrieveAndGenerate واجهة برمجة التطبيقات (API) مع بحث مختلط لفهم الاستجابة النهائية الناتجة عن FM.

استرداد AndGenerate API

RetrieveAndGenerate تستعلم واجهة برمجة التطبيقات (API) عن قاعدة معرفية وتقوم بإنشاء استجابة بناءً على النتائج المستردة. يمكنك تحديد معرف قاعدة المعرفة بالإضافة إلى FM لإنشاء استجابة من النتائج. تقوم Amazon Bedrock بتحويل الاستعلامات إلى عمليات تضمين، والاستعلام عن قاعدة المعرفة بناءً على نوع البحث، ثم زيادة موجه FM بنتائج البحث كمعلومات سياقية وإرجاع الاستجابة التي تم إنشاؤها بواسطة FM.

لنستخدم الاستعلام "اعتبارًا من 31 ديسمبر 2023، ما هي المساحة المستأجرة للمتاجر الفعلية في أمريكا الشمالية؟" واسأل RetrieveAndGenerate واجهة برمجة التطبيقات (API) لإنشاء الاستجابة باستخدام استعلامنا:

def retrieveAndGenerate(input, kbId):
    return bedrock_agent_runtime.retrieve_and_generate(
        input={
            'text': input
        },
        retrieveAndGenerateConfiguration={
            'type': 'KNOWLEDGE_BASE',
            'knowledgeBaseConfiguration': {
                'knowledgeBaseId': kbId,
                'modelArn': 'arn:aws:bedrock:us-east-1::foundation-model/anthropic.claude-instant-v1'
                'retrievalConfiguration': {
                'overrideSearchType': 'HYBRID/SEMANTIC',
                }
                }
            }
        )
response = retrieveAndGenerate("As of December 31st 2023, what is the leased square footage for physical stores in North America?", "<knowledge base id>")["output"]["text"]

فيما يلي النتائج باستخدام البحث المختلط:

22,871 thousand leased square feet

وفيما يلي النتائج باستخدام البحث الدلالي:

The search results do not contain any information about the leased square footage for physical stores in North America for 2023.

الجواب الفعلي للاستعلام هو 22,871 thousand leased square feet، والذي تم إنشاؤه بواسطة البحث المختلط. تضمنت نتائج البحث المستردة للبحث المختلط معلومات حول اللقطات المربعة المؤجرة للمتاجر الفعلية في أمريكا الشمالية، بينما لم يكن البحث الدلالي قادرًا على جلب المعلومات الصحيحة من متجر المتجهات بسبب ترجمة التضمينات. ولذلك، لم يتمكن FM من تقديم الإجابة الصحيحة لأنه لم يكن لديه نتائج البحث الصحيحة والأكثر صلة.

ومع ذلك، بالنسبة للأسئلة الأكثر عمومية التي لا تتضمن كيانات مثل physical stores or North America، كل من البحث المختلط والدلالي يعطي نتائج مماثلة.

فيما يلي نماذج من الاستجابات من بعض الاستعلامات التي توضح الحالات التي يؤدي فيها كل من البحث المختلط والدلالي إلى نتائج مماثلة.

سؤال البحث الدلالي: RAG API البحث المختلط: RAG API
كيف تخدم أمازون المطورين والشركات؟ نحن نخدم المطورين والمؤسسات من جميع الأحجام، بما في ذلك الشركات الناشئة والوكالات الحكومية والمؤسسات الأكاديمية، من خلال AWS، التي تقدم مجموعة واسعة من خدمات التكنولوجيا حسب الطلب، بما في ذلك الحوسبة والتخزين وقاعدة البيانات والتحليلات والتعلم الآلي، و خدمات أخرى نحن نخدم المطورين والمؤسسات من جميع الأحجام، بما في ذلك الشركات الناشئة والوكالات الحكومية والمؤسسات الأكاديمية، من خلال AWS، التي تقدم مجموعة واسعة من خدمات التكنولوجيا حسب الطلب، بما في ذلك الحوسبة والتخزين وقاعدة البيانات والتحليلات والتعلم الآلي، و خدمات أخرى.
من هم المسؤولون التنفيذيون والمديرون في أمازون اعتبارًا من 24 يناير 2024؟ يشمل المسؤولون التنفيذيون في أمازون اعتبارًا من عام 2024 أندرو آر. جاسي في منصب الرئيس والمدير التنفيذي، ودوغلاس جيه. هيرينجتون في منصب الرئيس التنفيذي لمتاجر أمازون العالمية، وبريان تي. أولسافسكي في منصب نائب الرئيس الأول والمدير المالي، وشيلي إل. رينولدز في منصب نائب الرئيس. ، المراقب المالي العالمي ومسؤول المحاسبة الرئيسي، آدم إن. سيليبسكي في منصب الرئيس التنفيذي لشركة Amazon Web Services، وديفيد أ. زابولسكي في منصب نائب الرئيس الأول للسياسة العامة العالمية والمستشار العام. اعتبارًا من عام 2024، يشغل جيفري بي بيزوس منصب الرئيس التنفيذي لموقع Amazon.com. يشغل أندرو ر. جاسي منصب الرئيس والمدير التنفيذي. ومن بين المسؤولين التنفيذيين الآخرين دوجلاس جيه. هيرينجتون في منصب الرئيس التنفيذي لمتاجر أمازون العالمية، وبريان تي. أولسافسكي في منصب نائب الرئيس الأول والمدير المالي، وشيلي إل. رينولدز في منصب نائب الرئيس والمراقب المالي العالمي ومسؤول المحاسبة الرئيسي، وآدم إن. سيليبسكي في منصب الرئيس التنفيذي. خدمات الويب الأمازون. يشغل ديفيد أ. زابولسكي منصب النائب الأول للرئيس للسياسة العامة العالمية والمستشار العام

استخدم خيارات البحث المختلط والبحث الدلالي عبر وحدة تحكم Amazon Bedrock

لاستخدام خيارات البحث المختلط والدلالي على وحدة تحكم Amazon Bedrock، أكمل الخطوات التالية:

  1. في وحدة تحكم Amazon Bedrock، اختر قاعدة المعرفة في جزء التنقل.
  2. اختر قاعدة المعرفة التي قمت بإنشائها.
  3. اختار اختبار قاعدة المعرفة.
  4. اختر أيقونة التكوينات.
  5. في حالة نوع البحثتحديد البحث المختلط (الدلالي والنص).

بشكل افتراضي، يمكنك اختيار FM للحصول على استجابة تم إنشاؤها لاستعلامك. إذا كنت تريد رؤية النتائج المستردة فقط، فيمكنك التبديل توليد الاستجابة إيقاف للحصول على النتائج المستردة فقط.

وفي الختام

في هذا المنشور، قمنا بتغطية ميزة الاستعلام الجديدة في قواعد المعرفة لـ Amazon Bedrock، والتي تتيح البحث المختلط. لقد تعلمنا كيفية تكوين خيار البحث المختلط في SDK ووحدة تحكم Amazon Bedrock. ويساعد هذا في التغلب على بعض القيود المفروضة على الاعتماد فقط على البحث الدلالي، خاصة للبحث في مجموعات كبيرة من المستندات ذات المحتوى المتنوع. يعتمد استخدام البحث المختلط على نوع المستند وحالة الاستخدام التي تحاول تنفيذها.

للحصول على موارد إضافية، راجع ما يلي:

مراجع حسابات

تحسين أداء الاسترجاع في خطوط أنابيب RAG باستخدام البحث المختلط


حول المؤلف

ماني خانوجا هي قائدة تقنية - متخصصون في الذكاء الاصطناعي التوليدي، ومؤلفة كتاب التعلم الآلي التطبيقي والحوسبة عالية الأداء على AWS، وعضو مجلس إدارة مجلس إدارة مؤسسة المرأة في تعليم التصنيع. تقود مشاريع التعلم الآلي في مجالات مختلفة مثل رؤية الكمبيوتر ومعالجة اللغة الطبيعية والذكاء الاصطناعي التوليدي. وهي تتحدث في مؤتمرات داخلية وخارجية مثل AWS re:Invent وWomen in Manufacturing West وندوات عبر الإنترنت على YouTube وGHC 23. وفي أوقات فراغها، تحب الذهاب لمسافات طويلة على طول الشاطئ.

بالافي نارغوند هو مهندس الحلول الرئيسي في AWS. ومن خلال دورها كعامل تمكين للتكنولوجيا السحابية، تعمل مع العملاء لفهم أهدافهم وتحدياتهم، وتقدم إرشادات إرشادية لتحقيق هدفهم من خلال عروض AWS. إنها شغوفة بالمرأة في مجال التكنولوجيا وهي عضو أساسي في Women in AI/ML في Amazon. وهي تتحدث في مؤتمرات داخلية وخارجية مثل AWS re:Invent وAWS Summits والندوات عبر الإنترنت. خارج العمل تستمتع بالعمل التطوعي والبستنة وركوب الدراجات والمشي لمسافات طويلة.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة