Zephyrnet Logosu

Amazon Bedrock için Bilgi Tabanları artık hibrit aramayı destekliyor | Amazon Web Hizmetleri

Tarih:

At AWS re: İcat 2023'te genel kullanıma sunulacağını duyurduk Amazon Bedrock için Bilgi Tabanları. Bir bilgi tabanıyla temel modellerini (FM'ler) güvenli bir şekilde bağlayabilirsiniz. Amazon Ana Kayası Tam olarak yönetilen Alma Artırılmış Üretim (RAG) için şirket verilerinize.

İçinde önceki yazıbölümünde, Amazon Bedrock için Bilgi Tabanlarının sizin için uçtan uca RAG iş akışını nasıl yönettiğini anlattık ve kullanıma sunulan yeni özelliklerden bazılarıyla ilgili ayrıntıları paylaştık.

RAG tabanlı uygulamalar için, büyük dil modellerinden (LLM'ler) oluşturulan yanıtın doğruluğu, modele sağlanan bağlama bağlıdır. Bağlam, kullanıcı sorgusuna dayalı olarak vektör veritabanından alınır. Semantik arama yaygın olarak kullanılmaktadır çünkü daha insan benzeri soruları anlayabilmektedir; bir kullanıcının sorgusu her zaman, onu yanıtlayan içerikteki tam anahtar kelimelerle doğrudan ilişkili değildir. Anlamsal arama, metnin anlamına göre yanıtlar sağlamaya yardımcı olur. Ancak alakalı tüm anahtar kelimeleri yakalama konusunda sınırlamaları vardır. Performansı, metnin anlamını temsil etmek için kullanılan kelime yerleştirmelerinin kalitesine bağlıdır. Bu sınırlamaların üstesinden gelmek için anlamsal aramayı anahtar kelime aramayla (karma) birleştirmek daha iyi sonuçlar verecektir.

Bu yazımızda anlamsal aramanın yanında sorgu seçeneği olarak seçebileceğiniz hibrit aramanın yeni özelliğini ele alıyoruz.

Hibrit aramaya genel bakış

Hibrit arama, birden fazla arama algoritmasının güçlü yönlerinden yararlanır ve döndürülen arama sonuçlarının alaka düzeyini artırmak için benzersiz yeteneklerini birleştirir. RAG tabanlı uygulamalar için anlamsal arama yetenekleri, arama sonuçlarının alaka düzeyini artırmak amacıyla genellikle geleneksel anahtar kelimeye dayalı aramayla birleştirilir. Hem belgelerin içeriği hem de bunların altında yatan anlamlar üzerinde arama yapılmasını sağlar. Örneğin aşağıdaki sorguyu göz önünde bulundurun:

What is the cost of the book "<book_name>" on <website_name>?

Bir kitap adı ve web sitesi adı için yapılan bu sorguda, anahtar kelime araması daha iyi sonuçlar verecektir çünkü belirli bir kitabın maliyetini istiyoruz. Ancak “maliyet” teriminin “fiyat” gibi eşanlamlıları da olabileceği için metnin anlamını anlayan semantik aramayı kullanmak daha doğru olacaktır. Hibrit arama her iki yaklaşımın da en iyi yönlerini sunar: semantik aramanın kesinliği ve anahtar kelimelerin kapsamı. Alıcının çok çeşitli doğal dil sorgularını işlemesi gereken RAG tabanlı uygulamalar için harika çalışır. Anahtar kelimeler, sorgudaki ürün adı, renk ve fiyat gibi belirli öğelerin kapsanmasına yardımcı olurken anlambilim, sorgunun anlamını ve amacını daha iyi anlar. Örneğin, bir e-ticaret sitesi için iade politikası veya ürün ayrıntıları gibi müşteri sorgularını ele alacak bir chatbot oluşturmak istiyorsanız hibrit aramayı kullanmak en uygunu olacaktır.

Karma arama için kullanım örnekleri

Hibrit arama için bazı yaygın kullanım durumları aşağıda verilmiştir:

  • Açık alan soru cevaplama – Bu, çok çeşitli konulardaki soruların yanıtlanmasını içerir. Bu, sürdürülebilirlik, liderlik, finansal sonuçlar ve daha fazlası gibi çeşitli konuları içerebilen web sitesi verileri gibi farklı içeriğe sahip geniş belge koleksiyonları üzerinde arama yapmayı gerektirir. Semantik arama tek başına bu görev için iyi bir genelleme yapamaz çünkü görülmeyen varlıkların sözcüksel eşleştirilmesi kapasitesinden yoksundur; bu, alan dışı örneklerin işlenmesi için önemlidir. Bu nedenle, anahtar kelimeye dayalı aramayı anlamsal aramayla birleştirmek, kapsamı daraltmaya ve açık alan soru yanıtlama için daha iyi sonuçlar sağlamaya yardımcı olabilir.
  • Bağlamsal tabanlı sohbet robotları – Konuşmalar hızla yön değiştirebilir ve öngörülemeyen konuları kapsayabilir. Hibrit arama bu tür açık uçlu diyalogları daha iyi işleyebilir.
  • Kişiselleştirilmiş arama – Heterojen içerik üzerinde web ölçeğinde arama, hibrit bir yaklaşımdan yararlanır. Anlamsal arama popüler başlık sorgularını yönetirken, anahtar kelimeler nadir uzun kuyruklu sorguları kapsar.

Hibrit arama, iki yaklaşımı birleştirerek daha geniş bir kapsam sunmasına rağmen, anlamsal arama, alan dar olduğunda ve anlambilim iyi tanımlandığında veya gerçek soru yanıtlama sistemleri gibi yanlış yorumlamaya çok az yer olduğunda hassas avantajlara sahiptir.

Hibrit aramanın faydaları

Hem anahtar kelime hem de anlamsal arama, alaka düzeyi puanlarıyla birlikte ayrı bir sonuç kümesi döndürür ve bunlar daha sonra en alakalı sonuçları döndürmek için birleştirilir. Amazon Bedrock için Bilgi Tabanları şu anda dört vektör mağazasını desteklemektedir: Amazon OpenSearch Sunucusuz, Amazon Aurora PostgreSQL-Uyumlu Sürüm, Çam kozalağı, ve Redis Kurumsal Bulut. Bu yazının yazıldığı an itibarıyla hibrit arama özelliği OpenSearch Serverless için mevcut olup, diğer vektör mağazaları için de destek yakında sunulacaktır.

Hibrit arama kullanmanın faydalarından bazıları şunlardır:

  • Geliştirilmiş doğruluk – FM'den üretilen yanıtın doğruluğu doğrudan alınan sonuçların uygunluğuna bağlıdır. Verilerinize dayanarak, yalnızca anlamsal aramayı kullanarak uygulamanızın doğruluğunu artırmak zor olabilir. Hibrit arama kullanmanın temel faydası, alınan sonuçların kalitesinin iyileştirilmesidir; bu da FM'nin daha doğru yanıtlar üretmesine yardımcı olur.
  • Genişletilmiş arama yetenekleri – Anahtar kelime araması daha geniş bir ağ oluşturur ve alakalı olabilecek ancak belgenin tamamında anlamsal yapı içermeyebilecek belgeleri bulur. Metnin anlamsal anlamının yanı sıra anahtar kelimelere göre de arama yapmanızı sağlar, böylece arama yeteneklerini genişletir.

Aşağıdaki bölümlerde Amazon Bedrock için Bilgi Tabanları ile hibrit aramanın nasıl kullanılacağını gösteriyoruz.

SDK aracılığıyla hibrit arama ve anlamsal arama seçeneklerini kullanın

Retrieve API'yi çağırdığınızda Amazon Bedrock Bilgi Tabanları, size en alakalı sonuçları sunmak için doğru arama stratejisini seçer. API'de karma veya anlamsal aramayı kullanmak için bunu geçersiz kılma seçeneğiniz vardır.

API'yi al

Alma API'si, kullanıcı sorgusunu, bilgi tabanı kimliğini ve API'nin döndürmesini istediğiniz sonuç sayısını sağlayarak ilgili arama sonuçlarını getirmek üzere tasarlanmıştır. Bu API, kullanıcı sorgularını yerleştirmelere dönüştürür, karma arama veya anlamsal (vektör) aramayı kullanarak bilgi tabanında arama yapar ve ilgili sonuçları döndürerek size arama sonuçlarının üstünde özel iş akışları oluşturma konusunda daha fazla kontrol sağlar. Örneğin, alınan sonuçlara son işleme mantığı ekleyebilir veya kendi isteminizi ekleyebilir ve yanıtlar oluşturmak için Amazon Bedrock tarafından sağlanan herhangi bir FM'ye bağlanabilirsiniz.

Hibrit ve semantik (vektör) arama seçenekleri arasında geçiş yapmanın bir örneğini size göstermek için, aşağıdakileri kullanarak bir bilgi tabanı oluşturduk: 10 Amazon 2023K belgesi. Bilgi tabanı oluşturmaya ilişkin daha fazla ayrıntı için bkz. Amazon Bedrock için Bilgi Tabanlarını kullanarak bağlamsal bir sohbet robotu uygulaması oluşturun.

Hibrit aramanın değerini göstermek için aşağıdaki sorguyu kullanıyoruz:

As of December 31st 2023, what is the leased square footage for physical stores in North America?

Önceki sorgunun cevabı birkaç anahtar kelimeyi içeriyor; date, physical stores, ve North America. Doğru cevap 22,871 thousand square feet. Hem hibrit hem de semantik arama için arama sonuçlarındaki farkı gözlemleyelim.

Aşağıdaki kod, Boto3 ile Retrieve API'sini kullanarak karma veya anlamsal (vektör) aramanın nasıl kullanılacağını gösterir:

import boto3

bedrock_agent_runtime = boto3.client(
    service_name = "bedrock-agent-runtime"
)

def retrieve(query, kbId, numberOfResults=5):
    return bedrock_agent_runtime.retrieve(
        retrievalQuery= {
            'text': query
        },
        knowledgeBaseId=kbId,
        retrievalConfiguration= {
            'vectorSearchConfiguration': {
                'numberOfResults': numberOfResults,
                'overrideSearchType': "HYBRID/SEMANTIC", # optional
            }
        }
    )
response = retrieve("As of December 31st 2023, what is the leased square footage for physical stores in North America?", "<knowledge base id>")["retrievalResults"]

The overrideSearchType seçeneği retrievalConfiguration ikisini de kullanma seçeneği sunuyor HYBRID or SEMANTIC. Varsayılan olarak, size en alakalı sonuçları sunmak için doğru stratejiyi seçecektir ve hibrit veya anlamsal aramayı kullanmak için varsayılan seçeneği geçersiz kılmak istiyorsanız değeri şu şekilde ayarlayabilirsiniz: HYBRID/SEMANTIC. çıktısı Retrieve API, alınan metin parçalarını, kaynak verilerin konum türünü ve URI'sini ve almaların alaka düzeyi puanlarını içerir. Puanlar, hangi parçaların sorgunun yanıtıyla en iyi şekilde eşleştiğini belirlemeye yardımcı olur.

Hibrit aramayı kullanan önceki sorgunun sonuçları aşağıdadır (çıkışların bir kısmı kısa olması için çıkarılmıştır):

[
  {
    "content": {
      "text": "... Description of Use Leased Square Footage (1).... Physical stores (2) 22,871  ..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.6389407
  },
  {
    "content": {
      "text": "Property and equipment, net by segment is as follows (in millions): December 31, 2021 2022 2023 North America $ 83,640 $ 90,076 $ 93,632 International 21,718 23,347 24,357 AWS 43,245 60,324 72,701 Corporate 1.."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.6389407
  },
  {
    "content": {
      "text": "..amortization of property and equipment acquired under finance leases of $9.9 billion, $6.1 billion, and $5.9 billion for 2021, 2022, and 2023. 54 Table of Contents Note 4 — LEASES We have entered into non-cancellable operating and finance leases for fulfillment network, data center, office, and physical store facilities as well as server and networking equipment, aircraft, and vehicles. Gross assets acquired under finance leases, ..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.61908984
  }
]

Anlamsal aramanın sonuçları aşağıdadır (çıkışların bir kısmı kısa olması için düzenlenmiştir):

[
  {
    "content": {
      "text": "Property and equipment, net by segment is as follows (in millions):    December 31,    2021 2022 2023   North America $ 83,640 $ 90,076 $ 93,632  International 21,718 23,347 24,357  AWS 43,245 60,324 72,701.."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.6389407
  },
  {
    "content": {
      "text": "Depreciation and amortization expense on property and equipment was $22.9 billion, $24.9 billion, and $30.2 billion which includes amortization of property and equipment acquired under finance leases of $9.9 billion, $6.1 billion, and $5.9 billion for 2021, 2022, and 2023.   54        Table of Contents   Note 4 — LEASES We have entered into non-cancellable operating and finance leases for fulfillment network, data center, office, and physical store facilities as well a..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.61908984
  },
  {
    "content": {
      "text": "Incentives that we receive from property and equipment   vendors are recorded as a reduction to our costs. Property includes buildings and land that we own, along with property we have acquired under build-to-suit lease arrangements when we have control over the building during the construction period and finance lease arrangements..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.61353767
  }
]

Sonuçlarda görebileceğiniz gibi, hibrit arama, kullanıcı sorgusunda belirtildiği gibi Kuzey Amerika'daki fiziksel mağazalar için kiralanan metrekare ile arama sonucunu elde edebildi. Bunun temel nedeni, hibrit aramanın aşağıdaki gibi anahtar kelimelerden elde edilen sonuçları birleştirebilmesiydi: date, physical stores, ve North America sorguda ise anlamsal arama yapılmadı. Bu nedenle, arama sonuçları kullanıcı sorgusu ve istemiyle zenginleştirildiğinde anlamsal arama durumunda FM doğru yanıtı sağlayamayacaktır.

Şimdi şuna bakalım: RetrieveAndGenerate FM tarafından oluşturulan nihai yanıtı anlamak için hibrit arama özelliğine sahip API.

RetrieveAndGenerate API'si

The RetrieveAndGenerate API bir bilgi tabanını sorgular ve alınan sonuçlara göre bir yanıt oluşturur. Sonuçlardan bir yanıt oluşturmak için FM'nin yanı sıra bilgi tabanı kimliğini de belirtirsiniz. Amazon Bedrock, sorguları yerleştirmelere dönüştürür, arama türüne göre bilgi tabanını sorgular ve ardından FM istemini bağlam bilgisi olarak arama sonuçlarıyla zenginleştirir ve FM tarafından oluşturulan yanıtı döndürür.

“31 Aralık 2023 itibarıyla Kuzey Amerika'daki fiziksel mağazaların kiralanan metrekaresi nedir?” sorgusunu kullanalım. ve şunu sor RetrieveAndGenerate Sorgumuzu kullanarak yanıtı oluşturmak için API:

def retrieveAndGenerate(input, kbId):
    return bedrock_agent_runtime.retrieve_and_generate(
        input={
            'text': input
        },
        retrieveAndGenerateConfiguration={
            'type': 'KNOWLEDGE_BASE',
            'knowledgeBaseConfiguration': {
                'knowledgeBaseId': kbId,
                'modelArn': 'arn:aws:bedrock:us-east-1::foundation-model/anthropic.claude-instant-v1'
                'retrievalConfiguration': {
                'overrideSearchType': 'HYBRID/SEMANTIC',
                }
                }
            }
        )
response = retrieveAndGenerate("As of December 31st 2023, what is the leased square footage for physical stores in North America?", "<knowledge base id>")["output"]["text"]

Hibrit arama kullanılarak elde edilen sonuçlar şunlardır:

22,871 thousand leased square feet

Anlamsal arama kullanılarak elde edilen sonuçlar şunlardır:

The search results do not contain any information about the leased square footage for physical stores in North America for 2023.

Sorunun asıl cevabı şu 22,871 thousand leased square feet, hibrit arama tarafından oluşturulur. Hibrit arama için alınan arama sonuçları, Kuzey Amerika'daki fiziksel mağazalar için kiralanan metrekareyle ilgili bilgileri içeriyordu; oysa anlamsal arama, yerleştirme çevirisi nedeniyle vektör mağazasından doğru bilgiyi getiremedi. Bu nedenle FM, doğru ve en alakalı arama sonuçlarına sahip olmadığı için doğru yanıtı sağlayamadı.

Ancak, gibi varlıkları içermeyen daha genel sorular için physical stores or North America, hem hibrit hem de anlamsal arama benzer sonuçlar verir.

Aşağıda, hem karma hem de anlamsal aramanın benzer sonuçlar verdiği durumları gösteren birkaç sorgudan alınan örnek yanıtlar yer almaktadır.

Soru Anlamsal Arama: RAG API Karma Arama: RAG API
Amazon geliştiricilere ve işletmelere nasıl hizmet ediyor? Bilgi işlem, depolama, veritabanı, analiz ve makine öğrenimi de dahil olmak üzere çok çeşitli isteğe bağlı teknoloji hizmetleri sunan AWS aracılığıyla, start-up'lar, devlet kurumları ve akademik kurumlar da dahil olmak üzere her büyüklükteki geliştiricilere ve kuruluşlara hizmet veriyoruz. diğer servisler Bilgi işlem, depolama, veritabanı, analiz ve makine öğrenimi de dahil olmak üzere çok çeşitli isteğe bağlı teknoloji hizmetleri sunan AWS aracılığıyla, start-up'lar, devlet kurumları ve akademik kurumlar da dahil olmak üzere her büyüklükteki geliştiricilere ve kuruluşlara hizmet veriyoruz. diğer servisler.
24 Ocak 2024 itibarıyla Amazon'un İcra Yetkilileri ve Direktörleri kimlerdir? 2024 itibarıyla Amazon'un üst düzey yöneticileri arasında Başkan ve İcra Kurulu Başkanı olarak Andrew R. Jassy, ​​Dünya Çapındaki Amazon Mağazaları CEO'su olarak Douglas J. Herrington, Kıdemli Başkan Yardımcısı ve Finans Direktörü olarak Brian T. Olsavsky ve Başkan Yardımcısı olarak Shelley L. Reynolds bulunmaktadır. , Dünya Çapında Kontrolör ve Baş Muhasebe Görevlisi, Adam N. Selipsky Amazon Web Services CEO'su ve David A. Zapolsky Kıdemli Başkan Yardımcısı, Küresel Kamu Politikası ve Baş Hukuk Müşaviri olarak görev yaptı. Jeffrey P. Bezos, 2024 yılı itibarıyla Amazon.com'un İcra Kurulu Başkanı olarak görev yapmaktadır. Andrew R. Jassy, ​​Başkan ve İcra Kurulu Başkanı olarak görev yapmaktadır. Diğer icra memurları arasında Dünya Çapında Amazon Mağazaları CEO'su olarak Douglas J. Herrington, Kıdemli Başkan Yardımcısı ve Finans Direktörü Brian T. Olsavsky, Başkan Yardımcısı, Dünya Çapında Kontrolör ve Baş Muhasebe Sorumlusu olarak Shelley L. Reynolds ve CEO olarak Adam N. Selipsky yer alıyor. Amazon Web Hizmetleri. David A. Zapolsky Kıdemli Başkan Yardımcısı, Küresel Kamu Politikası ve Genel Danışman olarak görev yapmaktadır.

Amazon Bedrock konsolu aracılığıyla hibrit arama ve anlamsal arama seçeneklerini kullanın

Amazon Bedrock konsolunda hibrit ve anlamsal arama seçeneklerini kullanmak için aşağıdaki adımları tamamlayın:

  1. Amazon Bedrock konsolunda şunu seçin: Bilgi tabanı Gezinti bölmesinde.
  2. Oluşturduğunuz bilgi tabanını seçin.
  3. Klinik Bilgi tabanını test edin.
  4. Yapılandırmalar simgesini seçin.
  5. İçin Arama Tipi¸ seç Hibrit arama (anlamsal ve metin).

Varsayılan olarak, sorgunuz için oluşturulan bir yanıt almak üzere bir FM seçebilirsiniz. Yalnızca alınan sonuçları görmek istiyorsanız, Yanıt oluştur yalnızca alınan sonuçları almak için kapalı.

Sonuç

Bu yazıda Amazon Bedrock için Bilgi Tabanlarında hibrit aramaya olanak tanıyan yeni sorgu özelliğini ele aldık. SDK ve Amazon Bedrock konsolunda hibrit arama seçeneğinin nasıl yapılandırılacağını öğrendik. Bu, özellikle farklı içeriğe sahip geniş belge koleksiyonları üzerinde arama yaparken, yalnızca anlamsal aramaya güvenmenin bazı sınırlamalarının üstesinden gelmeye yardımcı olur. Hibrit aramanın kullanımı belge türüne ve uygulamaya çalıştığınız kullanım senaryosuna bağlıdır.

Ek kaynaklar için aşağıdakilere bakın:

Referanslar

Hibrit Arama ile RAG Ardışık Düzenlerinde Alma Performansını İyileştirme


Yazarlar Hakkında

Mani Khanuja Teknoloji Lideri – Üretken Yapay Zeka Uzmanıdır, Applied Machine Learning and High Performance Computing on AWS kitabının yazarıdır ve Üretimde Kadınlar Eğitimi Vakfı Yönetim Kurulu Yönetim Kurulu üyesidir. Bilgisayarla görme, doğal dil işleme ve üretken yapay zeka gibi çeşitli alanlarda makine öğrenimi projelerine liderlik ediyor. AWS re:Invent, Women in Manufacturing West, YouTube web seminerleri ve GHC 23 gibi iç ve dış konferanslarda konuşuyor. Boş zamanlarında sahilde uzun koşulara çıkmayı seviyor.

Pallavi Nargund AWS'de Baş Çözüm Mimarıdır. Bulut teknolojisi sağlayıcısı rolünde, müşterilerin hedeflerini ve zorluklarını anlamak için müşterilerle birlikte çalışıyor ve AWS teklifleriyle hedeflerine ulaşmaları için kuralcı rehberlik sağlıyor. Teknolojideki kadınlara tutkuyla bağlıdır ve Amazon'daki Women in AI/ML'nin çekirdek üyesidir. AWS re:Invent, AWS Zirveleri ve web seminerleri gibi iç ve dış konferanslarda konuşuyor. İş dışında gönüllülük yapmaktan, bahçecilik yapmaktan, bisiklete binmekten ve yürüyüş yapmaktan hoşlanıyor.

spot_img

En Son İstihbarat

spot_img