제퍼넷 로고

Amazon Bedrock의 기술 자료가 이제 하이브리드 검색을 지원합니다 | 아마존 웹 서비스

시간

At AWS 재 : 발명 2023년에 정식 출시를 발표했습니다. Amazon Bedrock에 대한 기술 자료. 지식 기반을 사용하면 FM(기반 모델)을 안전하게 연결할 수 있습니다. 아마존 기반암 완전 관리형 RAG(Retrieval Augmented Generation)를 위해 회사 데이터에 추가합니다.

안에 이전 게시물에서는 Amazon Bedrock용 Knowledge Bases가 엔드투엔드 RAG 워크플로를 관리하는 방법을 설명하고 최근 출시된 일부 기능에 대한 세부 정보를 공유했습니다.

RAG 기반 애플리케이션의 경우 LLM(대형 언어 모델)에서 생성된 응답의 정확성은 모델에 제공된 컨텍스트에 따라 달라집니다. 사용자 쿼리를 기반으로 벡터 데이터베이스에서 컨텍스트를 검색합니다. 의미론적 검색은 보다 인간과 유사한 질문을 이해할 수 있기 때문에 널리 사용됩니다. 즉, 사용자의 검색어가 항상 답변하는 콘텐츠의 정확한 키워드와 직접적인 관련이 있는 것은 아닙니다. 의미론적 검색은 텍스트의 의미를 기반으로 답변을 제공하는 데 도움이 됩니다. 그러나 관련 키워드를 모두 포착하는 데에는 한계가 있습니다. 성능은 텍스트의 의미를 나타내는 데 사용되는 단어 임베딩의 품질에 따라 달라집니다. 이러한 한계를 극복하기 위해 의미 검색과 키워드 검색(하이브리드)을 결합하면 더 나은 결과를 얻을 수 있습니다.

이 게시물에서는 의미 검색과 함께 쿼리 옵션으로 선택할 수 있는 하이브리드 검색의 새로운 기능에 대해 설명합니다.

하이브리드 검색 개요

하이브리드 검색은 여러 검색 알고리즘의 장점을 활용하여 고유한 기능을 통합하여 반환된 검색 결과의 관련성을 향상시킵니다. RAG 기반 애플리케이션의 경우 의미론적 검색 기능은 일반적으로 기존 키워드 기반 검색과 결합되어 검색 결과의 관련성을 향상시킵니다. 이를 통해 문서 내용과 그 기본 의미를 모두 검색할 수 있습니다. 예를 들어 다음 쿼리를 고려해 보세요.

What is the cost of the book "<book_name>" on <website_name>?

책 이름과 웹 사이트 이름에 대한 이 쿼리에서는 특정 책의 가격을 원하기 때문에 키워드 검색이 더 나은 결과를 제공합니다. 그러나 "cost"라는 용어에는 "price"와 같은 동의어가 포함될 수 있으므로 텍스트의 의미를 이해하는 의미 검색을 사용하는 것이 좋습니다. 하이브리드 검색은 의미 검색의 정확성과 키워드 범위라는 두 가지 접근 방식의 장점을 모두 제공합니다. 검색기가 다양한 자연어 쿼리를 처리해야 하는 RAG 기반 애플리케이션에 적합합니다. 키워드는 제품 이름, 색상, 가격 등 쿼리의 특정 항목을 다루는 데 도움이 되며, 의미론은 쿼리 내의 의미와 의도를 더 잘 이해합니다. 예를 들어 반품 정책이나 제품 세부 정보와 같은 고객 쿼리를 처리하기 위해 전자상거래 웹사이트용 챗봇을 구축하려는 경우 하이브리드 검색을 사용하는 것이 가장 적합합니다.

하이브리드 검색 사용 사례

다음은 하이브리드 검색의 몇 가지 일반적인 사용 사례입니다.

  • 오픈 도메인 질문 답변 – 여기에는 다양한 주제에 대한 질문에 답하는 것이 포함됩니다. 이를 위해서는 지속 가능성, 리더십, 재무 결과 등과 같은 다양한 주제를 포함할 수 있는 웹 사이트 데이터와 같은 다양한 콘텐츠가 포함된 대규모 문서 컬렉션을 검색해야 합니다. 의미론적 검색만으로는 이 작업을 제대로 일반화할 수 없습니다. 도메인 외부 예제를 처리하는 데 중요한 보이지 않는 엔터티의 어휘 일치 기능이 부족하기 때문입니다. 따라서 키워드 기반 검색과 의미 검색을 결합하면 범위를 좁히고 오픈 도메인 질문 답변에 더 나은 결과를 제공할 수 있습니다.
  • 상황 기반 챗봇 – 대화의 방향이 빠르게 바뀌고 예측할 수 없는 주제를 다룰 수 있습니다. 하이브리드 검색은 이러한 개방형 대화를 더 잘 처리할 수 있습니다.
  • 맞춤 검색 – 이기종 콘텐츠에 대한 웹 규모 검색은 하이브리드 접근 방식의 이점을 얻습니다. 의미론적 검색은 인기 있는 헤드 쿼리를 처리하는 반면, 키워드는 드물게 롱테일 쿼리를 처리합니다.

하이브리드 검색은 두 가지 접근 방식을 결합하여 더 넓은 적용 범위를 제공하지만 의미 검색은 도메인이 좁고 의미가 잘 정의되어 있거나 사실 기반 질문 응답 시스템과 같이 오해의 여지가 거의 없는 경우 정밀한 이점이 있습니다.

하이브리드 검색의 이점

키워드 및 의미 체계 검색 모두 관련성 점수와 함께 별도의 결과 세트를 반환한 다음 가장 관련성이 높은 결과를 반환하기 위해 결합됩니다. Amazon Bedrock의 기술 자료는 현재 4개의 벡터 스토어를 지원합니다. Amazon OpenSearch 서버리스, Amazon Aurora PostgreSQL 호환 에디션, 솔방울Redis 엔터프라이즈 클라우드. 이 글을 쓰는 시점에서 하이브리드 검색 기능은 OpenSearch Serverless에서 사용할 수 있으며 다른 벡터 스토어도 곧 지원될 예정입니다.

다음은 하이브리드 검색을 사용하면 얻을 수 있는 몇 가지 이점입니다.

  • 향상된 정확도 – FM에서 생성된 응답의 정확성은 검색된 결과의 관련성에 직접적으로 의존합니다. 데이터를 기반으로 의미 검색을 사용하여 애플리케이션의 정확성을 향상시키는 것은 어려울 수 있습니다. 하이브리드 검색 사용의 주요 이점은 검색된 결과의 품질을 향상시켜 FM이 보다 정확한 답변을 생성하는 데 도움이 된다는 것입니다.
  • 확장된 검색 기능 – 키워드 검색은 더 넓은 네트워크를 사용하여 관련성이 있지만 문서 전체에 의미 구조를 포함하지 않을 수 있는 문서를 찾습니다. 텍스트의 의미론적 의미뿐만 아니라 키워드로 검색할 수 있으므로 검색 기능이 확장됩니다.

다음 섹션에서는 Amazon Bedrock용 기술 자료와 함께 하이브리드 검색을 사용하는 방법을 보여줍니다.

SDK를 통해 하이브리드 검색 및 의미 검색 옵션을 사용하세요.

검색 API를 호출하면 Amazon Bedrock용 지식 베이스가 가장 관련성이 높은 결과를 제공하기 위해 적합한 검색 전략을 선택합니다. API에서 하이브리드 또는 의미 체계 검색을 사용하도록 이를 재정의할 수 있는 옵션이 있습니다.

API 검색

검색 API는 사용자 쿼리, 기술 자료 ID 및 API가 반환할 결과 수를 제공하여 관련 검색 결과를 가져오도록 설계되었습니다. 이 API는 사용자 쿼리를 임베딩으로 변환하고, 하이브리드 검색 또는 의미론적(벡터) 검색을 사용하여 지식 기반을 검색하고, 관련 결과를 반환하므로, 검색 결과 위에 사용자 지정 워크플로를 구축할 수 있는 더 많은 제어 기능을 제공합니다. 예를 들어 검색된 결과에 사후 처리 논리를 추가하거나 자체 프롬프트를 추가하고 답변 생성을 위해 Amazon Bedrock에서 제공하는 FM에 연결할 수 있습니다.

하이브리드 검색과 의미론적(벡터) 검색 옵션 간 전환의 예를 보여주기 위해 다음을 사용하여 지식 기반을 만들었습니다. 10년 Amazon 2023K 문서. 지식 베이스 생성에 대한 자세한 내용은 다음을 참조하세요. Amazon Bedrock용 지식 베이스를 사용하여 상황별 챗봇 애플리케이션 구축.

하이브리드 검색의 가치를 보여주기 위해 다음 쿼리를 사용합니다.

As of December 31st 2023, what is the leased square footage for physical stores in North America?

이전 쿼리에 대한 답변에는 다음과 같은 몇 가지 키워드가 포함됩니다. date, physical storesNorth America. 올바른 응답은 22,871 thousand square feet. 하이브리드 검색과 의미 검색 모두 검색 결과의 차이를 살펴보겠습니다.

다음 코드는 Boto3와 함께 Retrieve API를 사용하여 하이브리드 또는 의미 체계(벡터) 검색을 사용하는 방법을 보여줍니다.

import boto3

bedrock_agent_runtime = boto3.client(
    service_name = "bedrock-agent-runtime"
)

def retrieve(query, kbId, numberOfResults=5):
    return bedrock_agent_runtime.retrieve(
        retrievalQuery= {
            'text': query
        },
        knowledgeBaseId=kbId,
        retrievalConfiguration= {
            'vectorSearchConfiguration': {
                'numberOfResults': numberOfResults,
                'overrideSearchType': "HYBRID/SEMANTIC", # optional
            }
        }
    )
response = retrieve("As of December 31st 2023, what is the leased square footage for physical stores in North America?", "<knowledge base id>")["retrievalResults"]

XNUMXD덴탈의 overrideSearchType 에 옵션 retrievalConfiguration 다음 중 하나를 사용할 수 있는 선택권을 제공합니다. HYBRID or SEMANTIC. 기본적으로 가장 관련성이 높은 결과를 제공하기 위해 올바른 전략을 선택하며, 하이브리드 또는 의미 체계 검색을 사용하도록 기본 옵션을 재정의하려는 경우 값을 다음으로 설정할 수 있습니다. HYBRID/SEMANTIC. 의 출력 Retrieve API에는 검색된 텍스트 청크, 소스 데이터의 위치 유형 및 URI, 검색의 관련성 점수가 포함됩니다. 점수는 쿼리 응답과 가장 잘 일치하는 청크를 결정하는 데 도움이 됩니다.

다음은 하이브리드 검색을 사용한 이전 쿼리의 결과입니다(간결성을 위해 일부 출력이 수정됨).

[
  {
    "content": {
      "text": "... Description of Use Leased Square Footage (1).... Physical stores (2) 22,871  ..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.6389407
  },
  {
    "content": {
      "text": "Property and equipment, net by segment is as follows (in millions): December 31, 2021 2022 2023 North America $ 83,640 $ 90,076 $ 93,632 International 21,718 23,347 24,357 AWS 43,245 60,324 72,701 Corporate 1.."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.6389407
  },
  {
    "content": {
      "text": "..amortization of property and equipment acquired under finance leases of $9.9 billion, $6.1 billion, and $5.9 billion for 2021, 2022, and 2023. 54 Table of Contents Note 4 — LEASES We have entered into non-cancellable operating and finance leases for fulfillment network, data center, office, and physical store facilities as well as server and networking equipment, aircraft, and vehicles. Gross assets acquired under finance leases, ..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.61908984
  }
]

다음은 의미 검색 결과입니다(간결함을 위해 일부 출력이 수정됨).

[
  {
    "content": {
      "text": "Property and equipment, net by segment is as follows (in millions):    December 31,    2021 2022 2023   North America $ 83,640 $ 90,076 $ 93,632  International 21,718 23,347 24,357  AWS 43,245 60,324 72,701.."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.6389407
  },
  {
    "content": {
      "text": "Depreciation and amortization expense on property and equipment was $22.9 billion, $24.9 billion, and $30.2 billion which includes amortization of property and equipment acquired under finance leases of $9.9 billion, $6.1 billion, and $5.9 billion for 2021, 2022, and 2023.   54        Table of Contents   Note 4 — LEASES We have entered into non-cancellable operating and finance leases for fulfillment network, data center, office, and physical store facilities as well a..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.61908984
  },
  {
    "content": {
      "text": "Incentives that we receive from property and equipment   vendors are recorded as a reduction to our costs. Property includes buildings and land that we own, along with property we have acquired under build-to-suit lease arrangements when we have control over the building during the construction period and finance lease arrangements..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.61353767
  }
]

결과에서 볼 수 있듯이, 하이브리드 검색에서는 사용자 쿼리에서 언급한 북미 지역 실제 매장의 임대 면적을 검색 결과로 얻을 수 있었습니다. 가장 큰 이유는 하이브리드 검색이 다음과 같은 키워드의 결과를 결합할 수 있었기 때문입니다. date, physical storesNorth America 쿼리에서는 의미론적 검색에서는 그렇지 않았습니다. 따라서 검색 결과에 사용자 쿼리와 프롬프트가 추가되면 의미 검색의 경우 FM에서 올바른 응답을 제공할 수 없게 됩니다.

이제 보자 RetrieveAndGenerate FM에서 생성된 최종 응답을 이해하기 위한 하이브리드 검색이 포함된 API입니다.

검색앤생성 API

XNUMXD덴탈의 RetrieveAndGenerate API는 지식 베이스를 쿼리하고 검색된 결과를 기반으로 응답을 생성합니다. 결과에서 응답을 생성하려면 지식 기반 ID와 FM을 지정합니다. Amazon Bedrock은 쿼리를 임베딩으로 변환하고, 검색 유형을 기반으로 지식 기반을 쿼리한 다음, 검색 결과를 컨텍스트 정보로 사용하여 FM 프롬프트를 보강하고 FM 생성 응답을 반환합니다.

'31년 2023월 XNUMX일 현재 북미 지역 실제 매장의 임대 면적은 얼마입니까?'라는 쿼리를 사용해 보겠습니다. 그리고 물어보세요 RetrieveAndGenerate 쿼리를 사용하여 응답을 생성하는 API:

def retrieveAndGenerate(input, kbId):
    return bedrock_agent_runtime.retrieve_and_generate(
        input={
            'text': input
        },
        retrieveAndGenerateConfiguration={
            'type': 'KNOWLEDGE_BASE',
            'knowledgeBaseConfiguration': {
                'knowledgeBaseId': kbId,
                'modelArn': 'arn:aws:bedrock:us-east-1::foundation-model/anthropic.claude-instant-v1'
                'retrievalConfiguration': {
                'overrideSearchType': 'HYBRID/SEMANTIC',
                }
                }
            }
        )
response = retrieveAndGenerate("As of December 31st 2023, what is the leased square footage for physical stores in North America?", "<knowledge base id>")["output"]["text"]

하이브리드 검색을 사용한 결과는 다음과 같습니다.

22,871 thousand leased square feet

의미 검색을 사용한 결과는 다음과 같습니다.

The search results do not contain any information about the leased square footage for physical stores in North America for 2023.

해당 쿼리에 대한 실제 답변은 다음과 같습니다. 22,871 thousand leased square feet, 하이브리드 검색에 의해 생성됩니다. 검색된 하이브리드 검색 결과에는 북미 실제 매장의 임대 면적에 대한 정보가 포함된 반면, 의미 검색은 임베딩 변환으로 인해 벡터 매장에서 올바른 정보를 가져올 수 없었습니다. 따라서 FM에서는 정확하고 관련성이 가장 높은 검색결과가 없었기 때문에 정확한 응답을 제공할 수 없었습니다.

그러나 다음과 같은 엔터티를 포함하지 않는 보다 일반적인 질문의 경우 physical stores or North America, 하이브리드 검색과 의미 검색 모두 비슷한 결과를 제공합니다.

다음은 하이브리드 검색과 의미 체계 검색이 모두 유사한 결과를 산출하는 경우를 보여주는 몇 가지 쿼리의 샘플 응답입니다.

문제 의미 검색: RAG API 하이브리드 검색: RAG API
Amazon은 개발자와 기업에 어떤 서비스를 제공합니까? 우리는 컴퓨팅, 스토리지, 데이터베이스, 분석, 기계 학습을 포함한 광범위한 온디맨드 기술 서비스 세트를 제공하는 AWS를 통해 스타트업, 정부 기관, 교육 기관을 포함한 모든 규모의 개발자와 기업에 서비스를 제공합니다. 기타 서비스 우리는 컴퓨팅, 스토리지, 데이터베이스, 분석, 기계 학습을 포함한 광범위한 온디맨드 기술 서비스 세트를 제공하는 AWS를 통해 스타트업, 정부 기관, 교육 기관을 포함한 모든 규모의 개발자와 기업에 서비스를 제공합니다. 다른 서비스.
24년 2024월 XNUMX일 현재 Amazon의 임원 및 이사는 누구입니까? 2024년 기준 Amazon의 임원진에는 Andrew R. Jassy 사장 겸 CEO, Douglas J. Herrington이 Worldwide Amazon Stores CEO, Brian T. Olsavsky가 수석 부사장 겸 최고 재무 책임자, Shelley L. Reynolds가 부사장으로 구성됩니다. , 전세계 감사관 겸 수석 회계 책임자, Adam N. Selipsky가 Amazon Web Services CEO, David A. Zapolsky가 글로벌 공공 정책 및 법률 고문 수석 부사장입니다. 2024년 현재 Jeffrey P. Bezos는 Amazon.com의 회장직을 맡고 있습니다. Andrew R. Jassy는 사장 겸 CEO를 맡고 있습니다. 다른 임원으로는 전 세계 Amazon Stores CEO인 Douglas J. Herrington, 수석 부사장 겸 최고 재무 책임자인 Brian T. Olsavsky, 부사장, 전 세계 컨트롤러 및 수석 회계 책임자인 Shelley L. Reynolds, CEO인 Adam N. Selipsky가 있습니다. 아마존 웹 서비스. David A. Zapolsky는 글로벌 공공 정책 부문 수석 부사장 및 법무 자문위원을 맡고 있습니다.

Amazon Bedrock 콘솔을 통해 하이브리드 검색 및 의미 체계 검색 옵션을 사용하세요.

Amazon Bedrock 콘솔에서 하이브리드 및 의미 체계 검색 옵션을 사용하려면 다음 단계를 완료하십시오.

  1. Amazon Bedrock 콘솔에서 다음을 선택합니다. 기술 자료 탐색 창에서
  2. 생성한 기술 자료를 선택하세요.
  3. 왼쪽 메뉴에서 지식 기반 테스트.
  4. 구성 아이콘을 선택합니다.
  5. 럭셔리 검색 유형고르다 하이브리드 검색(의미론 및 텍스트).

기본적으로 FM을 선택하여 쿼리에 대해 생성된 응답을 받을 수 있습니다. 검색된 결과만 보려면 전환할 수 있습니다. 응답 생성 검색된 결과만 얻으려면 끄세요.

결론

이 게시물에서는 하이브리드 검색을 가능하게 하는 Amazon Bedrock용 기술 자료의 새로운 쿼리 기능을 다루었습니다. SDK 및 Amazon Bedrock 콘솔에서 하이브리드 검색 옵션을 구성하는 방법을 배웠습니다. 이는 특히 다양한 콘텐츠가 포함된 대규모 문서 모음을 검색할 때 의미론적 검색에만 의존하는 일부 제한 사항을 극복하는 데 도움이 됩니다. 하이브리드 검색의 사용은 문서 유형과 구현하려는 사용 사례에 따라 다릅니다.

추가 리소스는 다음을 참조하세요.

참고자료

하이브리드 검색을 통해 RAG 파이프라인의 검색 성능 향상


저자에 관하여

마니 카누 자 기술 리더이자 생성적 AI 전문가이며, Applied Machine Learning and High Performance Computing on AWS라는 책의 저자이자 여성 제조업 교육 재단 이사회의 이사입니다. 그녀는 컴퓨터 비전, 자연어 처리, 생성 AI 등 다양한 분야의 머신러닝 프로젝트를 이끌고 있습니다. 그녀는 AWS re:Invent, Women in Manufacturing West, YouTube 웹 세미나, GHC 23 등의 내부 및 외부 컨퍼런스에서 연설합니다. 여가 시간에는 해변을 따라 장거리 달리기를 즐깁니다.

팔라비 나군드 AWS의 수석 솔루션 아키텍트입니다. 클라우드 기술 조력자로서 그녀는 고객과 협력하여 고객의 목표와 과제를 이해하고 AWS 제품을 통해 목표를 달성하기 위한 규범적 지침을 제공합니다. 그녀는 기술 분야의 여성에 대한 열정을 갖고 있으며 Amazon의 Women in AI/ML의 핵심 멤버입니다. 그녀는 AWS re:Invent, AWS Summit, 웹 세미나 등 내부 및 외부 컨퍼런스에서 연설합니다. 업무 외에 그녀는 자원봉사, 정원 가꾸기, 자전거 타기, 하이킹을 즐깁니다.

spot_img

아카데믹 VC

VC 카페

최신 인텔리전스

spot_img