Logo Zephyrnet

Xây dựng các ứng dụng tìm kiếm tài chính bằng mô hình nhúng đa ngôn ngữ Amazon Bedrock Cohere | Dịch vụ web của Amazon

Ngày:

Các doanh nghiệp có quyền truy cập vào lượng dữ liệu khổng lồ, phần lớn rất khó khám phá vì dữ liệu không có cấu trúc. Các phương pháp phân tích thông thường dữ liệu phi cấu trúc sử dụng kết hợp từ khóa hoặc từ đồng nghĩa. Chúng không nắm bắt được toàn bộ bối cảnh của tài liệu, khiến chúng kém hiệu quả hơn trong việc xử lý dữ liệu phi cấu trúc.

Ngược lại, việc nhúng văn bản sử dụng học máy (ML) khả năng nắm bắt ý nghĩa của dữ liệu phi cấu trúc. Các phần nhúng được tạo ra bởi các mô hình ngôn ngữ biểu diễn để dịch văn bản thành các vectơ số và mã hóa thông tin theo ngữ cảnh trong tài liệu. Điều này cho phép các ứng dụng như tìm kiếm ngữ nghĩa, Truy xuất thế hệ tăng cường (RAG), mô hình hóa chủ đề và phân loại văn bản.

Ví dụ: trong ngành dịch vụ tài chính, các ứng dụng bao gồm trích xuất thông tin chuyên sâu từ báo cáo thu nhập, tìm kiếm thông tin từ báo cáo tài chính và phân tích tâm lý về cổ phiếu và thị trường tìm thấy trong tin tức tài chính. Tính năng nhúng văn bản cho phép các chuyên gia trong ngành trích xuất thông tin chi tiết từ tài liệu, giảm thiểu lỗi và tăng hiệu suất của chúng.

Trong bài đăng này, chúng tôi giới thiệu một ứng dụng có thể tìm kiếm và truy vấn các tin tức tài chính bằng các ngôn ngữ khác nhau bằng cách sử dụng Cohere's NhúngXếp hạng lại mô hình với nền tảng Amazon.

Mô hình nhúng đa ngôn ngữ của Cohere

Cohere là nền tảng AI doanh nghiệp hàng đầu, xây dựng các mô hình ngôn ngữ lớn (LLM) đẳng cấp thế giới và các giải pháp hỗ trợ LLM cho phép máy tính tìm kiếm, nắm bắt ý nghĩa và trò chuyện trong văn bản. Chúng cung cấp sự dễ sử dụng và kiểm soát quyền riêng tư và bảo mật mạnh mẽ.

Mô hình nhúng đa ngôn ngữ của Cohere tạo ra các biểu diễn vector của tài liệu cho hơn 100 ngôn ngữ và có sẵn trên Amazon Bedrock. Điều này cho phép khách hàng AWS truy cập dưới dạng API, giúp loại bỏ nhu cầu quản lý cơ sở hạ tầng cơ bản và đảm bảo rằng thông tin nhạy cảm vẫn được quản lý và bảo vệ an toàn.

Mô hình đa ngôn ngữ nhóm các văn bản có ý nghĩa tương tự nhau bằng cách gán cho chúng các vị trí gần nhau trong không gian vectơ ngữ nghĩa. Với mô hình nhúng đa ngôn ngữ, nhà phát triển có thể xử lý văn bản bằng nhiều ngôn ngữ mà không cần phải chuyển đổi giữa các mô hình khác nhau, như minh họa trong hình sau. Điều này giúp việc xử lý hiệu quả hơn và cải thiện hiệu suất cho các ứng dụng đa ngôn ngữ.

Sau đây là một số điểm nổi bật của mô hình nhúng của Cohere:

  • Tập trung vào chất lượng tài liệu – Các mô hình nhúng điển hình được đào tạo để đo lường độ tương tự giữa các tài liệu, nhưng mô hình của Cohere cũng đo lường chất lượng tài liệu
  • Truy xuất tốt hơn cho các ứng dụng RAG – Các ứng dụng RAG yêu cầu hệ thống truy xuất tốt, điều mà mô hình nhúng của Cohere vượt trội
  • Nén dữ liệu tiết kiệm chi phí – Cohere sử dụng phương pháp đào tạo đặc biệt, có tính năng nén, giúp tiết kiệm đáng kể chi phí cho cơ sở dữ liệu vectơ của bạn

Các trường hợp sử dụng để nhúng văn bản

Việc nhúng văn bản biến dữ liệu phi cấu trúc thành dạng có cấu trúc. Điều này cho phép bạn so sánh, mổ xẻ và rút ra những hiểu biết sâu sắc từ tất cả các tài liệu này một cách khách quan. Sau đây là các trường hợp sử dụng mẫu mà mô hình nhúng của Cohere cho phép:

  • Tìm kiếm ngữ nghĩa – Cho phép các ứng dụng tìm kiếm mạnh mẽ khi kết hợp với cơ sở dữ liệu vectơ, có mức độ liên quan tuyệt vời dựa trên ý nghĩa của cụm từ tìm kiếm
  • Công cụ tìm kiếm cho một hệ thống lớn hơn – Tìm và truy xuất thông tin phù hợp nhất từ ​​các nguồn dữ liệu doanh nghiệp được kết nối cho hệ thống RAG
  • Phân loại văn bản – Hỗ trợ nhận dạng ý định, phân tích tình cảm và phân tích tài liệu nâng cao
  • Mô hình chủ đề – Biến bộ sưu tập tài liệu thành các cụm riêng biệt để khám phá các chủ đề và chủ đề mới nổi

Hệ thống tìm kiếm nâng cao với Rerank

Trong các doanh nghiệp đã có hệ thống tìm kiếm từ khóa thông thường, bạn làm cách nào để giới thiệu khả năng tìm kiếm ngữ nghĩa hiện đại? Đối với những hệ thống như vậy đã là một phần của kiến ​​trúc thông tin của công ty trong một thời gian dài, việc chuyển đổi hoàn toàn sang cách tiếp cận dựa trên phần nhúng, trong nhiều trường hợp, là không khả thi.

Điểm cuối Rerank của Cohere được thiết kế để thu hẹp khoảng cách này. Nó hoạt động như giai đoạn thứ hai của luồng tìm kiếm để cung cấp thứ hạng các tài liệu có liên quan cho mỗi truy vấn của người dùng. Doanh nghiệp có thể giữ lại hệ thống từ khóa (hoặc thậm chí ngữ nghĩa) hiện có để truy xuất ở giai đoạn đầu và nâng cao chất lượng kết quả tìm kiếm với điểm cuối Rerank trong giai đoạn sắp xếp lại ở giai đoạn thứ hai.

Rerank cung cấp tùy chọn nhanh chóng và đơn giản để cải thiện kết quả tìm kiếm bằng cách đưa công nghệ tìm kiếm ngữ nghĩa vào ngăn xếp của người dùng chỉ bằng một dòng mã. Điểm cuối cũng đi kèm với sự hỗ trợ đa ngôn ngữ. Hình dưới đây minh họa quy trình truy xuất và sắp xếp lại.

Tổng quan về giải pháp

Các nhà phân tích tài chính cần phải tiếp thu rất nhiều nội dung, chẳng hạn như các ấn phẩm tài chính và phương tiện truyền thông tin tức, để luôn cập nhật thông tin. Theo Hiệp hội các chuyên gia tài chính (AFP), các nhà phân tích tài chính dành 75% thời gian để thu thập dữ liệu hoặc quản lý quy trình thay vì phân tích giá trị gia tăng. Tìm câu trả lời cho một câu hỏi từ nhiều nguồn và tài liệu khác nhau là công việc tốn nhiều thời gian và tẻ nhạt. Mô hình nhúng Cohere giúp các nhà phân tích nhanh chóng tìm kiếm trên nhiều tiêu đề bài viết bằng nhiều ngôn ngữ để tìm và xếp hạng các bài viết phù hợp nhất với một truy vấn cụ thể, tiết kiệm rất nhiều thời gian và công sức.

Trong ví dụ về trường hợp sử dụng sau đây, chúng tôi giới thiệu cách mô hình Nhúng của Cohere tìm kiếm và truy vấn trên các tin tức tài chính bằng các ngôn ngữ khác nhau trong một quy trình duy nhất. Sau đó, chúng tôi trình bày cách thêm Xếp hạng lại vào truy xuất nội dung nhúng của bạn (hoặc thêm nó vào tìm kiếm từ vựng cũ) có thể cải thiện hơn nữa kết quả.

Sổ ghi chép hỗ trợ có sẵn trên GitHub.

Sơ đồ sau minh họa quy trình làm việc của ứng dụng.

Cho phép truy cập mô hình thông qua Amazon Bedrock

Người dùng Amazon Bedrock cần yêu cầu quyền truy cập vào các mô hình để sẵn sàng sử dụng chúng. Để yêu cầu quyền truy cập vào các mô hình bổ sung, hãy chọn Truy cập mô hình ngăn điều hướng trên Amazon Bedrock giao diện điều khiển. Để biết thêm thông tin, xem Truy cập mô hình. Đối với hướng dẫn này, bạn cần yêu cầu quyền truy cập vào mô hình Đa ngôn ngữ nhúng Cohere.

Cài đặt gói và nhập mô-đun

Đầu tiên, chúng ta cài đặt các gói cần thiết và nhập các mô-đun mà chúng ta sẽ sử dụng trong ví dụ này:

!pip install --upgrade cohere-aws hnswlib translate

import pandas as pd
import cohere_aws
import hnswlib
import os
import re
import boto3

Chứng từ nhập khẩu

Chúng tôi sử dụng tập dữ liệu (MultiFIN) chứa danh sách các tiêu đề bài viết trong thế giới thực bao gồm 15 ngôn ngữ (tiếng Anh, tiếng Thổ Nhĩ Kỳ, tiếng Đan Mạch, tiếng Tây Ban Nha, tiếng Ba Lan, tiếng Hy Lạp, tiếng Phần Lan, tiếng Do Thái, tiếng Nhật, tiếng Hungary, tiếng Na Uy, tiếng Nga, tiếng Ý, tiếng Iceland và tiếng Thụy Điển ). Đây là tập dữ liệu nguồn mở được quản lý để xử lý ngôn ngữ tự nhiên tài chính (NLP) và có sẵn trên Kho GitHub.

Trong trường hợp của chúng tôi, chúng tôi đã tạo một tệp CSV có dữ liệu của MultiFIN cũng như một cột có bản dịch. Chúng tôi không sử dụng cột này để cung cấp dữ liệu cho mô hình; chúng tôi sử dụng nó để giúp chúng tôi theo dõi khi in kết quả cho những người không nói tiếng Đan Mạch hoặc tiếng Tây Ban Nha. Chúng tôi trỏ đến CSV đó để tạo khung dữ liệu của mình:

url = "https://raw.githubusercontent.com/cohere-ai/cohere-aws/main/notebooks/bedrock/multiFIN_train.csv"
df = pd.read_csv(url)

# Inspect dataset
df.head(5)

Chọn danh sách tài liệu để truy vấn

MultiFIN có hơn 6,000 bản ghi bằng 15 ngôn ngữ khác nhau. Đối với trường hợp sử dụng ví dụ của chúng tôi, chúng tôi tập trung vào ba ngôn ngữ: tiếng Anh, tiếng Tây Ban Nha và tiếng Đan Mạch. Chúng tôi cũng sắp xếp các tiêu đề theo độ dài và chọn những tiêu đề dài nhất.

Bởi vì chúng tôi đang chọn những bài viết dài nhất nên chúng tôi đảm bảo độ dài không phải do trình tự lặp lại. Đoạn mã sau đây cho thấy một ví dụ trong trường hợp đó. Chúng tôi sẽ dọn sạch nó.

df['text'].iloc[2215]

'El 86% de las empresas españolas comprometidas con los Objetivos de Desarrollo 
Sostenible comprometidas con los Objetivos de Desarrollo Sostenible comprometidas 
con los Objetivos de Desarrollo Sostenible comprometidas con los Objetivos de 
Desarrollo Sostenible'

# Ensure there is no duplicated text in the headers
def remove_duplicates(text):
    return re.sub(r'((bw+b.{1,2}w+b)+).+1', r'1', text, flags=re.I)

df ['text'] = df['text'].apply(remove_duplicates)

# Keep only selected languages
languages = ['English', 'Spanish', 'Danish']
df = df.loc[df['lang'].isin(languages)]

# Pick the top 80 longest articles
df['text_length'] = df['text'].str.len()
df.sort_values(by=['text_length'], ascending=False, inplace=True)
top_80_df = df[:80]

# Language distribution
top_80_df['lang'].value_counts()

Danh sách tài liệu của chúng tôi được phân phối độc đáo trên ba ngôn ngữ:

lang
Spanish    33
English    29
Danish     18
Name: count, dtype: int64

Sau đây là tiêu đề bài viết dài nhất trong tập dữ liệu của chúng tôi:

top_80_df['text'].iloc[0]

"CFOdirect: Resultater fra PwC's Employee Engagement Landscape Survey, herunder hvordan 
man skaber mere engagement blandt medarbejdere. Læs desuden om de regnskabsmæssige 
konsekvenser for indkomstskat ifbm. Brexit"

Nhúng và lập chỉ mục tài liệu

Bây giờ, chúng tôi muốn nhúng tài liệu của mình và lưu trữ các phần nhúng. Các phần nhúng là các vectơ rất lớn gói gọn ý nghĩa ngữ nghĩa của tài liệu của chúng tôi. Đặc biệt, chúng tôi sử dụng mô hình embed-đa ngôn ngữ-v3.0 của Cohere, tạo ra các phần nhúng với 1,024 thứ nguyên.

Khi một truy vấn được thông qua, chúng tôi cũng nhúng truy vấn đó và sử dụng thư viện hnswlib để tìm các lân cận gần nhất.

Chỉ cần một vài dòng mã để thiết lập ứng dụng khách Cohere, nhúng tài liệu và tạo chỉ mục tìm kiếm. Chúng tôi cũng theo dõi ngôn ngữ và bản dịch của tài liệu để làm phong phú thêm việc hiển thị kết quả.

# Establish Cohere client
co = cohere_aws.Client(mode=cohere_aws.Mode.BEDROCK)
model_id = "cohere.embed-multilingual-v3"

# Embed documents
docs = top_80_df['text'].to_list()
docs_lang = top_80_df['lang'].to_list()
translated_docs = top_80_df['translated_text'].to_list() #for reference when returning non-English results
doc_embs = co.embed(texts=docs, model_id=model_id, input_type='search_document').embeddings

# Create a search index
index = hnswlib.Index(space='ip', dim=1024)
index.init_index(max_elements=len(doc_embs), ef_construction=512, M=64)
index.add_items(doc_embs, list(range(len(doc_embs))))

Xây dựng hệ thống truy xuất

Tiếp theo, chúng ta xây dựng một hàm lấy truy vấn làm đầu vào, nhúng truy vấn đó và tìm bốn tiêu đề có liên quan chặt chẽ hơn với truy vấn đó:

# Retrieval of 4 closest docs to query
def retrieval(query):
    # Embed query and retrieve results
    query_emb = co.embed(texts=[query], model_id=model_id, input_type="search_query").embeddings
    doc_ids = index.knn_query(query_emb, k=3)[0][0] # we will retrieve 4 closest neighbors
    
    # Print and append results
    print(f"QUERY: {query.upper()} n")
    retrieved_docs, translated_retrieved_docs = [], []
    
    for doc_id in doc_ids:
        # Append results
        retrieved_docs.append(docs[doc_id])
        translated_retrieved_docs.append(translated_docs[doc_id])
    
        # Print results
        print(f"ORIGINAL ({docs_lang[doc_id]}): {docs[doc_id]}")
        if docs_lang[doc_id] != "English":
            print(f"TRANSLATION: {translated_docs[doc_id]} n----")
        else:
            print("----")
    print("END OF RESULTS nn")
    return retrieved_docs, translated_retrieved_docs

Truy vấn hệ thống truy xuất

Hãy cùng khám phá những gì hệ thống của chúng tôi thực hiện với một vài truy vấn khác nhau. Chúng ta bắt đầu bằng tiếng Anh:

queries = [
    "Are businessess meeting sustainability goals?",
    "Can data science help meet sustainability goals?"
]

for query in queries:
    retrieval(query)

Kết quả như sau:

QUERY: ARE BUSINESSES MEETING SUSTAINABILITY GOALS? 

ORIGINAL (English): Quality of business reporting on the Sustainable Development Goals 
improves, but has a long way to go to meet and drive targets.
----
ORIGINAL (English): Only 10 years to achieve Sustainable Development Goals but 
businesses remain on starting blocks for integration and progress
----
ORIGINAL (Spanish): Integrar los criterios ESG y el propósito en la estrategia 
principal reto de los Consejos de las empresas españolas en el mundo post-COVID 

TRANSLATION: Integrate ESG criteria and purpose into the main challenge strategy 
of the Boards of Spanish companies in the post-COVID world 
----
END OF RESULTS 

QUERY: CAN DATA SCIENCE HELP MEET SUSTAINABILITY GOALS? 

ORIGINAL (English): Using AI to better manage the environment could reduce greenhouse 
gas emissions, boost global GDP by up to 38m jobs by 2030
----
ORIGINAL (English): Quality of business reporting on the Sustainable Development Goals 
improves, but has a long way to go to meet and drive targets.
----
ORIGINAL (English): Only 10 years to achieve Sustainable Development Goals but 
businesses remain on starting blocks for integration and progress
----
END OF RESULTS 

Lưu ý những điều sau:

  • Chúng tôi đang đặt những câu hỏi có liên quan nhưng hơi khác nhau và mô hình đủ sắc thái để trình bày các kết quả phù hợp nhất ở trên cùng.
  • Mô hình của chúng tôi không thực hiện tìm kiếm dựa trên từ khóa mà tìm kiếm ngữ nghĩa. Ngay cả khi chúng tôi đang sử dụng thuật ngữ như “khoa học dữ liệu” thay vì “AI”, mô hình của chúng tôi vẫn có thể hiểu những gì được yêu cầu và trả về kết quả phù hợp nhất ở trên cùng.

Thế còn một truy vấn bằng tiếng Đan Mạch thì sao? Hãy xem xét truy vấn sau:

query = "Hvor kan jeg finde den seneste danske boligplan?" # "Where can I find the latest Danish property plan?"
retrieved_docs, translated_retrieved_docs = retrieval(query)

QUERY: HVOR KAN JEG FINDE DEN SENESTE DANSKE BOLIGPLAN? 

ORIGINAL (Danish): Nyt fra CFOdirect: Ny PP&E-guide, FAQs om den nye leasingstandard, 
podcast om udfordringerne ved implementering af leasingstandarden og meget mere

TRANSLATION: New from CFOdirect: New PP&E guide, FAQs on the new leasing standard, 
podcast on the challenges of implementing the leasing standard and much more 
----
ORIGINAL (Danish): Lovforslag fremlagt om rentefri lån, udskudt frist for 
lønsumsafgift, førtidig udbetaling af skattekredit og loft på indestående på 
skattekontoen

TRANSLATION: Legislative proposal presented on interest-free loans, deferred payroll 
tax deadline, early payment of tax credit and ceiling on deposits in the tax account 
----
ORIGINAL (Danish): Nyt fra CFOdirect: Shareholder-spørgsmål til ledelsen, SEC 
cybersikkerhedsguide, den amerikanske skattereform og meget mere

TRANSLATION: New from CFOdirect: Shareholder questions for management, the SEC 
cybersecurity guide, US tax reform and more 
----
END OF RESULTS

Trong ví dụ trước, từ viết tắt tiếng Anh “PP&E” là viết tắt của “tài sản, nhà máy và thiết bị” và mô hình của chúng tôi có thể kết nối nó với truy vấn của chúng tôi.

Trong trường hợp này, tất cả kết quả trả về đều bằng tiếng Đan Mạch nhưng mô hình có thể trả về tài liệu bằng ngôn ngữ khác với truy vấn nếu ý nghĩa ngữ nghĩa của nó gần hơn. Chúng tôi hoàn toàn linh hoạt và với một vài dòng mã, chúng tôi có thể chỉ định xem mô hình chỉ nên xem tài liệu bằng ngôn ngữ truy vấn hay mô hình nên xem tất cả tài liệu.

Cải thiện kết quả với Cohere Rerank

Nhúng rất mạnh mẽ. Tuy nhiên, bây giờ chúng ta sẽ xem xét cách tinh chỉnh kết quả của mình hơn nữa với điểm cuối Rerank của Cohere, điểm cuối này đã được đào tạo để chấm điểm mức độ liên quan của tài liệu so với truy vấn.

Một ưu điểm khác của Rerank là nó có thể hoạt động trên một công cụ tìm kiếm từ khóa cũ. Bạn không cần phải thay đổi sang cơ sở dữ liệu vectơ hoặc thực hiện các thay đổi mạnh mẽ đối với cơ sở hạ tầng của mình và chỉ cần một vài dòng mã. Xếp hạng lại có sẵn trong Amazon SageMaker.

Hãy thử một truy vấn mới. Lần này chúng tôi sử dụng SageMaker:

query = "Are companies ready for the next down market?"
retrieved_docs, translated_retrieved_docs = retrieval(query)

QUERY: ARE COMPANIES READY FOR THE NEXT DOWN MARKET? 

ORIGINAL (Spanish): El valor en bolsa de las 100 mayores empresas cotizadas cae un 15% 
entre enero y marzo pero aguanta el embate del COVID-19 

TRANSLATION: The stock market value of the 100 largest listed companies falls 15% 
between January and March but withstands the onslaught of COVID-19 
----
ORIGINAL (English): 69% of business leaders have experienced a corporate crisis in the 
last five years yet 29% of companies have no staff dedicated to crisis preparedness
----
ORIGINAL (English): As work sites slowly start to reopen, CFOs are concerned about the 
global economy and a potential new COVID-19 wave - PwC survey
----
END OF RESULTS

Trong trường hợp này, tìm kiếm ngữ nghĩa có thể truy xuất câu trả lời của chúng tôi và hiển thị nó trong kết quả, nhưng nó không ở trên cùng. Tuy nhiên, khi chúng tôi chuyển lại truy vấn đến điểm cuối Xếp hạng lại cùng với danh sách tài liệu được truy xuất, Xếp hạng lại có thể hiển thị tài liệu phù hợp nhất ở trên cùng.

Đầu tiên, chúng ta tạo ứng dụng khách và điểm cuối Xếp hạng lại:

# map model package arn
import boto3
cohere_package = "cohere-rerank-multilingual-v2--8b26a507962f3adb98ea9ac44cb70be1" # replace this with your info

model_package_map = {
    "us-east-1": f"arn:aws:sagemaker:us-east-1:865070037744:model-package/{cohere_package}",
    "us-east-2": f"arn:aws:sagemaker:us-east-2:057799348421:model-package/{cohere_package}",
    "us-west-1": f"arn:aws:sagemaker:us-west-1:382657785993:model-package/{cohere_package}",
    "us-west-2": f"arn:aws:sagemaker:us-west-2:594846645681:model-package/{cohere_package}",
    "ca-central-1": f"arn:aws:sagemaker:ca-central-1:470592106596:model-package/{cohere_package}",
    "eu-central-1": f"arn:aws:sagemaker:eu-central-1:446921602837:model-package/{cohere_package}",
    "eu-west-1": f"arn:aws:sagemaker:eu-west-1:985815980388:model-package/{cohere_package}",
    "eu-west-2": f"arn:aws:sagemaker:eu-west-2:856760150666:model-package/{cohere_package}",
    "eu-west-3": f"arn:aws:sagemaker:eu-west-3:843114510376:model-package/{cohere_package}",
    "eu-north-1": f"arn:aws:sagemaker:eu-north-1:136758871317:model-package/{cohere_package}",
    "ap-southeast-1": f"arn:aws:sagemaker:ap-southeast-1:192199979996:model-package/{cohere_package}",
    "ap-southeast-2": f"arn:aws:sagemaker:ap-southeast-2:666831318237:model-package/{cohere_package}",
    "ap-northeast-2": f"arn:aws:sagemaker:ap-northeast-2:745090734665:model-package/{cohere_package}",
    "ap-northeast-1": f"arn:aws:sagemaker:ap-northeast-1:977537786026:model-package/{cohere_package}",
    "ap-south-1": f"arn:aws:sagemaker:ap-south-1:077584701553:model-package/{cohere_package}",
    "sa-east-1": f"arn:aws:sagemaker:sa-east-1:270155090741:model-package/{cohere_package}",
}

region = boto3.Session().region_name
if region not in model_package_map.keys():
    raise Exception(f"Current boto3 session region {region} is not supported.")

model_package_arn = model_package_map[region]

co = cohere_aws.Client(region_name=region)
co.create_endpoint(arn=model_package_arn, endpoint_name="cohere-rerank-multilingual", instance_type="ml.g4dn.xlarge", n_instances=1)

Khi chúng tôi chuyển tài liệu tới Xếp hạng lại, mô hình có thể chọn tài liệu phù hợp nhất một cách chính xác:

results = co.rerank(query=query, documents=retrieved_docs, top_n=1)

for hit in results:
    print(hit.document['text'])

69% of business leaders have experienced a corporate crisis in the last five years yet 
29% of companies have no staff dedicated to crisis preparedness

Kết luận

Bài đăng này trình bày hướng dẫn sử dụng mô hình nhúng đa ngôn ngữ của Cohere trong Amazon Bedrock trong miền dịch vụ tài chính. Cụ thể, chúng tôi đã trình diễn một ví dụ về ứng dụng tìm kiếm các bài báo tài chính đa ngôn ngữ. Chúng tôi đã thấy cách mô hình nhúng cho phép khám phá thông tin hiệu quả và chính xác, từ đó nâng cao năng suất và chất lượng đầu ra của nhà phân tích.

Mô hình nhúng đa ngôn ngữ của Cohere hỗ trợ hơn 100 ngôn ngữ. Nó loại bỏ sự phức tạp của việc xây dựng các ứng dụng yêu cầu làm việc với một kho tài liệu bằng các ngôn ngữ khác nhau. Các Mô hình nhúng Cohere được đào tạo để mang lại kết quả trong các ứng dụng trong thế giới thực. Nó xử lý dữ liệu nhiễu làm đầu vào, thích ứng với các hệ thống RAG phức tạp và mang lại hiệu quả về mặt chi phí nhờ phương pháp đào tạo nhận biết nén.

Hãy bắt đầu xây dựng bằng mô hình nhúng đa ngôn ngữ của Cohere trên Amazon Bedrock ngay hôm nay.


Về các tác giả

James Yi là Kiến trúc sư giải pháp đối tác AI/ML cấp cao trong nhóm COE Tech của Đối tác công nghệ tại Amazon Web Services. Anh ấy đam mê làm việc với các khách hàng và đối tác doanh nghiệp để thiết kế, triển khai và mở rộng quy mô các ứng dụng AI/ML nhằm mang lại giá trị kinh doanh. Ngoài công việc, anh thích chơi bóng đá, đi du lịch và dành thời gian cho gia đình.

Gonzalo Betegon là Kiến trúc sư giải pháp tại Cohere, nhà cung cấp công nghệ xử lý ngôn ngữ tự nhiên tiên tiến. Ông giúp các tổ chức giải quyết nhu cầu kinh doanh của họ thông qua việc triển khai các mô hình ngôn ngữ lớn.

Meor Amer là Người ủng hộ nhà phát triển tại Cohere, nhà cung cấp công nghệ xử lý ngôn ngữ tự nhiên (NLP) tiên tiến. Anh ấy giúp các nhà phát triển xây dựng các ứng dụng tiên tiến bằng Mô hình ngôn ngữ lớn (LLM) của Cohere.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img