Các doanh nghiệp có quyền truy cập vào lượng dữ liệu khổng lồ, phần lớn rất khó khám phá vì dữ liệu không có cấu trúc. Các phương pháp phân tích thông thường dữ liệu phi cấu trúc sử dụng kết hợp từ khóa hoặc từ đồng nghĩa. Chúng không nắm bắt được toàn bộ bối cảnh của tài liệu, khiến chúng kém hiệu quả hơn trong việc xử lý dữ liệu phi cấu trúc.
Ngược lại, việc nhúng văn bản sử dụng học máy (ML) khả năng nắm bắt ý nghĩa của dữ liệu phi cấu trúc. Các phần nhúng được tạo ra bởi các mô hình ngôn ngữ biểu diễn để dịch văn bản thành các vectơ số và mã hóa thông tin theo ngữ cảnh trong tài liệu. Điều này cho phép các ứng dụng như tìm kiếm ngữ nghĩa, Truy xuất thế hệ tăng cường (RAG), mô hình hóa chủ đề và phân loại văn bản.
Ví dụ: trong ngành dịch vụ tài chính, các ứng dụng bao gồm trích xuất thông tin chuyên sâu từ báo cáo thu nhập, tìm kiếm thông tin từ báo cáo tài chính và phân tích tâm lý về cổ phiếu và thị trường tìm thấy trong tin tức tài chính. Tính năng nhúng văn bản cho phép các chuyên gia trong ngành trích xuất thông tin chi tiết từ tài liệu, giảm thiểu lỗi và tăng hiệu suất của chúng.
Trong bài đăng này, chúng tôi giới thiệu một ứng dụng có thể tìm kiếm và truy vấn các tin tức tài chính bằng các ngôn ngữ khác nhau bằng cách sử dụng Cohere's Nhúng và Xếp hạng lại mô hình với nền tảng Amazon.
Mô hình nhúng đa ngôn ngữ của Cohere
Cohere là nền tảng AI doanh nghiệp hàng đầu, xây dựng các mô hình ngôn ngữ lớn (LLM) đẳng cấp thế giới và các giải pháp hỗ trợ LLM cho phép máy tính tìm kiếm, nắm bắt ý nghĩa và trò chuyện trong văn bản. Chúng cung cấp sự dễ sử dụng và kiểm soát quyền riêng tư và bảo mật mạnh mẽ.
Mô hình nhúng đa ngôn ngữ của Cohere tạo ra các biểu diễn vector của tài liệu cho hơn 100 ngôn ngữ và có sẵn trên Amazon Bedrock. Điều này cho phép khách hàng AWS truy cập dưới dạng API, giúp loại bỏ nhu cầu quản lý cơ sở hạ tầng cơ bản và đảm bảo rằng thông tin nhạy cảm vẫn được quản lý và bảo vệ an toàn.
Mô hình đa ngôn ngữ nhóm các văn bản có ý nghĩa tương tự nhau bằng cách gán cho chúng các vị trí gần nhau trong không gian vectơ ngữ nghĩa. Với mô hình nhúng đa ngôn ngữ, nhà phát triển có thể xử lý văn bản bằng nhiều ngôn ngữ mà không cần phải chuyển đổi giữa các mô hình khác nhau, như minh họa trong hình sau. Điều này giúp việc xử lý hiệu quả hơn và cải thiện hiệu suất cho các ứng dụng đa ngôn ngữ.
Sau đây là một số điểm nổi bật của mô hình nhúng của Cohere:
- Tập trung vào chất lượng tài liệu – Các mô hình nhúng điển hình được đào tạo để đo lường độ tương tự giữa các tài liệu, nhưng mô hình của Cohere cũng đo lường chất lượng tài liệu
- Truy xuất tốt hơn cho các ứng dụng RAG – Các ứng dụng RAG yêu cầu hệ thống truy xuất tốt, điều mà mô hình nhúng của Cohere vượt trội
- Nén dữ liệu tiết kiệm chi phí – Cohere sử dụng phương pháp đào tạo đặc biệt, có tính năng nén, giúp tiết kiệm đáng kể chi phí cho cơ sở dữ liệu vectơ của bạn
Các trường hợp sử dụng để nhúng văn bản
Việc nhúng văn bản biến dữ liệu phi cấu trúc thành dạng có cấu trúc. Điều này cho phép bạn so sánh, mổ xẻ và rút ra những hiểu biết sâu sắc từ tất cả các tài liệu này một cách khách quan. Sau đây là các trường hợp sử dụng mẫu mà mô hình nhúng của Cohere cho phép:
- Tìm kiếm ngữ nghĩa – Cho phép các ứng dụng tìm kiếm mạnh mẽ khi kết hợp với cơ sở dữ liệu vectơ, có mức độ liên quan tuyệt vời dựa trên ý nghĩa của cụm từ tìm kiếm
- Công cụ tìm kiếm cho một hệ thống lớn hơn – Tìm và truy xuất thông tin phù hợp nhất từ các nguồn dữ liệu doanh nghiệp được kết nối cho hệ thống RAG
- Phân loại văn bản – Hỗ trợ nhận dạng ý định, phân tích tình cảm và phân tích tài liệu nâng cao
- Mô hình chủ đề – Biến bộ sưu tập tài liệu thành các cụm riêng biệt để khám phá các chủ đề và chủ đề mới nổi
Hệ thống tìm kiếm nâng cao với Rerank
Trong các doanh nghiệp đã có hệ thống tìm kiếm từ khóa thông thường, bạn làm cách nào để giới thiệu khả năng tìm kiếm ngữ nghĩa hiện đại? Đối với những hệ thống như vậy đã là một phần của kiến trúc thông tin của công ty trong một thời gian dài, việc chuyển đổi hoàn toàn sang cách tiếp cận dựa trên phần nhúng, trong nhiều trường hợp, là không khả thi.
Điểm cuối Rerank của Cohere được thiết kế để thu hẹp khoảng cách này. Nó hoạt động như giai đoạn thứ hai của luồng tìm kiếm để cung cấp thứ hạng các tài liệu có liên quan cho mỗi truy vấn của người dùng. Doanh nghiệp có thể giữ lại hệ thống từ khóa (hoặc thậm chí ngữ nghĩa) hiện có để truy xuất ở giai đoạn đầu và nâng cao chất lượng kết quả tìm kiếm với điểm cuối Rerank trong giai đoạn sắp xếp lại ở giai đoạn thứ hai.
Rerank cung cấp tùy chọn nhanh chóng và đơn giản để cải thiện kết quả tìm kiếm bằng cách đưa công nghệ tìm kiếm ngữ nghĩa vào ngăn xếp của người dùng chỉ bằng một dòng mã. Điểm cuối cũng đi kèm với sự hỗ trợ đa ngôn ngữ. Hình dưới đây minh họa quy trình truy xuất và sắp xếp lại.
Tổng quan về giải pháp
Các nhà phân tích tài chính cần phải tiếp thu rất nhiều nội dung, chẳng hạn như các ấn phẩm tài chính và phương tiện truyền thông tin tức, để luôn cập nhật thông tin. Theo Hiệp hội các chuyên gia tài chính (AFP), các nhà phân tích tài chính dành 75% thời gian để thu thập dữ liệu hoặc quản lý quy trình thay vì phân tích giá trị gia tăng. Tìm câu trả lời cho một câu hỏi từ nhiều nguồn và tài liệu khác nhau là công việc tốn nhiều thời gian và tẻ nhạt. Mô hình nhúng Cohere giúp các nhà phân tích nhanh chóng tìm kiếm trên nhiều tiêu đề bài viết bằng nhiều ngôn ngữ để tìm và xếp hạng các bài viết phù hợp nhất với một truy vấn cụ thể, tiết kiệm rất nhiều thời gian và công sức.
Trong ví dụ về trường hợp sử dụng sau đây, chúng tôi giới thiệu cách mô hình Nhúng của Cohere tìm kiếm và truy vấn trên các tin tức tài chính bằng các ngôn ngữ khác nhau trong một quy trình duy nhất. Sau đó, chúng tôi trình bày cách thêm Xếp hạng lại vào truy xuất nội dung nhúng của bạn (hoặc thêm nó vào tìm kiếm từ vựng cũ) có thể cải thiện hơn nữa kết quả.
Sổ ghi chép hỗ trợ có sẵn trên GitHub.
Sơ đồ sau minh họa quy trình làm việc của ứng dụng.
Cho phép truy cập mô hình thông qua Amazon Bedrock
Người dùng Amazon Bedrock cần yêu cầu quyền truy cập vào các mô hình để sẵn sàng sử dụng chúng. Để yêu cầu quyền truy cập vào các mô hình bổ sung, hãy chọn Truy cập mô hình ngăn điều hướng trên Amazon Bedrock giao diện điều khiển. Để biết thêm thông tin, xem Truy cập mô hình. Đối với hướng dẫn này, bạn cần yêu cầu quyền truy cập vào mô hình Đa ngôn ngữ nhúng Cohere.
Cài đặt gói và nhập mô-đun
Đầu tiên, chúng ta cài đặt các gói cần thiết và nhập các mô-đun mà chúng ta sẽ sử dụng trong ví dụ này:
Chứng từ nhập khẩu
Chúng tôi sử dụng tập dữ liệu (MultiFIN) chứa danh sách các tiêu đề bài viết trong thế giới thực bao gồm 15 ngôn ngữ (tiếng Anh, tiếng Thổ Nhĩ Kỳ, tiếng Đan Mạch, tiếng Tây Ban Nha, tiếng Ba Lan, tiếng Hy Lạp, tiếng Phần Lan, tiếng Do Thái, tiếng Nhật, tiếng Hungary, tiếng Na Uy, tiếng Nga, tiếng Ý, tiếng Iceland và tiếng Thụy Điển ). Đây là tập dữ liệu nguồn mở được quản lý để xử lý ngôn ngữ tự nhiên tài chính (NLP) và có sẵn trên Kho GitHub.
Trong trường hợp của chúng tôi, chúng tôi đã tạo một tệp CSV có dữ liệu của MultiFIN cũng như một cột có bản dịch. Chúng tôi không sử dụng cột này để cung cấp dữ liệu cho mô hình; chúng tôi sử dụng nó để giúp chúng tôi theo dõi khi in kết quả cho những người không nói tiếng Đan Mạch hoặc tiếng Tây Ban Nha. Chúng tôi trỏ đến CSV đó để tạo khung dữ liệu của mình:
Chọn danh sách tài liệu để truy vấn
MultiFIN có hơn 6,000 bản ghi bằng 15 ngôn ngữ khác nhau. Đối với trường hợp sử dụng ví dụ của chúng tôi, chúng tôi tập trung vào ba ngôn ngữ: tiếng Anh, tiếng Tây Ban Nha và tiếng Đan Mạch. Chúng tôi cũng sắp xếp các tiêu đề theo độ dài và chọn những tiêu đề dài nhất.
Bởi vì chúng tôi đang chọn những bài viết dài nhất nên chúng tôi đảm bảo độ dài không phải do trình tự lặp lại. Đoạn mã sau đây cho thấy một ví dụ trong trường hợp đó. Chúng tôi sẽ dọn sạch nó.
df['text'].iloc[2215]
Danh sách tài liệu của chúng tôi được phân phối độc đáo trên ba ngôn ngữ:
Sau đây là tiêu đề bài viết dài nhất trong tập dữ liệu của chúng tôi:
Nhúng và lập chỉ mục tài liệu
Bây giờ, chúng tôi muốn nhúng tài liệu của mình và lưu trữ các phần nhúng. Các phần nhúng là các vectơ rất lớn gói gọn ý nghĩa ngữ nghĩa của tài liệu của chúng tôi. Đặc biệt, chúng tôi sử dụng mô hình embed-đa ngôn ngữ-v3.0 của Cohere, tạo ra các phần nhúng với 1,024 thứ nguyên.
Khi một truy vấn được thông qua, chúng tôi cũng nhúng truy vấn đó và sử dụng thư viện hnswlib để tìm các lân cận gần nhất.
Chỉ cần một vài dòng mã để thiết lập ứng dụng khách Cohere, nhúng tài liệu và tạo chỉ mục tìm kiếm. Chúng tôi cũng theo dõi ngôn ngữ và bản dịch của tài liệu để làm phong phú thêm việc hiển thị kết quả.
Xây dựng hệ thống truy xuất
Tiếp theo, chúng ta xây dựng một hàm lấy truy vấn làm đầu vào, nhúng truy vấn đó và tìm bốn tiêu đề có liên quan chặt chẽ hơn với truy vấn đó:
Truy vấn hệ thống truy xuất
Hãy cùng khám phá những gì hệ thống của chúng tôi thực hiện với một vài truy vấn khác nhau. Chúng ta bắt đầu bằng tiếng Anh:
Kết quả như sau:
Lưu ý những điều sau:
- Chúng tôi đang đặt những câu hỏi có liên quan nhưng hơi khác nhau và mô hình đủ sắc thái để trình bày các kết quả phù hợp nhất ở trên cùng.
- Mô hình của chúng tôi không thực hiện tìm kiếm dựa trên từ khóa mà tìm kiếm ngữ nghĩa. Ngay cả khi chúng tôi đang sử dụng thuật ngữ như “khoa học dữ liệu” thay vì “AI”, mô hình của chúng tôi vẫn có thể hiểu những gì được yêu cầu và trả về kết quả phù hợp nhất ở trên cùng.
Thế còn một truy vấn bằng tiếng Đan Mạch thì sao? Hãy xem xét truy vấn sau:
Trong ví dụ trước, từ viết tắt tiếng Anh “PP&E” là viết tắt của “tài sản, nhà máy và thiết bị” và mô hình của chúng tôi có thể kết nối nó với truy vấn của chúng tôi.
Trong trường hợp này, tất cả kết quả trả về đều bằng tiếng Đan Mạch nhưng mô hình có thể trả về tài liệu bằng ngôn ngữ khác với truy vấn nếu ý nghĩa ngữ nghĩa của nó gần hơn. Chúng tôi hoàn toàn linh hoạt và với một vài dòng mã, chúng tôi có thể chỉ định xem mô hình chỉ nên xem tài liệu bằng ngôn ngữ truy vấn hay mô hình nên xem tất cả tài liệu.
Cải thiện kết quả với Cohere Rerank
Nhúng rất mạnh mẽ. Tuy nhiên, bây giờ chúng ta sẽ xem xét cách tinh chỉnh kết quả của mình hơn nữa với điểm cuối Rerank của Cohere, điểm cuối này đã được đào tạo để chấm điểm mức độ liên quan của tài liệu so với truy vấn.
Một ưu điểm khác của Rerank là nó có thể hoạt động trên một công cụ tìm kiếm từ khóa cũ. Bạn không cần phải thay đổi sang cơ sở dữ liệu vectơ hoặc thực hiện các thay đổi mạnh mẽ đối với cơ sở hạ tầng của mình và chỉ cần một vài dòng mã. Xếp hạng lại có sẵn trong Amazon SageMaker.
Hãy thử một truy vấn mới. Lần này chúng tôi sử dụng SageMaker:
Trong trường hợp này, tìm kiếm ngữ nghĩa có thể truy xuất câu trả lời của chúng tôi và hiển thị nó trong kết quả, nhưng nó không ở trên cùng. Tuy nhiên, khi chúng tôi chuyển lại truy vấn đến điểm cuối Xếp hạng lại cùng với danh sách tài liệu được truy xuất, Xếp hạng lại có thể hiển thị tài liệu phù hợp nhất ở trên cùng.
Đầu tiên, chúng ta tạo ứng dụng khách và điểm cuối Xếp hạng lại:
Khi chúng tôi chuyển tài liệu tới Xếp hạng lại, mô hình có thể chọn tài liệu phù hợp nhất một cách chính xác:
Kết luận
Bài đăng này trình bày hướng dẫn sử dụng mô hình nhúng đa ngôn ngữ của Cohere trong Amazon Bedrock trong miền dịch vụ tài chính. Cụ thể, chúng tôi đã trình diễn một ví dụ về ứng dụng tìm kiếm các bài báo tài chính đa ngôn ngữ. Chúng tôi đã thấy cách mô hình nhúng cho phép khám phá thông tin hiệu quả và chính xác, từ đó nâng cao năng suất và chất lượng đầu ra của nhà phân tích.
Mô hình nhúng đa ngôn ngữ của Cohere hỗ trợ hơn 100 ngôn ngữ. Nó loại bỏ sự phức tạp của việc xây dựng các ứng dụng yêu cầu làm việc với một kho tài liệu bằng các ngôn ngữ khác nhau. Các Mô hình nhúng Cohere được đào tạo để mang lại kết quả trong các ứng dụng trong thế giới thực. Nó xử lý dữ liệu nhiễu làm đầu vào, thích ứng với các hệ thống RAG phức tạp và mang lại hiệu quả về mặt chi phí nhờ phương pháp đào tạo nhận biết nén.
Hãy bắt đầu xây dựng bằng mô hình nhúng đa ngôn ngữ của Cohere trên Amazon Bedrock ngay hôm nay.
Về các tác giả
James Yi là Kiến trúc sư giải pháp đối tác AI/ML cấp cao trong nhóm COE Tech của Đối tác công nghệ tại Amazon Web Services. Anh ấy đam mê làm việc với các khách hàng và đối tác doanh nghiệp để thiết kế, triển khai và mở rộng quy mô các ứng dụng AI/ML nhằm mang lại giá trị kinh doanh. Ngoài công việc, anh thích chơi bóng đá, đi du lịch và dành thời gian cho gia đình.
Gonzalo Betegon là Kiến trúc sư giải pháp tại Cohere, nhà cung cấp công nghệ xử lý ngôn ngữ tự nhiên tiên tiến. Ông giúp các tổ chức giải quyết nhu cầu kinh doanh của họ thông qua việc triển khai các mô hình ngôn ngữ lớn.
Meor Amer là Người ủng hộ nhà phát triển tại Cohere, nhà cung cấp công nghệ xử lý ngôn ngữ tự nhiên (NLP) tiên tiến. Anh ấy giúp các nhà phát triển xây dựng các ứng dụng tiên tiến bằng Mô hình ngôn ngữ lớn (LLM) của Cohere.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
- PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
- PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
- nguồn: https://aws.amazon.com/blogs/machine-learning/build-financial-search-applications-using-the-amazon-bedrock-cohere-multilingual-embedding-model/