Logo Zephyrnet

Phân loại tài liệu hiệu quả về mặt chi phí bằng Mô hình nhúng đa phương thức Amazon Titan | Dịch vụ web của Amazon

Ngày:

Các tổ chức trong các ngành muốn phân loại và trích xuất thông tin chi tiết từ khối lượng lớn tài liệu ở các định dạng khác nhau. Việc xử lý thủ công các tài liệu này để phân loại và trích xuất thông tin vẫn còn tốn kém, dễ xảy ra lỗi và khó mở rộng quy mô. Tiến bộ trong trí tuệ nhân tạo sáng tạo (AI) đã tạo ra các giải pháp xử lý tài liệu thông minh (IDP) có thể tự động hóa việc phân loại tài liệu và tạo ra lớp phân loại hiệu quả về mặt chi phí có khả năng xử lý các tài liệu doanh nghiệp đa dạng, không có cấu trúc.

Phân loại tài liệu là bước quan trọng đầu tiên trong hệ thống IDP. Nó giúp bạn xác định các hành động tiếp theo cần thực hiện tùy thuộc vào loại tài liệu. Ví dụ: trong quá trình xét xử khiếu nại, nhóm tài khoản phải trả sẽ nhận được hóa đơn, trong khi bộ phận khiếu nại quản lý các tài liệu hợp đồng hoặc chính sách. Các công cụ quy tắc truyền thống hoặc phân loại dựa trên ML có thể phân loại tài liệu nhưng thường đạt đến giới hạn về loại định dạng tài liệu và hỗ trợ việc bổ sung động một lớp tài liệu mới. Để biết thêm thông tin, xem Trình phân loại tài liệu Amazon Comprehend bổ sung hỗ trợ bố cục để có độ chính xác cao hơn.

Trong bài đăng này, chúng tôi thảo luận về việc phân loại tài liệu bằng cách sử dụng Mô hình nhúng đa phương thức của Amazon Titan để phân loại bất kỳ loại tài liệu nào mà không cần đào tạo.

Phần mềm nhúng đa phương thức của Amazon Titan

Amazon mới giới thiệu Vật liệu nhúng đa phương thức Titan in nền tảng Amazon. Mô hình này có thể tạo các phần nhúng cho hình ảnh và văn bản, cho phép tạo các phần nhúng tài liệu để sử dụng trong quy trình phân loại tài liệu mới.

Nó tạo ra các biểu diễn vector được tối ưu hóa của các tài liệu được quét dưới dạng hình ảnh. Bằng cách mã hóa cả thành phần hình ảnh và văn bản thành các vectơ số thống nhất gói gọn ý nghĩa ngữ nghĩa, nó cho phép lập chỉ mục nhanh chóng, tìm kiếm theo ngữ cảnh mạnh mẽ và phân loại tài liệu chính xác.

Khi các mẫu và loại tài liệu mới xuất hiện trong quy trình làm việc của doanh nghiệp, bạn chỉ cần gọi API nền tảng của Amazon để vector hóa chúng một cách linh hoạt và gắn vào hệ thống IDP của chúng để nhanh chóng nâng cao khả năng phân loại tài liệu.

Tổng quan về giải pháp

Hãy cùng xem xét giải pháp phân loại tài liệu sau đây bằng mô hình Nhúng đa phương thức Amazon Titan. Để có hiệu suất tối ưu, bạn nên tùy chỉnh giải pháp cho trường hợp sử dụng cụ thể của mình và thiết lập quy trình IDP hiện có.

Giải pháp này phân loại tài liệu bằng cách sử dụng tìm kiếm ngữ nghĩa nhúng vectơ bằng cách khớp tài liệu đầu vào với thư viện tài liệu đã được lập chỉ mục. Chúng tôi sử dụng các thành phần chính sau:

  • NhúngNhúng là các biểu diễn bằng số của các đối tượng trong thế giới thực mà hệ thống máy học (ML) và AI sử dụng để hiểu các miền kiến ​​thức phức tạp như con người.
  • cơ sở dữ liệu vectơcơ sở dữ liệu vectơ được sử dụng để lưu trữ các phần nhúng. Cơ sở dữ liệu vectơ lập chỉ mục và sắp xếp các phần nhúng một cách hiệu quả, cho phép truy xuất nhanh các vectơ tương tự dựa trên các số liệu khoảng cách như khoảng cách Euclide hoặc độ tương tự cosine.
  • Tìm kiếm ngữ nghĩa – Tìm kiếm ngữ nghĩa hoạt động bằng cách xem xét ngữ cảnh và ý nghĩa của truy vấn đầu vào cũng như mức độ liên quan của nó với nội dung đang được tìm kiếm. Việc nhúng vectơ là một cách hiệu quả để nắm bắt và giữ lại ý nghĩa theo ngữ cảnh của văn bản và hình ảnh. Trong giải pháp của chúng tôi, khi một ứng dụng muốn thực hiện tìm kiếm ngữ nghĩa, trước tiên tài liệu tìm kiếm sẽ được chuyển đổi thành dạng nhúng. Cơ sở dữ liệu vectơ có nội dung liên quan sau đó sẽ được truy vấn để tìm các phần nhúng tương tự nhất.

Trong quy trình ghi nhãn, một tập hợp tài liệu kinh doanh mẫu như hóa đơn, bảng sao kê ngân hàng hoặc đơn thuốc sẽ được chuyển đổi thành tệp nhúng bằng mô hình Amazon Titan Multimodal Embeddings và được lưu trữ trong cơ sở dữ liệu vectơ dựa trên các nhãn được xác định trước. Mô hình Nhúng đa phương thức Amazon Titan được đào tạo bằng thuật toán Euclidean L2 và do đó, để có kết quả tốt nhất, cơ sở dữ liệu vectơ được sử dụng phải hỗ trợ thuật toán này.

Sơ đồ kiến ​​trúc sau đây minh họa cách bạn có thể sử dụng mô hình Nhúng đa phương thức Amazon Titan với các tài liệu trong một môi trường Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) để tạo thư viện hình ảnh.

Quy trình làm việc bao gồm các bước sau:

  1. Người dùng hoặc ứng dụng tải hình ảnh tài liệu mẫu có siêu dữ liệu phân loại lên thư viện hình ảnh tài liệu. Tiền tố S3 hoặc siêu dữ liệu đối tượng S3 có thể được sử dụng để phân loại hình ảnh trong thư viện.
  2. Một sự kiện thông báo đối tượng Amazon S3 gọi tính năng nhúng AWS Lambda chức năng.
  3. Hàm Lambda đọc hình ảnh tài liệu và chuyển hình ảnh thành các phần nhúng bằng cách gọi Amazon Bedrock và sử dụng mô hình Amazon Titan Multimodal Embeddings.
  4. Việc nhúng hình ảnh, cùng với việc phân loại tài liệu, được lưu trữ trong cơ sở dữ liệu vectơ.

Đây là sơ đồ kiến ​​trúc minh họa cách sử dụng Titan Multimodal Embeddings với các tài liệu trong bộ chứa Amazon Simple Storage Service (Amazon S3) để tạo và phân loại thư viện hình ảnh.

Khi một tài liệu mới cần phân loại, mô hình nhúng tương tự sẽ được sử dụng để chuyển đổi tài liệu truy vấn thành tài liệu nhúng. Sau đó, tìm kiếm tương tự về mặt ngữ nghĩa được thực hiện trên cơ sở dữ liệu vectơ bằng cách nhúng truy vấn. Nhãn được truy xuất dựa trên kết quả nhúng trên cùng sẽ là nhãn phân loại cho tài liệu truy vấn.

Sơ đồ kiến ​​trúc sau đây minh họa cách sử dụng mô hình Nhúng đa phương thức Amazon Titan với các tài liệu trong bộ chứa S3 để phân loại hình ảnh.

Quy trình làm việc bao gồm các bước sau:

  1. Các tài liệu yêu cầu phân loại sẽ được tải lên vùng lưu trữ S3 đầu vào.
  2. Hàm Lambda phân loại nhận thông báo đối tượng Amazon S3.
  3. Hàm Lambda chuyển hình ảnh sang dạng nhúng bằng cách gọi API Amazon Bedrock.
  4. Cơ sở dữ liệu vectơ được tìm kiếm một tài liệu phù hợp bằng cách sử dụng tìm kiếm ngữ nghĩa. Việc phân loại tài liệu phù hợp được sử dụng để phân loại tài liệu đầu vào.
  5. Tài liệu đầu vào được di chuyển đến thư mục hoặc tiền tố S3 đích bằng cách sử dụng phân loại được truy xuất từ ​​tìm kiếm cơ sở dữ liệu vectơ.

Đây là sơ đồ kiến ​​trúc minh họa cách sử dụng Titan Multimodal Embeddings với các tài liệu trong bộ chứa Amazon Simple Storage Service (Amazon S3) để phân loại hình ảnh.

Để giúp bạn kiểm tra giải pháp bằng tài liệu của riêng mình, chúng tôi đã tạo một sổ ghi chép Python Jupyter mẫu, có sẵn trên GitHub.

Điều kiện tiên quyết

Để chạy sổ ghi chép, bạn cần có một Tài khoản AWS với sự phù hợp Quản lý truy cập và nhận dạng AWS (IAM) quyền gọi Amazon Bedrock. Ngoài ra, trên Truy cập mô hình của bảng điều khiển Amazon Bedrock, hãy đảm bảo rằng quyền truy cập được cấp cho mô hình Bộ nhúng đa phương thức Amazon Titan.

Thực hiện

Trong các bước sau, hãy thay thế từng phần giữ chỗ đầu vào của người dùng bằng thông tin của riêng bạn:

  1. Tạo cơ sở dữ liệu vectơ. Trong giải pháp này, chúng tôi sử dụng cơ sở dữ liệu FAISS trong bộ nhớ, nhưng bạn có thể sử dụng cơ sở dữ liệu vectơ thay thế. Kích thước kích thước mặc định của Amazon Titan là 1024.
index = faiss.IndexFlatL2(1024)
indexIDMap = faiss.IndexIDMap(index)

  1. Sau khi cơ sở dữ liệu vectơ được tạo, hãy liệt kê các tài liệu mẫu, tạo các phần nhúng của từng tài liệu và lưu trữ chúng vào cơ sở dữ liệu vectơ
  1. Kiểm tra với tài liệu của bạn. Thay thế các thư mục trong đoạn mã sau bằng các thư mục của riêng bạn chứa các loại tài liệu đã biết:
DOC_CLASSES: list[str] = ["Closing Disclosure", "Invoices", "Social Security Card", "W4", "Bank Statement"]

getDocumentsandIndex("sampleGallery/ClosingDisclosure", DOC_CLASSES.index("Closing Disclosure"))
getDocumentsandIndex("sampleGallery/Invoices", DOC_CLASSES.index("Invoices"))
getDocumentsandIndex("sampleGallery/SSCards", DOC_CLASSES.index("Social Security Card"))
getDocumentsandIndex("sampleGallery/W4", DOC_CLASSES.index("W4"))
getDocumentsandIndex("sampleGallery/BankStatements", DOC_CLASSES.index("Bank Statement"))

  1. Sử dụng thư viện Boto3, gọi Amazon Bedrock. Biến inputImageB64 là mảng byte được mã hóa base64 đại diện cho tài liệu của bạn. Phản hồi từ Amazon Bedrock có chứa nội dung nhúng.
bedrock = boto3.client(
service_name='bedrock-runtime',
region_name='Region’
)

request_body = {}
request_body["inputText"] = None # not using any text
request_body["inputImage"] = inputImageB64
body = json.dumps(request_body)
response = bedrock.invoke_model(
body=body, 
modelId="amazon.titan-embed-image-v1", 
accept="application/json", 
contentType="application/json")
response_body = json.loads(response.get("body").read()) 

  1. Thêm các phần nhúng vào cơ sở dữ liệu vectơ, với ID lớp đại diện cho loại tài liệu đã biết:
indexIDMap.add_with_ids(embeddings, classID)

  1. Với cơ sở dữ liệu vectơ có nhiều hình ảnh (đại diện cho thư viện của chúng tôi), bạn có thể khám phá những điểm tương đồng với các tài liệu mới. Ví dụ: sau đây là cú pháp được sử dụng để tìm kiếm. K=1 yêu cầu FAISS trả lại trận đấu top 1.
indexIDMap.search(embeddings, k=1)

Ngoài ra, khoảng cách Euclidean L2 giữa ảnh trên tay và ảnh tìm được cũng được trả về. Nếu hình ảnh khớp chính xác thì giá trị này sẽ là 0. Giá trị này càng lớn thì các hình ảnh càng có độ giống nhau càng xa nhau.

Xem xét bổ sung

Trong phần này, chúng tôi thảo luận về những cân nhắc bổ sung để sử dụng giải pháp một cách hiệu quả. Điều này bao gồm quyền riêng tư, bảo mật dữ liệu, tích hợp với các hệ thống hiện có và ước tính chi phí.

Quyền riêng tư và bảo mật dữ liệu

AWS mô hình trách nhiệm chung áp dụng cho bảo vệ dữ liệu ở Amazon Bedrock. Như được mô tả trong mô hình này, AWS chịu trách nhiệm bảo vệ cơ sở hạ tầng toàn cầu chạy trên toàn bộ Đám mây AWS. Khách hàng có trách nhiệm duy trì quyền kiểm soát nội dung của họ được lưu trữ trên cơ sở hạ tầng này. Với tư cách là khách hàng, bạn chịu trách nhiệm về các nhiệm vụ quản lý và cấu hình bảo mật cho các dịch vụ AWS mà bạn sử dụng.

Bảo vệ dữ liệu trong Amazon Bedrock

Amazon Bedrock tránh sử dụng lời nhắc và nội dung tiếp theo của khách hàng để đào tạo các mô hình AWS hoặc chia sẻ chúng với bên thứ ba. Amazon Bedrock không lưu trữ hoặc ghi dữ liệu khách hàng vào nhật ký dịch vụ của mình. Nhà cung cấp mô hình không có quyền truy cập vào nhật ký của Amazon Bedrock hoặc quyền truy cập vào lời nhắc và phần tiếp theo của khách hàng. Do đó, các hình ảnh được sử dụng để tạo nội dung nhúng thông qua mô hình Nhúng đa phương thức Amazon Titan không được lưu trữ hoặc sử dụng trong quá trình đào tạo mô hình AWS hoặc phân phối bên ngoài. Ngoài ra, dữ liệu sử dụng khác, chẳng hạn như dấu thời gian và ID tài khoản đã ghi, sẽ bị loại khỏi quá trình đào tạo mô hình.

Tích hợp với các hệ thống hiện có

Mô hình Nhúng đa phương thức Amazon Titan đã trải qua quá trình đào tạo với thuật toán Euclidean L2, do đó cơ sở dữ liệu vectơ đang được sử dụng phải tương thích với thuật toán này.

Ước tính chi phí

Tại thời điểm viết bài này, theo Giá Amazon Bedrock đối với mô hình Nhúng đa phương thức Amazon Titan, sau đây là chi phí ước tính khi sử dụng phương pháp định giá theo yêu cầu cho giải pháp này:

  • Chi phí lập chỉ mục một lần – 0.06 USD cho một lần lập chỉ mục, giả sử thư viện có 1,000 hình ảnh
  • Chi phí phân loại – $6 cho 100,000 hình ảnh đầu vào mỗi tháng

Làm sạch

Để tránh phát sinh phí trong tương lai, hãy xóa các tài nguyên bạn đã tạo, chẳng hạn như Phiên bản máy tính xách tay Amazon SageMaker, khi không được sử dụng.

Kết luận

Trong bài đăng này, chúng tôi đã khám phá cách bạn có thể sử dụng mô hình Nhúng đa phương thức Amazon Titan để xây dựng một giải pháp phân loại tài liệu ít tốn kém trong quy trình làm việc IDP. Chúng tôi đã trình bày cách tạo thư viện hình ảnh của các tài liệu đã biết và thực hiện tìm kiếm tương tự với các tài liệu mới để phân loại chúng. Chúng tôi cũng thảo luận về lợi ích của việc sử dụng tính năng nhúng hình ảnh đa phương thức để phân loại tài liệu, bao gồm khả năng xử lý các loại tài liệu đa dạng, khả năng mở rộng và độ trễ thấp.

Khi các mẫu và loại tài liệu mới xuất hiện trong quy trình làm việc của doanh nghiệp, nhà phát triển có thể gọi API Amazon Bedrock để vector hóa chúng một cách linh hoạt và thêm vào hệ thống IDP của họ để nhanh chóng nâng cao khả năng phân loại tài liệu. Điều này tạo ra một lớp phân loại rẻ tiền, có khả năng mở rộng vô hạn, có thể xử lý ngay cả những tài liệu doanh nghiệp không có cấu trúc, đa dạng nhất.

Nhìn chung, bài đăng này cung cấp lộ trình xây dựng một giải pháp không tốn kém để phân loại tài liệu trong quy trình làm việc IDP bằng cách sử dụng Bộ nhúng đa phương thức Amazon Titan.

Ở các bước tiếp theo, hãy kiểm tra Amazon Bedrock là gì để bắt đầu sử dụng dịch vụ. Và làm theo Amazon Bedrock trên Blog học máy của AWS để cập nhật các khả năng và trường hợp sử dụng mới cho Amazon Bedrock.


Về các tác giả

Sumit Bhati là Giám đốc giải pháp khách hàng cấp cao tại AWS, chuyên đẩy nhanh hành trình đám mây cho khách hàng doanh nghiệp. Sumit tận tâm hỗ trợ khách hàng trong mọi giai đoạn áp dụng đám mây, từ tăng tốc di chuyển đến hiện đại hóa khối lượng công việc và tạo điều kiện tích hợp các phương pháp đổi mới.

David Girling là Kiến trúc sư giải pháp AI/ML cấp cao với hơn 20 năm kinh nghiệm trong việc thiết kế, lãnh đạo và phát triển hệ thống doanh nghiệp. David là thành viên của nhóm chuyên gia tập trung vào việc giúp khách hàng tìm hiểu, đổi mới và sử dụng các dịch vụ có khả năng cao này cùng với dữ liệu cho các trường hợp sử dụng của họ.

Ravi Avula là Kiến trúc sư giải pháp cấp cao tại AWS, tập trung vào Kiến trúc doanh nghiệp. Ravi có 20 năm kinh nghiệm trong lĩnh vực công nghệ phần mềm và đã giữ một số vai trò lãnh đạo về công nghệ phần mềm và kiến ​​trúc phần mềm trong ngành thanh toán.

George Belsian là Kiến trúc sư ứng dụng đám mây cấp cao tại AWS. Anh ấy đam mê giúp đỡ khách hàng đẩy nhanh hành trình hiện đại hóa và áp dụng đám mây. Trong vai trò hiện tại của mình, George làm việc cùng với các nhóm khách hàng để lập chiến lược, kiến ​​trúc và phát triển các giải pháp đổi mới, có thể mở rộng.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img