Logo Zephyrnet

Tự động hóa số hóa các tài liệu giao dịch với sự giám sát của con người bằng cách sử dụng Amazon Textract và Amazon A2I

Ngày:

Trong bài đăng này, chúng tôi trình bày một giải pháp để số hóa các tài liệu giao dịch bằng cách sử dụng Văn bản Amazon và kết hợp đánh giá của con người bằng cách sử dụng AI tăng cường của Amazon (A2I). Bạn có thể tìm thấy nguồn giải pháp tại GitHub kho.

Các tổ chức phải thường xuyên xử lý các tài liệu giao dịch được quét với văn bản có cấu trúc để họ có thể thực hiện các hoạt động như phát hiện gian lận hoặc phê duyệt tài chính. Một số ví dụ phổ biến về tài liệu giao dịch chứa dữ liệu dạng bảng bao gồm bảng sao kê ngân hàng, hóa đơn và hóa đơn nguyên vật liệu. Việc trích xuất thủ công dữ liệu từ các tài liệu như vậy rất tốn kém, tốn thời gian và thường đòi hỏi đầu tư đáng kể vào việc đào tạo một lực lượng lao động chuyên biệt. Với kiến ​​trúc được nêu trong bài đăng này, bạn có thể số hóa dữ liệu dạng bảng từ ngay cả các tài liệu được quét chất lượng thấp và đạt được mức độ chính xác cao.

Các thuật toán dựa trên máy học (ML) đã đạt được những bước tiến đáng kể để tăng độ chính xác và độ tin cậy khi xử lý các tài liệu văn bản được quét. Các thuật toán này thường phù hợp với hiệu suất ở cấp độ con người trong việc nhận dạng văn bản và trích xuất nội dung. Amazon Textract là một dịch vụ được quản lý hoàn toàn, tự động trích xuất văn bản in, chữ viết tay và các dữ liệu khác từ các tài liệu được quét. Ngoài ra, Amazon Textract có thể tự động xác định và trích xuất các biểu mẫu và bảng từ các tài liệu được quét.

Các công ty xử lý các tài liệu phức tạp, đa dạng và nhạy cảm thường cần sự giám sát của con người để đảm bảo tính chính xác, nhất quán và tuân thủ của dữ liệu được trích xuất. Khi người đánh giá cung cấp thông tin đầu vào, bạn có thể tinh chỉnh các mô hình AI để nắm bắt các sắc thái tinh tế của một quy trình kinh doanh cụ thể. Amazon A2I là một dịch vụ ML giúp dễ dàng xây dựng quy trình làm việc cần thiết để con người xem xét. Amazon A2I loại bỏ các công việc nặng nhọc không phân biệt liên quan đến việc xây dựng hệ thống đánh giá của con người hoặc quản lý một số lượng lớn người đánh giá là con người, đồng thời cung cấp trải nghiệm thống nhất và an toàn cho lực lượng lao động của bạn.

Việc trích xuất dữ liệu giao dịch từ các tài liệu được quét, chẳng hạn như danh sách các giao dịch thẻ ghi nợ trên bảng sao kê ngân hàng, đặt ra một loạt thách thức riêng. Kết hợp trí tuệ nhân tạo với đánh giá của con người cung cấp một cách tiếp cận thực tế để vượt qua những rào cản này. Một giải pháp tích hợp kết hợp Amazon Textract và Amazon A2I là một trong những ví dụ hấp dẫn như vậy.

Người tiêu dùng thường xuyên sử dụng điện thoại thông minh của họ để quét và tải lên các tài liệu giao dịch. Tùy thuộc vào chất lượng quét tổng thể, bao gồm điều kiện ánh sáng, góc nhìn bị lệch và độ phân giải hình ảnh kém hơn, không có gì lạ khi các tài liệu này được xử lý bằng kỹ thuật thị giác máy tính (CV). Đồng thời, việc xử lý tài liệu đã quét bằng cách sử dụng lao động thủ công có thể làm tăng chi phí xử lý và thời gian xử lý, đồng thời có thể hạn chế khả năng mở rộng khối lượng tài liệu mà một đường ống có thể xử lý.

Tổng quan về giải pháp

Sơ đồ sau minh họa quy trình làm việc của giải pháp của chúng tôi:

Quy trình làm việc end-to-end của chúng tôi thực hiện các bước sau:

  1. Trích xuất các bảng từ các tài liệu nguồn được quét.
  2. Áp dụng các quy tắc nghiệp vụ tùy chỉnh khi trích xuất dữ liệu từ các bảng.
  3. Nâng cấp có chọn lọc các tài liệu đầy thách thức để con người xem xét.
  4. Thực hiện xử lý hậu kỳ trên dữ liệu được trích xuất.
  5. Lưu trữ kết quả.

Giao diện người dùng tùy chỉnh được xây dựng bằng ReactJS được cung cấp cho người đánh giá để xem xét và sửa chữa các vấn đề trong tài liệu một cách trực quan và hiệu quả khi Amazon Textract cung cấp điểm trích xuất có độ tin cậy thấp, chẳng hạn như khi văn bản bị che khuất, mờ hoặc không rõ ràng.

Giải pháp tham khảo của chúng tôi sử dụng một đường ống có khả năng phục hồi cao, như được trình bày chi tiết trong sơ đồ sau, để điều phối các giai đoạn xử lý tài liệu khác nhau.

Giải pháp kết hợp một số phương pháp hay nhất về kiến ​​trúc:

  • Xử lý hàng loạt - Khi có thể, giải pháp nên thu thập nhiều tài liệu và thực hiện các hoạt động hàng loạt để chúng tôi có thể tối ưu hóa thông lượng và sử dụng tài nguyên hiệu quả hơn. Ví dụ: gọi một mô hình AI tùy chỉnh để chạy suy luận một lần cho một nhóm tài liệu, trái ngược với việc gọi mô hình cho từng tài liệu riêng lẻ. Thiết kế của giải pháp của chúng tôi nên cho phép phân phối khi thích hợp.
  • Điều chỉnh mức độ ưu tiên - Khi khối lượng tài liệu trong hàng đợi tăng lên và giải pháp không còn có thể xử lý chúng kịp thời, chúng tôi cần một cách để chỉ ra rằng một số tài liệu nhất định được ưu tiên cao hơn và do đó phải được xử lý trước các tài liệu khác trong hàng đợi .
  • Tự động chia tỷ lệ - Giải pháp phải có khả năng mở rộng quy mô và giảm xuống một cách linh hoạt. Nhiều quy trình xử lý tài liệu cần hỗ trợ tính chất chu kỳ của nhu cầu. Chúng ta nên thiết kế giải pháp sao cho nó có thể mở rộng quy mô một cách liền mạch để xử lý các đợt tăng đột biến khi tải trọng và giảm quy mô khi tải giảm xuống.
  • Tự điều chỉnh - Giải pháp phải có khả năng xử lý một cách linh hoạt các trường hợp ngừng cung cấp dịch vụ bên ngoài và các giới hạn về tốc độ.

Các giai đoạn xử lý tài liệu

Trong phần này, chúng tôi sẽ hướng dẫn bạn chi tiết từng giai đoạn trong quy trình xử lý tài liệu:

  • Mua lại
  • Chuyển đổi
  • Khai thác
  • Định hình lại
  • Hoạt động kinh doanh tùy chỉnh
  • Mở rộng
  • Biên mục

Mua lại

Giai đoạn đầu tiên của quy trình thu thập các tài liệu đầu vào từ Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3). Trong giai đoạn này, chúng tôi lưu trữ thông tin tài liệu ban đầu trong một Máy phát điện Amazon bảng sau khi nhận được thông báo sự kiện S3 qua Dịch vụ xếp hàng đơn giản trên Amazon (Amazon SQS). Chúng tôi sử dụng bản ghi bảng này để theo dõi tiến trình của tài liệu này trên toàn bộ quy trình.

Thứ tự ưu tiên cho mỗi tài liệu được xác định bằng cách sắp xếp tiền tố khóa đầu vào chữ và số trong đường dẫn tài liệu. Ví dụ, một tài liệu được lưu trữ bằng khóa acquire/p0/doc.pdf dẫn đến ưu tiên p0 và được ưu tiên hơn một tài liệu khác được lưu trữ bằng khóa acquire/p1/doc.pdf (dẫn đến ưu tiên p1). Các tài liệu không có chỉ báo ưu tiên trong khóa được xử lý ở phần cuối.

Chuyển đổi

Tài liệu thu được từ giai đoạn trước được chuyển đổi thành định dạng PDF, vì vậy chúng tôi có thể cung cấp định dạng dữ liệu nhất quán
cho phần còn lại của đường ống. Điều này cho phép chúng tôi sắp xếp hàng loạt nhiều trang của một tài liệu liên quan.

Khai thác

Tài liệu PDF được gửi đến Amazon Textract để thực hiện nhận dạng ký tự quang học (OCR). Kết quả từ Amazon Textract được lưu trữ dưới dạng JSON trong một thư mục trong Amazon S3.

Định hình lại

Amazon Textract cung cấp thông tin chi tiết từ tài liệu đã xử lý, bao gồm văn bản thô, các cặp khóa-giá trị và bảng. Một lượng lớn siêu dữ liệu bổ sung xác định vị trí và mối quan hệ giữa các khối thực thể được phát hiện. Dữ liệu giao dịch được chọn để xử lý thêm ở giai đoạn này.

Hoạt động kinh doanh tùy chỉnh

Các quy tắc nghiệp vụ tùy chỉnh được áp dụng cho đầu ra được định hình lại chứa thông tin về các bảng trong tài liệu. Các quy tắc tùy chỉnh có thể bao gồm phát hiện định dạng bảng (chẳng hạn như phát hiện bảng chứa các giao dịch đang kiểm tra) hoặc xác thực cột (chẳng hạn như xác minh rằng cột mã sản phẩm chỉ chứa mã hợp lệ).

Mở rộng

Các nhà chú giải con người sử dụng Amazon A2I để xem xét tài liệu và bổ sung cho nó bất kỳ thông tin nào bị bỏ sót. Việc xem xét bao gồm phân tích từng bảng trong tài liệu để tìm các lỗi như loại bảng, tiêu đề trường và văn bản ô riêng lẻ đã được dự đoán không chính xác. Điểm tin cậy được cung cấp bởi giai đoạn trích xuất được hiển thị trong giao diện người dùng để giúp người đánh giá dễ dàng xác định các dự đoán kém chính xác hơn. Ảnh chụp màn hình sau đây cho thấy giao diện người dùng tùy chỉnh được sử dụng cho mục đích này.

Giải pháp của chúng tôi sử dụng đội ngũ nhân viên đánh giá tư nhân bao gồm các chú thích nội bộ. Đây là một lựa chọn lý tưởng khi xử lý các tài liệu nhạy cảm hoặc tài liệu đòi hỏi kiến ​​thức miền chuyên môn cao. Amazon A2I cũng hỗ trợ lực lượng đánh giá của con người thông qua Amazon Mechanical Turk và các đối tác ghi nhãn dữ liệu được ủy quyền của Amazon.

Biên mục

Các tài liệu vượt qua sự đánh giá của con người được lập danh mục vào sổ làm việc Excel để các nhóm kinh doanh của bạn có thể dễ dàng sử dụng chúng. Sổ làm việc chứa mỗi bảng được phát hiện và xử lý trong tài liệu nguồn trong trang tính tương ứng của chúng, được gắn nhãn với loại bảng và số trang. Các tệp Excel này được lưu trữ trong một thư mục trong Amazon S3 để các ứng dụng kinh doanh sử dụng, chẳng hạn như thực hiện phát hiện gian lận bằng kỹ thuật ML.

Triển khai giải pháp

Giải pháp tham chiếu này có sẵn trên GitHub và bạn có thể triển khai nó với Bộ công cụ phát triển đám mây AWS (AWS CDK). AWS CDK sử dụng sự quen thuộc và sức mạnh biểu đạt của các ngôn ngữ lập trình để lập mô hình các ứng dụng của bạn. Nó cung cấp các thành phần cấp cao được gọi là cấu trúc định cấu hình trước các tài nguyên đám mây với các giá trị mặc định đã được chứng minh, vì vậy bạn có thể xây dựng các ứng dụng đám mây một cách dễ dàng.

Để biết hướng dẫn về cách triển khai ứng dụng đám mây, hãy tham khảo tệp README trong GitHub còn lại.

Trình diễn giải pháp

Video sau đây sẽ hướng dẫn bạn cách giải quyết.

Kết luận

Bài đăng này đã chỉ ra cách bạn có thể xây dựng giải pháp số hóa tùy chỉnh để xử lý tài liệu giao dịch với Amazon Textract và Amazon A2I. Chúng tôi đã tự động hóa và tăng cường kê khai đầu vào, đồng thời thực thi các quy tắc kinh doanh tùy chỉnh. Chúng tôi cũng cung cấp giao diện người dùng trực quan cho nhân lực xem xét dữ liệu có điểm tin cậy thấp, thực hiện các điều chỉnh cần thiết và sử dụng phản hồi để cải thiện các mô hình ML cơ bản. Khả năng sử dụng khung giao diện người dùng tùy chỉnh như ReactJS cho phép chúng tôi tạo các ứng dụng web hiện đại phục vụ nhu cầu chính xác của chúng tôi, đặc biệt là khi sử dụng lực lượng công việc gắn nhãn dữ liệu của bên thứ ba, riêng tư hoặc công khai.

Để biết thêm thông tin về Amazon Textract và Amazon A2I, hãy xem Sử dụng AI tăng cường của Amazon để thêm đánh giá của con người vào đầu ra Textract của Amazon. Đối với bản trình bày video, sổ ghi chép Jupyter mẫu hoặc thông tin về các trường hợp sử dụng như xử lý tài liệu, kiểm duyệt nội dung, phân tích tình cảm, dịch văn bản, v.v., hãy xem Tài nguyên AI tăng cường của Amazon.

Giới thiệu về Đội

Phòng thí nghiệm Giải pháp ML của Amazon kết hợp tổ chức của bạn với các chuyên gia ML để giúp bạn xác định và xây dựng các giải pháp ML nhằm giải quyết các cơ hội ML lợi tức đầu tư cao nhất cho tổ chức của bạn. Thông qua các hội thảo khám phá và các buổi tư tưởng, Phòng thí nghiệm Giải pháp ML “hoạt động lùi” khỏi các vấn đề kinh doanh của bạn để đưa ra lộ trình các trường hợp sử dụng ML ưu tiên cùng với kế hoạch triển khai để giải quyết chúng. Các nhà khoa học ML của chúng tôi thiết kế và phát triển các mô hình ML tiên tiến trong các lĩnh vực như thị giác máy tính, xử lý giọng nói và xử lý ngôn ngữ tự nhiên để giải quyết các vấn đề của khách hàng, bao gồm cả các giải pháp yêu cầu sự đánh giá của con người.


Về các tác giả

Pri nonis là Kiến trúc sư Học tập sâu tại Amazon ML Solutions Lab, nơi anh ấy làm việc với khách hàng trên nhiều ngành dọc khác nhau và giúp họ đẩy nhanh hành trình di chuyển qua đám mây cũng như giải quyết các vấn đề ML của họ bằng cách sử dụng các giải pháp và công nghệ hiện đại.

Đan cao quý là Kỹ sư phát triển phần mềm tại Amazon, nơi anh ấy giúp xây dựng trải nghiệm người dùng thú vị. Khi rảnh rỗi, anh ấy thích đọc sách, tập thể dục và có những chuyến phiêu lưu cùng gia đình.

Jae Sung Jang là Kỹ sư phát triển phần mềm. Niềm đam mê của anh ấy nằm ở việc tự động hóa quy trình thủ công bằng các giải pháp AI và công nghệ Điều phối để đảm bảo hoạt động kinh doanh.

Jeremy Feltracco là Kỹ sư phát triển phần mềm của Phòng thí nghiệm giải pháp Amazon ML tại Amazon Web Services. Anh ấy sử dụng kiến ​​thức nền tảng của mình về thị giác máy tính, robot và máy học để giúp khách hàng AWS đẩy nhanh việc áp dụng AI của họ.

David Dasari là một người quản lý tại Phòng thí nghiệm giải pháp Amazon ML, nơi anh ấy giúp khách hàng AWS đẩy nhanh việc áp dụng AI và đám mây của họ trong các giải pháp Human-In-The-Loop trên nhiều ngành dọc khác nhau. Với ERP và các dịch vụ thanh toán làm nền tảng của anh ấy, anh ấy bị ám ảnh bởi ML / AI đang có những bước tiến trong việc làm hài lòng những khách hàng đã thúc đẩy anh ấy đến với lĩnh vực này.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img

Trò chuyện trực tiếp với chúng tôi (chat)

Chào bạn! Làm thế nào để tôi giúp bạn?