Logo Zephyrnet

Cải thiện OCR và trích xuất dữ liệu có cấu trúc bằng Amazon Textract

Ngày:

Công nghệ nhận dạng ký tự quang học (OCR), cho phép trích xuất văn bản từ hình ảnh, đã có từ giữa thế kỷ 20 và tiếp tục là chủ đề nghiên cứu cho đến ngày nay. OCR và hiểu biết tài liệu vẫn là những lĩnh vực nghiên cứu sôi động vì chúng vừa là những vấn đề có giá trị vừa khó giải quyết.

AWS đã và đang đầu tư vào việc cải thiện OCR và công nghệ hiểu tài liệu, đồng thời các nhà khoa học nghiên cứu của chúng tôi tiếp tục xuất bản các tài liệu nghiên cứu về các lĩnh vực này. Ví dụ, bài nghiên cứu Bây giờ bạn có thể đọc cho tôi được không? Chỉnh sửa nhận thức nội dung bằng cách sử dụng giám sát góc mô tả cách giải quyết vấn đề chỉnh sửa tài liệu, vấn đề cơ bản đối với quy trình OCR trên tài liệu. Ngoài ra, bài báo SCATTER: Trình nhận dạng văn bản cảnh chú ý theo ngữ cảnh chọn lọc giới thiệu một cách mới để thực hiện nhận dạng văn bản trong cảnh, đó là nhiệm vụ nhận dạng văn bản trên nền hình ảnh phức tạp. Để biết thêm các ấn phẩm gần đây trong lĩnh vực này, xem Tầm nhìn máy tính.

Các nhà khoa học của Amazon cũng kết hợp những kết quả nghiên cứu này vào các công nghệ tốt nhất như Văn bản Amazon, một dịch vụ được quản lý hoàn toàn sử dụng máy học (ML) để xác định văn bản và dữ liệu từ các bảng và biểu mẫu trong tài liệu—chẳng hạn như thông tin thuế từ W2 hoặc các giá trị từ bảng trong báo cáo kiểm kê được quét—và nhận dạng nhiều định dạng tài liệu , bao gồm những dịch vụ dành riêng cho dịch vụ tài chính, bảo hiểm và chăm sóc sức khỏe mà không yêu cầu tùy chỉnh hoặc can thiệp của con người.

Một trong những lợi thế của dịch vụ được quản lý hoàn toàn là cải tiến tự động và định kỳ các mô hình ML cơ bản để cải thiện độ chính xác. Bạn có thể cần trích xuất thông tin từ các tài liệu đã được quét hoặc chụp ảnh trong các điều kiện ánh sáng khác nhau, nhiều góc độ khác nhau và nhiều loại tài liệu. Khi các mô hình được đào tạo bằng cách sử dụng dữ liệu đầu vào bao gồm các điều kiện khác nhau này, chúng sẽ phát hiện và trích xuất dữ liệu tốt hơn.

Trong bài đăng này, chúng tôi thảo luận về một số cập nhật gần đây cho Amazon Textract nhằm cải thiện độ chính xác tổng thể của việc phát hiện và trích xuất tài liệu.

Ký hiệu tiền tệ

Amazon Textract hiện phát hiện một tập hợp các ký hiệu tiền tệ (nhân dân tệ Trung Quốc, yên Nhật, rupee Ấn Độ, bảng Anh và đô la Mỹ) và ký hiệu độ với độ chính xác cao hơn mà không cần hồi quy nhiều so với phát hiện ký hiệu hiện có.

Ví dụ: sau đây là bảng mẫu trong tài liệu từ báo cáo thường niên của công ty.

Ảnh chụp màn hình sau đây hiển thị kết quả trên bảng điều khiển Amazon Textract trước bản cập nhật mới nhất.

Amazon Textract phát hiện chính xác tất cả văn bản. Tuy nhiên, biểu tượng đồng rupee của Ấn Độ được công nhận là “R” thay vì “₹”. Ảnh chụp màn hình sau đây hiển thị kết quả sử dụng mô hình đã cập nhật.

Biểu tượng rupee được phát hiện và trích xuất chính xác. Tương tự, ký hiệu độ và các ký hiệu tiền tệ khác (nhân dân tệ, yên, bảng Anh và đô la) hiện được hỗ trợ trong Amazon Textract.

Phát hiện hàng và cột trong bảng lớn

Amazon Textract đã phát hành bản cập nhật mô hình bảng mới giúp phát hiện chính xác hơn các hàng và cột của các bảng lớn trải dài trên toàn bộ trang. Việc phát hiện bảng tổng thể và trích xuất dữ liệu cũng như văn bản trong bảng cũng đã được cải thiện.

Sau đây là ví dụ về bảng trong báo cáo tài khoản đầu tư cá nhân.

Ảnh chụp màn hình sau đây hiển thị kết quả đầu ra của Amazon Textract trước khi cập nhật mô hình mới.

Mặc dù tất cả các hàng, cột và văn bản đều được phát hiện chính xác nhưng đầu ra vẫn chứa các cột trống. Bảng ban đầu không có sự phân tách rõ ràng giữa các cột nên mô hình đã bao gồm các cột bổ sung.

Ảnh chụp màn hình sau đây hiển thị kết quả sau khi cập nhật mô hình.

Đầu ra bây giờ sạch hơn nhiều. Amazon Textract vẫn trích xuất chính xác tất cả dữ liệu từ bảng này và hiện bao gồm số cột chính xác. Cải thiện hiệu suất tương tự có thể được nhìn thấy trong các bảng trải dài trên toàn bộ trang và các cột không bị bỏ qua.

Cải thiện độ chính xác trong biểu mẫu

Amazon Textract hiện có độ chính xác cao hơn trên nhiều biểu mẫu, đặc biệt là các tài liệu xác minh thu nhập như cuống phiếu lương, bảng sao kê ngân hàng và chứng từ thuế. Ảnh chụp màn hình sau đây hiển thị ví dụ về biểu mẫu như vậy.

Biểu mẫu trước không có độ phân giải chất lượng cao. Dù thế nào đi nữa, bạn có thể phải xử lý những tài liệu đó trong tổ chức của mình. Ảnh chụp màn hình sau đây là kết quả đầu ra của Amazon Textract bằng một trong các mô hình trước đó.

Mặc dù mô hình cũ hơn đã phát hiện được nhiều hộp kiểm nhưng nó không nắm bắt được tất cả chúng. Ảnh chụp màn hình sau đây hiển thị kết quả sử dụng mô hình mới.

Với mô hình mới này, Amazon Textract đã phát hiện chính xác tất cả các hộp kiểm trong tài liệu.

Tổng kết

Những cải tiến đối với ký hiệu tiền tệ và phát hiện ký hiệu độ sẽ được ra mắt tại khu vực Châu Á Thái Bình Dương (Singapo) vào ngày 24 tháng 2020 năm XNUMX, tiếp theo là các khu vực khác nơi Amazon Textract sẽ có mặt trong vài ngày tới. Với những cải tiến mới nhất của Amazon Textract, bạn có thể truy xuất thông tin từ tài liệu với độ chính xác cao hơn. Các bảng trải rộng trên toàn bộ trang được phát hiện chính xác hơn, các ký hiệu tiền tệ (nhân dân tệ, yên, rupee, bảng Anh và đô la) và ký hiệu độ hiện được hỗ trợ, đồng thời các cặp khóa-giá trị và hộp kiểm ở dạng tài chính được phát hiện với độ chính xác cao hơn. Để bắt đầu trích xuất dữ liệu từ tài liệu và hình ảnh của bạn, hãy thử Văn bản Amazon cho chính mình.


Lưu ý

Raj Copparapu là Giám đốc sản phẩm tập trung vào việc đưa công nghệ máy học vào tay mọi nhà phát triển.

Nguồn: https://aws.amazon.com/blogs/machine-learning/improved-ocr-and-structured-data-extraction-with-amazon-texttract/

tại chỗ_img

Tin tức mới nhất

tại chỗ_img