Logo Zephyrnet

Xây dựng giải pháp xác minh tiêm chủng bằng tính năng Truy vấn trong Amazon Textract | Dịch vụ web của Amazon

Ngày:

Văn bản Amazon là dịch vụ máy học (ML) cho phép tự động trích xuất văn bản, chữ viết tay và dữ liệu từ các tài liệu được quét, vượt qua nhận dạng ký tự quang học truyền thống (OCR). Nó có thể xác định, hiểu và trích xuất dữ liệu từ các bảng và biểu mẫu với độ chính xác vượt trội. Hiện tại, một số công ty dựa vào các phương pháp trích xuất thủ công hoặc phần mềm OCR cơ bản, việc này tẻ nhạt và tốn thời gian và yêu cầu cấu hình thủ công cần cập nhật khi biểu mẫu thay đổi. Amazon Textract giúp giải quyết những thách thức này bằng cách sử dụng ML để tự động xử lý các loại tài liệu khác nhau và trích xuất thông tin một cách chính xác với sự can thiệp thủ công tối thiểu. Điều này cho phép bạn tự động xử lý tài liệu và sử dụng dữ liệu được trích xuất cho các mục đích khác nhau, chẳng hạn như tự động xử lý khoản vay hoặc thu thập thông tin từ hóa đơn và biên lai.

Khi chuyến du lịch tiếp tục trở lại sau đại dịch, trong nhiều trường hợp, việc xác minh tình trạng tiêm chủng của khách du lịch có thể được yêu cầu. Các khách sạn và đại lý du lịch thường cần xem lại thẻ tiêm chủng để thu thập các thông tin quan trọng như liệu khách du lịch có được tiêm chủng đầy đủ hay không, ngày tiêm chủng và tên của khách du lịch. Một số cơ quan thực hiện việc này thông qua việc xác minh thẻ thủ công, việc này có thể tốn thời gian của nhân viên và có thể xảy ra lỗi của con người. Những người khác đã xây dựng các giải pháp tùy chỉnh, nhưng những giải pháp này có thể tốn kém, khó mở rộng quy mô và mất nhiều thời gian để triển khai. Trong tương lai, có thể có cơ hội hợp lý hóa quy trình xác minh tình trạng tiêm chủng theo cách hiệu quả cho các doanh nghiệp đồng thời tôn trọng quyền riêng tư và sự thuận tiện của khách du lịch.

Truy vấn văn bản của Amazon giúp giải quyết những thách thức này. Amazon Textract Queries cho phép bạn chỉ định và trích xuất phần thông tin bạn cần từ tài liệu. Nó cung cấp cho bạn thông tin chính xác và chính xác từ tài liệu.

Trong bài đăng này, chúng tôi sẽ hướng dẫn bạn triển khai từng bước để xây dựng giải pháp xác minh trạng thái tiêm chủng bằng cách sử dụng Amazon Textract Queries. Giải pháp này giới thiệu cách xử lý thẻ tiêm chủng bằng truy vấn Amazon Textract, xác minh trạng thái tiêm chủng và lưu trữ thông tin để sử dụng trong tương lai.

Tổng quan về giải pháp

Sơ đồ sau minh họa kiến ​​trúc giải pháp.

Quy trình làm việc bao gồm các bước sau:

  1. Người dùng chụp ảnh thẻ tiêm chủng.
  2. Hình ảnh được tải lên một Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) xô.
  3. Khi hình ảnh được lưu vào vùng lưu trữ S3, nó sẽ gọi một Chức năng bước AWS quy trình làm việc:
  4. Người quyết định truy vấn AWS Lambda Hàm kiểm tra tài liệu được chuyển vào và thêm thông tin về loại mime, số lượng trang và số lượng truy vấn vào quy trình làm việc của Step Functions (ví dụ: chúng tôi có bốn truy vấn).
  5. NumberQueriesAndPagesChoice là trạng thái Lựa chọn bổ sung logic có điều kiện vào quy trình làm việc. Nếu có từ 15–31 truy vấn và số lượng trang nằm trong khoảng từ 2–3,001 thì xử lý không đồng bộ của Amazon Textract là tùy chọn duy nhất vì API đồng bộ chỉ hỗ trợ tối đa 15 truy vấn và tài liệu một trang. Đối với tất cả các trường hợp khác, chúng tôi định tuyến đến việc lựa chọn ngẫu nhiên quá trình xử lý đồng bộ hoặc không đồng bộ.
  6. Sản phẩm TextractSync Hàm Lambda gửi yêu cầu tới Amazon Textract để phân tích tài liệu dựa trên các truy vấn Amazon Textract sau:
    1. Tình trạng tiêm chủng là gì?
    2. Tên là gì?
    3. Ngày sinh là gì?
    4. Số tài liệu là gì?
  7. Amazon Textract phân tích hình ảnh và gửi câu trả lời của các truy vấn này trở lại hàm Lambda.
  8. Hàm Lambda xác minh trạng thái tiêm chủng của khách hàng và lưu trữ kết quả cuối cùng ở định dạng CSV trong cùng một nhóm S3 (demoqueries-textractxxx) Trong csv-output thư mục.

Điều kiện tiên quyết

Để hoàn thành giải pháp này, bạn phải có tài khoản AWS và các quyền phù hợp để tạo các tài nguyên cần thiết như một phần của giải pháp.

Tải mã triển khai và thẻ tiêm chủng mẫu từ đây GitHub.

Sử dụng tính năng Truy vấn trên bảng điều khiển Amazon Textract

Trước khi xây dựng giải pháp xác minh tiêm chủng, hãy khám phá cách bạn có thể sử dụng Truy vấn Amazon Textract để trích xuất trạng thái tiêm chủng thông qua bảng điều khiển Amazon Textract. Bạn có thể sử dụng mẫu thẻ tiêm chủng mà bạn đã tải xuống từ kho lưu trữ GitHub.

  1. Trên bảng điều khiển Amazon Textract, chọn Phân tích tài liệu trong khung điều hướng.
  2. Theo Tải lên tài liệu, chọn Chọn tài liệu để tải thẻ tiêm chủng lên từ ổ đĩa địa phương của bạn.
  3. Sau khi tải tài liệu lên, hãy chọn Truy vấn trong Định cấu hình tài liệu phần.
  4. Sau đó, bạn có thể thêm truy vấn dưới dạng câu hỏi bằng ngôn ngữ tự nhiên. Hãy thêm vào như sau:
    • Tình trạng tiêm chủng là gì?
    • Tên là gì?
    • Ngày sinh là gì?
    • Số tài liệu là gì?
  5. Sau khi bạn thêm tất cả các truy vấn của mình, hãy chọn Áp dụng cấu hình.
  6. Kiểm tra truy vấn tab để xem câu trả lời cho các câu hỏi.

Bạn có thể thấy Amazon Textract trích xuất câu trả lời cho truy vấn của bạn từ tài liệu.

Triển khai giải pháp xác minh tiêm chủng

Trong bài đăng này, chúng tôi sử dụng một Đám mây AWS9 instance và cài đặt các phần phụ thuộc cần thiết vào instance với Bộ công cụ phát triển đám mây AWS (AWS CDK) và Docker. AWS Cloud9 là môi trường phát triển tích hợp (IDE) dựa trên đám mây cho phép bạn viết, chạy và gỡ lỗi mã chỉ bằng một trình duyệt.

  1. Trong thiết bị đầu cuối, chọn Tải lên tệp cục bộ trên Tập tin đơn.
  2. Chọn Chọn thư mục và chọn vaccination_verification_solution thư mục bạn đã tải xuống từ GitHub.
  3. Trong thiết bị đầu cuối, hãy chuẩn bị ứng dụng serverless của bạn cho các bước tiếp theo trong quy trình phát triển của bạn trong Mô hình ứng dụng không có máy chủ AWS (AWS SAM) bằng lệnh sau:
    $ cd vaccination_verification_solution/
    $ pip install -r requirements.txt
    

  4. Triển khai ứng dụng bằng cách sử dụng cdk deploy chỉ huy:
    cdk deploy DemoQueries --outputs-file demo_queries.json --require-approval never

    Đợi AWS CDK triển khai mô hình và tạo các tài nguyên được đề cập trong mẫu.

  5. Khi triển khai hoàn tất, bạn có thể kiểm tra các tài nguyên đã triển khai trên Hình thành đám mây AWS bảng điều khiển trên Thông tin tab của trang chi tiết ngăn xếp.

Kiểm tra giải pháp

Bây giờ là lúc để thử nghiệm giải pháp. Để kích hoạt quy trình làm việc, hãy sử dụng aws s3 cp tải lên vac_card.jpg tập tin để DemoQueries.DocumentUploadLocation bên trong thư mục tài liệu:

aws s3 cp docs/vac_card.JPG $(aws cloudformation list-exports --query 'Exports[?Name==`DemoQueries-DocumentUploadLocation`].Value' --output text)


Tệp chứng nhận tiêm chủng tự động được tải lên vùng lưu trữ S3 demoqueries-textractxxx trong thư mục tải lên.

Quy trình làm việc của Step Functions được kích hoạt thông qua hàm Lambda ngay khi tệp chứng nhận tiêm chủng được tải lên bộ chứa S3.

Hàm Lambda truy vấn-quyết định kiểm tra tài liệu và thêm thông tin về loại mime, số trang và số lượng truy vấn vào quy trình làm việc của Step Functions (đối với ví dụ này, chúng tôi sử dụng bốn truy vấn—số tài liệu, tên khách hàng, ngày sinh và tình trạng tiêm chủng).

Sản phẩm TextractSync hàm gửi truy vấn đầu vào tới Amazon Textract và trả về kết quả đầy đủ một cách đồng bộ như một phần của phản hồi. Nó hỗ trợ các tài liệu 1 trang (TIFF, PDF, JPG, PNG) và tối đa 15 truy vấn. Các GenerateCsvTask hàm lấy đầu ra JSON từ Amazon Textract và chuyển đổi nó thành tệp CSV.

Đầu ra cuối cùng được lưu trữ trong cùng một nhóm S3 trong thư mục đầu ra csv dưới dạng tệp CSV.

Bạn có thể tải tệp xuống máy cục bộ của mình bằng lệnh sau:

aws s3 cp <paste the S3 URL from TextractOutputCSVPath>

Định dạng của kết quả là timestamp, classification, filename, page number, key name, key_confidence, value, value_confidence, key_bb_top, key_bb_height, key_bb.width, key_bb_left, value_bb_top, value_bb_height, value_bb_width, value_bb_left.

Bạn có thể mở rộng giải pháp cho hàng trăm tài liệu giấy chứng nhận tiêm chủng cho nhiều khách hàng bằng cách tải giấy chứng nhận tiêm chủng của họ lên DemoQueries.DocumentUploadLocation. Điều này sẽ tự động kích hoạt nhiều lần chạy máy trạng thái Step Functions và kết quả cuối cùng được lưu trữ trong cùng một nhóm S3 trong thư mục đầu ra csv.

Để thay đổi nhóm truy vấn ban đầu được đưa vào Amazon Textract, bạn có thể truy cập phiên bản AWS Cloud9 và mở tệp start_execution.py. Trong chế độ xem tệp ở khung bên trái, hãy điều hướng đến lambda, start_queries, app, start_execution.py. Hàm Lambda này được gọi khi một tệp được tải lên DemoQueries.DocumentUploadLocation. Các truy vấn được gửi đến quy trình làm việc được xác định trong start_execution.py; bạn có thể thay đổi chúng bằng cách cập nhật mã như trong ảnh chụp màn hình sau.

Làm sạch

Để tránh phát sinh phí liên tục, hãy xóa các tài nguyên được tạo trong bài đăng này bằng lệnh sau:

cdk destroy DemoQueries

Trả lời câu hỏi Are you sure you want to delete: DemoQueries (y/n)? với y.

Kết luận

Trong bài đăng này, chúng tôi đã hướng dẫn bạn cách sử dụng Amazon Textract Queries để xây dựng giải pháp xác minh tiêm chủng cho ngành du lịch. Bạn có thể sử dụng Amazon Textract Queries để xây dựng giải pháp trong các ngành khác như tài chính và chăm sóc sức khỏe, đồng thời truy xuất thông tin từ các tài liệu như cuống phiếu lương, biên lai thế chấp và thẻ bảo hiểm dựa trên các câu hỏi bằng ngôn ngữ tự nhiên.

Để biết thêm thông tin, xem Phân tích tài liệuhoặc xem bảng điều khiển Amazon Textract và dùng thử tính năng này.


Về các tác giả

Dhiraj Thakur là Kiến trúc sư Giải pháp với Dịch vụ Web của Amazon. Anh làm việc với các khách hàng và đối tác của AWS để cung cấp hướng dẫn về chiến lược, di chuyển và áp dụng đám mây dành cho doanh nghiệp. Anh ấy đam mê công nghệ và thích xây dựng và thử nghiệm trong không gian phân tích và AI / ML.

Rishabh Yadav là kiến ​​trúc sư Giải pháp đối tác tại AWS với kiến ​​thức nền tảng sâu rộng về các dịch vụ DevOps và Bảo mật tại AWS. Anh làm việc với các đối tác ASEAN để cung cấp hướng dẫn về đánh giá kiến ​​trúc và áp dụng đám mây doanh nghiệp, đồng thời xây dựng các biện pháp thực hành AWS thông qua việc triển khai Khung kiến ​​trúc tối ưu. Ngoài công việc, anh ấy thích dành thời gian cho lĩnh vực thể thao và chơi game FPS.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img