ゼファーネットのロゴ

Amazon Textract のクエリ機能を使用してワクチン接種検証ソリューションを構築する |アマゾン ウェブ サービス

日付:

アマゾンテキストラック は、従来の光学式文字認識 (OCR) を超え、スキャンされたドキュメントからテキスト、手書き文字、およびデータを自動的に抽出できる機械学習 (ML) サービスです。驚くべき精度でテーブルやフォームからデータを識別、理解、抽出できます。現在、いくつかの企業は手動の抽出方法または基本的な OCR ソフトウェアに依存していますが、これは退屈で時間がかかり、フォームの変更時に更新が必要な手動の構成が必要です。 Amazon Textract は、ML を利用してさまざまなドキュメントタイプを自動的に処理し、最小限の手動介入で情報を正確に抽出することで、これらの課題の解決に役立ちます。これにより、ドキュメント処理を自動化し、ローン処理の自動化や請求書や領収書からの情報収集など、さまざまな目的で抽出したデータを使用できます。

パンデミック後に旅行が再開されると、多くの場合、旅行者のワクチン接種状況の確認が必要になる可能性があります。ホテルや旅行代理店は多くの場合、ワクチン接種カードを確認して、旅行者が完全にワクチン接種を受けているかどうか、ワクチン接種日、旅行者の名前などの重要な詳細を収集する必要があります。一部の代理店では、カードの手動検証によってこれを行っていますが、スタッフにとっては時間がかかる可能性があり、人的ミスの余地が残ります。カスタム ソリューションを構築している企業もいますが、コストが高く、拡張が難しく、実装にはかなりの時間がかかる場合があります。今後は、旅行者のプライバシーと利便性を尊重しながら、企業にとって効率的な方法でワクチン接種状況の確認プロセスを合理化する機会が生まれる可能性があります。

Amazon Textract クエリ これらの課題に対処するのに役立ちます。 Amazon Textract クエリを使用すると、ドキュメントから必要な情報のみを指定して抽出できます。文書から正確かつ正確な情報が得られます。

この投稿では、Amazon Textract クエリを使用してワクチン接種ステータス検証ソリューションを構築するための段階的な実装ガイドを説明します。このソリューションでは、Amazon Textract クエリを使用してワクチン接種カードを処理し、ワクチン接種のステータスを確認し、将来の使用に備えて情報を保存する方法を紹介します。

ソリューションの概要

次の図は、ソリューションのアーキテクチャを示しています。

ワークフローには次の手順が含まれます。

  1. ユーザーはワクチン接種カードの写真を撮ります。
  2. 画像は次の場所にアップロードされます Amazon シンプル ストレージ サービス (Amazon S3)バケット。
  3. 画像が S3 バケットに保存されると、 AWSステップ関数 ワークフロー:
  4. クエリの決定者 AWSラムダ この関数は、渡されたドキュメントを検査し、MIME タイプ、ページ数、クエリ数に関する情報を Step Functions ワークフローに追加します (この例では、クエリが 4 つあります)。
  5. NumberQueriesAndPagesChoice 条件付きロジックをワークフローに追加する選択状態です。 15 ~ 31 のクエリがあり、ページ数が 2 ~ 3,001 の場合、同期 API は最大 15 のクエリと XNUMX ページのドキュメントしかサポートしないため、Amazon Textract 非同期処理が唯一のオプションになります。他のすべてのケースでは、同期処理または非同期処理のランダムな選択にルーティングされます。
  6.   TextractSync Lambda 関数は、次の Amazon Textract クエリに基づいてドキュメントを分析するリクエストを Amazon Textract に送信します。
    1. ワクチン接種状況とは何ですか?
    2. 名前は何ですか?
    3. 生年月日とは何ですか?
    4. 文書番号とは何ですか?
  7. Amazon Textract は画像を分析し、これらのクエリの回答を Lambda 関数に送り返します。
  8. Lambda 関数は顧客のワクチン接種ステータスを検証し、最終結果を CSV 形式で同じ S3 バケットに保存します (demoqueries-textractxxx) の中に csv-output フォルダにコピーします。

前提条件

このソリューションを完了するには、AWS アカウントと、ソリューションの一部として必要なリソースを作成するための適切なアクセス許可が必要です。

導入コードとサンプルワクチン接種カードを以下からダウンロードします。 GitHubの.

Amazon Textract コンソールのクエリ機能を使用する

ワクチン接種検証ソリューションを構築する前に、Amazon Textract クエリを使用して、Amazon Textract コンソール経由でワクチン接種ステータスを抽出する方法を見てみましょう。 GitHub リポジトリからダウンロードしたワクチン接種カードのサンプルを使用できます。

  1. Amazon Textract コンソールで、選択します ドキュメントの分析 ナビゲーションペインに表示されます。
  2. ドキュメントをアップロード、選択する ドキュメントを選択 ローカルドライブからワクチン接種カードをアップロードします。
  3. ドキュメントをアップロードした後、選択します クエリ セクションに ドキュメントの構成 のセクションから無料でダウンロードできます。
  4. その後、自然言語の質問の形式でクエリを追加できます。以下を追加してみましょう。
    • ワクチン接種状況とは何ですか?
    • 名前は何ですか?
    • 生年月日とは何ですか?
    • 文書番号とは何ですか?
  5. すべてのクエリを追加したら、選択します 構成を適用する.
  6. クエリを確認する タブをクリックすると、質問に対する回答が表示されます。

Amazon Textract がドキュメントからクエリに対する回答を抽出していることがわかります。

ワクチン接種検証ソリューションを導入する

この投稿では、 AWS クラウド9 インスタンスを作成し、必要な依存関係をインスタンスにインストールします。 AWSクラウド開発キット (AWS CDK) と Docker。 AWS Cloud9 は、ブラウザだけでコードを作成、実行、デバッグできるクラウドベースの統合開発環境 (IDE) です。

  1. ターミナルで、を選択します ローカルファイルをアップロードする File メニュー。
  2. 選択する フォルダーを選択する を選択して vaccination_verification_solution GitHub からダウンロードしたフォルダー。
  3. ターミナルで、開発ワークフローの後続のステップに備えてサーバーレス アプリケーションを準備します。 AWSサーバーレスアプリケーションモデル (AWS SAM) 次のコマンドを使用します。
    $ cd vaccination_verification_solution/
    $ pip install -r requirements.txt
    

  4. を使用してアプリケーションをデプロイします。 cdk deploy コマンド:
    cdk deploy DemoQueries --outputs-file demo_queries.json --require-approval never

    AWS CDK がモデルをデプロイし、テンプレートに記載されているリソースを作成するまで待ちます。

  5. デプロイが完了すると、デプロイされたリソースを確認できます。 AWS CloudFormation 上のコンソール リソース スタック詳細ページのタブ。

ソリューションをテストする

今度はソリューションをテストします。ワークフローをトリガーするには、次を使用します aws s3 cp アップロードする vac_card.jpg ファイルへ DemoQueries.DocumentUploadLocation docs フォルダー内:

aws s3 cp docs/vac_card.JPG $(aws cloudformation list-exports --query 'Exports[?Name==`DemoQueries-DocumentUploadLocation`].Value' --output text)


ワクチン接種証明書ファイルは自動的に S3 バケットにアップロードされます demoqueries-textractxxx アップロードフォルダー内にあります。

Step Functions ワークフローは、ワクチン接種証明書ファイルが S3 バケットにアップロードされるとすぐに、Lambda 関数経由でトリガーされます。

Queries-Decider Lambda 関数はドキュメントを検査し、MIME タイプ、ページ数、クエリ数に関する情報を Step Functions ワークフローに追加します (この例では、ドキュメント番号、顧客名、日付の 4 つのクエリを使用します)。出生、ワクチン接種の状況など)。

  TextractSync 関数は入力クエリを Amazon Textract に送信し、応答の一部として完全な結果を同期的に返します。 1 ページのドキュメント (TIFF、PDF、JPG、PNG) と最大 15 個のクエリをサポートします。の GenerateCsvTask 関数は、Amazon Textract から JSON 出力を取得し、CSV ファイルに変換します。

最終出力は、csv-output フォルダー内の同じ S3 バケットに CSV ファイルとして保存されます。

次のコマンドを使用して、ファイルをローカル マシンにダウンロードできます。

aws s3 cp <paste the S3 URL from TextractOutputCSVPath>

結果の形式は次のとおりです timestamp, classification, filename, page number, key name, key_confidence, value, value_confidence, key_bb_top, key_bb_height, key_bb.width, key_bb_left, value_bb_top, value_bb_height, value_bb_width, value_bb_left.

ワクチン接種証明書を DemoQueries.DocumentUploadLocation。これにより、Step Functions ステート マシンの複数の実行が自動的にトリガーされ、最終結果は csv-output フォルダー内の同じ S3 バケットに保存されます。

Amazon Textract に供給されるクエリの初期セットを変更するには、AWS Cloud9 インスタンスに移動して start_execution.py ファイルを開きます。左側のペインのファイル ビューで、lambda に移動します。 start_queries, app, start_execution.py。この Lambda 関数は、ファイルがアップロードされるときに呼び出されます。 DemoQueries.DocumentUploadLocation。ワークフローに送信されるクエリは次のように定義されます。 start_execution.py;次のスクリーンショットに示すようにコードを更新することで、これらを変更できます。

クリーンアップ

継続的な料金の発生を避けるには、次のコマンドを使用してこの投稿で作成したリソースを削除します。

cdk destroy DemoQueries

質問に答えて Are you sure you want to delete: DemoQueries (y/n)? Yさんと。

まとめ

この投稿では、Amazon Textract クエリを使用して旅行業界向けのワクチン接種検証ソリューションを構築する方法を説明しました。 Amazon Textract クエリを使用して、金融やヘルスケアなどの他の業界でソリューションを構築したり、自然言語の質問に基づいて給与明細、住宅ローン手形、保険カードなどのドキュメントから情報を取得したりできます。

詳細については、を参照してください。 文書の分析、または、Amazon Textract コンソールをチェックして、この機能を試してみてください。


著者について

ディーラジ・タクール アマゾンウェブサービスのソリューションアーキテクトです。 彼はAWSのお客様やパートナーと協力して、エンタープライズクラウドの採用、移行、戦略に関するガイダンスを提供しています。 彼はテクノロジーに情熱を注いでおり、分析とAI / MLの分野での構築と実験を楽しんでいます。

リシャブ・ヤダフ は、AW​​S のパートナー ソリューション アーキテクトであり、AWS での DevOps とセキュリティ製品に豊富な経験を持っています。彼は ASEAN パートナーと協力して、Well-Architected フレームワークの実装を通じて AWS プラクティスを構築するとともに、エンタープライズ クラウドの導入とアーキテクチャのレビューに関するガイダンスを提供しています。仕事以外では、スポーツや FPS ゲームに時間を費やすのが好きです。

スポット画像

最新のインテリジェンス

スポット画像