제퍼넷 로고

Amazon Textract의 쿼리 기능을 사용하여 백신 접종 확인 솔루션 구축 | 아마존 웹 서비스

시간

아마존 텍사스 기존 광학 문자 인식(OCR)을 뛰어넘어 스캔한 문서에서 텍스트, 필기, 데이터를 자동으로 추출할 수 있는 머신러닝(ML) 서비스입니다. 놀라운 정확도로 테이블과 양식에서 데이터를 식별하고 이해하고 추출할 수 있습니다. 현재 여러 회사에서는 지루하고 시간이 많이 걸리며 양식이 변경될 때 업데이트해야 하는 수동 구성이 필요한 수동 추출 방법이나 기본 OCR 소프트웨어에 의존하고 있습니다. Amazon Textract는 ML을 활용하여 다양한 문서 유형을 자동으로 처리하고 최소한의 수동 개입으로 정보를 정확하게 추출함으로써 이러한 문제를 해결하는 데 도움이 됩니다. 이를 통해 문서 처리를 자동화하고 추출된 데이터를 대출 처리 자동화, 송장 및 영수증 정보 수집 등 다양한 목적으로 사용할 수 있습니다.

유행병 이후 여행이 재개됨에 따라 많은 경우 여행자의 예방 접종 상태를 확인해야 할 수 있습니다. 호텔과 여행사는 여행자의 예방 접종 완료 여부, 백신 접종 날짜, 여행자 이름과 같은 중요한 세부 정보를 수집하기 위해 예방 접종 카드를 검토해야 하는 경우가 많습니다. 일부 기관에서는 카드를 수동으로 확인하여 이를 수행하는데, 이는 직원에게 시간이 많이 걸리고 사람의 실수가 발생할 여지가 있습니다. 다른 사람들은 맞춤형 솔루션을 구축했지만 비용이 많이 들고 확장하기 어려울 수 있으며 구현하는 데 상당한 시간이 걸릴 수 있습니다. 앞으로는 여행자의 개인 정보 보호와 편의를 존중하면서 기업에 효율적인 방식으로 예방 접종 상태 확인 절차를 간소화할 수 있는 기회가 있을 수 있습니다.

Amazon Textract 쿼리 이러한 과제를 해결하는 데 도움이 됩니다. Amazon Textract 쿼리를 사용하면 문서에서 필요한 정보 부분만 지정하고 추출할 수 있습니다. 문서에서 정확하고 정확한 정보를 제공합니다.

이 게시물에서는 Amazon Textract 쿼리를 사용하여 백신 접종 상태 확인 솔루션을 구축하기 위한 단계별 구현 가이드를 안내합니다. 이 솔루션은 Amazon Textract 쿼리를 사용하여 예방 접종 카드를 처리하고, 예방 접종 상태를 확인하고, 향후 사용을 위해 정보를 저장하는 방법을 보여줍니다.

솔루션 개요

다음 다이어그램은 솔루션 아키텍처를 보여줍니다.

워크 플로우에는 다음 단계가 포함됩니다.

  1. 사용자가 예방접종 카드의 사진을 찍습니다.
  2. 이미지가 다음 위치에 업로드됩니다. 아마존 단순 스토리지 서비스 (Amazon S3) 버킷.
  3. 이미지가 S3 버킷에 저장되면 AWS 단계 함수 워크 플로우 :
  4. 쿼리 결정자 AWS 람다 함수는 전달된 문서를 검사하고 MIME 유형, 페이지 수 및 쿼리 수에 대한 정보를 Step Functions 워크플로에 추가합니다(이 예에서는 쿼리가 4개입니다).
  5. NumberQueriesAndPagesChoice 워크플로에 조건부 논리를 추가하는 선택 상태입니다. 15~31개의 쿼리가 있고 페이지 수가 2~3,001개 사이인 경우 Amazon Textract 비동기 처리가 유일한 옵션입니다. 동기 API는 최대 15개의 쿼리와 XNUMX페이지 문서만 지원하기 때문입니다. 다른 모든 경우에는 동기식 또는 비동기식 처리를 무작위로 선택하도록 라우팅합니다.
  6. XNUMXD덴탈의 TextractSync Lambda 함수는 다음 Amazon Textract 쿼리를 기반으로 문서를 분석하기 위해 Amazon Textract에 요청을 보냅니다.
    1. 예방접종 현황은 무엇인가요?
    2. 이름은 무엇입니까?
    3. 생년월일은 무엇입니까?
    4. 문서번호란 무엇입니까?
  7. Amazon Textract는 이미지를 분석하고 이러한 쿼리에 대한 답변을 Lambda 함수로 다시 보냅니다.
  8. Lambda 기능은 고객의 예방 접종 상태를 확인하고 최종 결과를 동일한 S3 버킷에 CSV 형식으로 저장합니다(demoqueries-textractxxx)에의 csv-output 폴더에 있습니다.

사전 조건

이 솔루션을 완료하려면 AWS 계정과 솔루션의 일부로 필요한 리소스를 생성할 수 있는 적절한 권한이 있어야 합니다.

다음에서 배포 코드와 샘플 예방접종 카드를 다운로드하세요. GitHub의.

Amazon Textract 콘솔에서 쿼리 기능 사용

백신 접종 확인 솔루션을 구축하기 전에 Amazon Textract 쿼리를 사용하여 Amazon Textract 콘솔을 통해 백신 접종 상태를 추출하는 방법을 살펴보겠습니다. GitHub 리포지토리에서 다운로드한 예방접종 카드 샘플을 사용할 수 있습니다.

  1. Amazon Textract 콘솔에서 다음을 선택합니다. 문서 분석 탐색 창에서
  2. $XNUMX Million 미만 문서 업로드선택한다. 문서 선택 로컬 드라이브에서 예방접종 카드를 업로드합니다.
  3. 문서를 업로드한 후 다음을 선택하세요. 검색어 FBI 증오 범죄 보고서 문서 구성 안내
  4. 그런 다음 자연어 질문 형식으로 쿼리를 추가할 수 있습니다. 다음을 추가해 보겠습니다.
    • 예방접종 현황은 무엇인가요?
    • 이름은 무엇입니까?
    • 생년월일은 무엇입니까?
    • 문서번호란 무엇입니까?
  5. 모든 쿼리를 추가한 후 다음을 선택하세요. 구성 적용.
  6. 쿼리를 확인하세요 탭을 클릭하면 질문에 대한 답변을 볼 수 있습니다.

Amazon Textract가 문서에서 쿼리에 대한 답변을 추출하는 것을 볼 수 있습니다.

예방접종 검증 솔루션 배포

이번 포스팅에서는 AWS 클라우드9 인스턴스를 사용하여 인스턴스에 필요한 종속성을 설치합니다. AWS 클라우드 개발 키트 (AWS CDK) 및 도커. AWS Cloud9은 브라우저만으로 코드를 작성, 실행 및 디버깅할 수 있는 클라우드 기반 통합 개발 환경(IDE)입니다.

  1. 터미널에서 로컬 파일 업로드 를 시청하여 이에 대해 더 많은 정보를 얻을 수 있습니다. 입양 부모로서의 귀하의 적합성을 결정하기 위해 미국 이민국에 메뉴를 선택합니다.
  2. 왼쪽 메뉴에서 폴더를 선택 선택하고 vaccination_verification_solution GitHub에서 다운로드한 폴더입니다.
  3. 터미널에서 개발 워크플로의 후속 단계를 위해 서버리스 애플리케이션을 준비합니다. AWS 서버리스 애플리케이션 모델 (AWS SAM) 다음 명령을 사용합니다.
    $ cd vaccination_verification_solution/
    $ pip install -r requirements.txt
    

  4. 다음을 사용하여 애플리케이션을 배포합니다. cdk deploy 명령:
    cdk deploy DemoQueries --outputs-file demo_queries.json --require-approval never

    AWS CDK가 모델을 배포하고 템플릿에 언급된 리소스를 생성할 때까지 기다립니다.

  5. 배포가 완료되면 배포된 리소스를 다음에서 확인할 수 있습니다. AWS 클라우드 포메이션 콘솔 자료 스택 세부정보 페이지의 탭입니다.

솔루션 테스트

이제 솔루션을 테스트할 차례입니다. 워크플로를 트리거하려면 다음을 사용하세요. aws s3 cp 업로드하려면 vac_card.jpg 에 파일을 DemoQueries.DocumentUploadLocation 문서 폴더 내부:

aws s3 cp docs/vac_card.JPG $(aws cloudformation list-exports --query 'Exports[?Name==`DemoQueries-DocumentUploadLocation`].Value' --output text)


예방접종 증명서 파일이 자동으로 S3 버킷에 업로드됩니다. demoqueries-textractxxx 업로드 폴더에 있습니다.

Step Functions 워크플로는 백신 접종 인증서 파일이 S3 버킷에 업로드되자마자 Lambda 함수를 통해 트리거됩니다.

Queries-Decider Lambda 함수는 문서를 검사하고 MIME 유형, 페이지 수 및 쿼리 수에 대한 정보를 Step Functions 워크플로에 추가합니다(이 예에서는 문서 번호, 고객 이름, 날짜 등 4가지 쿼리를 사용합니다). 출생, 예방접종 상태).

XNUMXD덴탈의 TextractSync 함수는 입력 쿼리를 Amazon Textract로 보내고 응답의 일부로 전체 결과를 동기식으로 반환합니다. 1페이지 문서(TIFF, PDF, JPG, PNG)와 최대 15개의 쿼리를 지원합니다. 그만큼 GenerateCsvTask 함수는 Amazon Textract에서 JSON 출력을 가져와서 CSV 파일로 변환합니다.

최종 출력은 csv-output 폴더의 동일한 S3 버킷에 CSV 파일로 저장됩니다.

다음 명령을 사용하여 파일을 로컬 컴퓨터에 다운로드할 수 있습니다.

aws s3 cp <paste the S3 URL from TextractOutputCSVPath>

결과 형식은 다음과 같습니다. timestamp, classification, filename, page number, key name, key_confidence, value, value_confidence, key_bb_top, key_bb_height, key_bb.width, key_bb_left, value_bb_top, value_bb_height, value_bb_width, value_bb_left.

예방 접종 증명서를 업로드하여 여러 고객을 위한 수백 개의 예방 접종 증명서 문서로 솔루션을 확장할 수 있습니다. DemoQueries.DocumentUploadLocation. 그러면 Step Functions 상태 머신의 여러 실행이 자동으로 트리거되고 최종 결과는 csv-output 폴더의 동일한 S3 버킷에 저장됩니다.

Amazon Textract에 제공되는 초기 쿼리 세트를 변경하려면 AWS Cloud9 인스턴스로 이동하여 start_execution.py 파일을 열 수 있습니다. 왼쪽 창의 파일 보기에서 람다로 이동합니다. start_queries, app, start_execution.py. 이 Lambda 함수는 파일이 업로드될 때 호출됩니다. DemoQueries.DocumentUploadLocation. 워크플로로 전송된 쿼리는 다음에 정의되어 있습니다. start_execution.py; 다음 스크린샷과 같이 코드를 업데이트하여 이를 변경할 수 있습니다.

정리

지속적인 요금이 발생하지 않도록 하려면 다음 명령을 사용하여 이 게시물에서 생성된 리소스를 삭제하세요.

cdk destroy DemoQueries

질문에 답하세요 Are you sure you want to delete: DemoQueries (y/n)? y와 함께.

결론

이 게시물에서는 Amazon Textract 쿼리를 사용하여 여행 산업을 위한 예방 접종 확인 솔루션을 구축하는 방법을 보여 주었습니다. Amazon Textract 쿼리를 사용하면 금융, 의료 등 다른 산업 분야의 솔루션을 구축하고 급여 명세서, 모기지 증서, 보험 카드 등의 문서에서 자연어 질문을 기반으로 정보를 검색할 수 있습니다.

자세한 내용은 다음 링크를 참조하세요 문서 분석, 또는 Amazon Textract 콘솔을 확인하고 이 기능을 사용해 보세요.


저자에 관하여

디 라즈 타쿠 르 Amazon Web Services의 솔루션 설계자입니다. 그는 AWS 고객 및 파트너와 협력하여 엔터프라이즈 클라우드 채택, 마이그레이션 및 전략에 대한 지침을 제공합니다. 그는 기술에 대한 열정이 있으며 분석 및 AI / ML 공간에서 구축하고 실험하는 것을 즐깁니다.

리샤브 야다브 AWS의 DevOps 및 보안 제품에 대한 광범위한 배경 지식을 갖춘 AWS의 파트너 솔루션 아키텍트입니다. 그는 ASEAN 파트너와 협력하여 Well-Architected 프레임워크 구현을 통해 AWS 관행을 구축하는 동시에 엔터프라이즈 클라우드 채택 및 아키텍처 검토에 대한 지침을 제공합니다. 업무 외에는 스포츠 분야와 FPS 게임에서 시간을 보내는 것을 좋아합니다.

spot_img

최신 인텔리전스

spot_img