Logo Zephyrnet

Crea una soluzione di verifica delle vaccinazioni utilizzando la funzionalità Query in Amazon Textract | Servizi Web di Amazon

Data:

Testo Amazon è un servizio di machine learning (ML) che consente l'estrazione automatica di testo, grafia e dati da documenti scansionati, superando il tradizionale riconoscimento ottico dei caratteri (OCR). Può identificare, comprendere ed estrarre dati da tabelle e moduli con notevole precisione. Attualmente, diverse aziende si affidano a metodi di estrazione manuale o a software OCR di base, che sono noiosi e richiedono molto tempo e richiedono una configurazione manuale che deve essere aggiornata quando il modulo cambia. Amazon Textract aiuta a risolvere queste sfide utilizzando il machine learning per elaborare automaticamente diversi tipi di documenti ed estrarre accuratamente le informazioni con un intervento manuale minimo. Ciò consente di automatizzare l'elaborazione dei documenti e utilizzare i dati estratti per scopi diversi, come automatizzare l'elaborazione dei prestiti o raccogliere informazioni da fatture e ricevute.

Con la ripresa dei viaggi dopo la pandemia, in molti casi potrebbe essere necessaria la verifica dello stato vaccinale del viaggiatore. Gli hotel e le agenzie di viaggio spesso devono rivedere le carte di vaccinazione per raccogliere dettagli importanti come se il viaggiatore è completamente vaccinato, le date del vaccino e il nome del viaggiatore. Alcune agenzie lo fanno attraverso la verifica manuale delle carte, che può richiedere molto tempo al personale e lascia spazio a errori umani. Altri hanno creato soluzioni personalizzate, ma queste possono essere costose e difficili da scalare e richiedere molto tempo per l’implementazione. Andando avanti, potrebbero esserci opportunità per semplificare il processo di verifica dello stato vaccinale in un modo che sia efficiente per le aziende, rispettando al tempo stesso la privacy e la comodità dei viaggiatori.

Query di Amazon Textract aiuta ad affrontare queste sfide. Amazon Textract Queries ti consente di specificare ed estrarre solo le informazioni di cui hai bisogno dal documento. Fornisce informazioni precise e accurate dal documento.

In questo post ti guideremo attraverso una guida all'implementazione passo passo per creare una soluzione di verifica dello stato vaccinale utilizzando Amazon Textract Queries. La soluzione mostra come elaborare le schede di vaccinazione utilizzando una query di Amazon Textract, verificare lo stato della vaccinazione e archiviare le informazioni per un utilizzo futuro.

Panoramica della soluzione

Il diagramma seguente illustra l'architettura della soluzione.

Il flusso di lavoro include i seguenti passaggi:

  1. L'utente scatta una foto di una tessera di vaccinazione.
  2. L'immagine viene caricata su un file Servizio di archiviazione semplice Amazon (Amazon S3) secchio.
  3. Quando l'immagine viene salvata nel bucket S3, richiama un file Funzioni AWS Step flusso di lavoro:
  4. Il decisore delle domande AWS Lambda La funzione esamina il documento passato e aggiunge informazioni sul tipo MIME, sul numero di pagine e sul numero di query al flusso di lavoro Step Functions (per il nostro esempio, abbiamo quattro query).
  5. NumberQueriesAndPagesChoice è uno stato Choice che aggiunge logica condizionale a un flusso di lavoro. Se sono presenti tra 15 e 31 query e il numero di pagine è compreso tra 2 e 3,001, l'elaborazione asincrona di Amazon Textract è l'unica opzione, poiché le API sincrone supportano solo fino a 15 query e documenti di una pagina. Per tutti gli altri casi si procede alla selezione casuale dell'elaborazione sincrona o asincrona.
  6. I TextractSync La funzione Lambda invia una richiesta ad Amazon Textract per analizzare il documento in base alle seguenti query Amazon Textract:
    1. Cos'è lo stato vaccinale?
    2. Cos'è il nome?
    3. Qual è la data di nascita?
    4. Cos'è il numero del documento?
  7. Amazon Textract analizza l'immagine e invia le risposte a queste query alla funzione Lambda.
  8. La funzione Lambda verifica lo stato vaccinale del cliente e memorizza il risultato finale in formato CSV nello stesso bucket S3 (demoqueries-textractxxx) nel Programma csv-output cartella.

Prerequisiti

Per completare questa soluzione, devi disporre di un account AWS e delle autorizzazioni appropriate per creare le risorse richieste come parte della soluzione.

Scarica il codice di distribuzione e il campione della scheda di vaccinazione da GitHub.

Utilizza la funzione Query sulla console Amazon Texttract

Prima di creare la soluzione di verifica delle vaccinazioni, esploriamo come utilizzare Amazon Textract Queries per estrarre lo stato delle vaccinazioni tramite la console Amazon Textract. Puoi utilizzare il campione della tessera di vaccinazione scaricato dal repository GitHub.

  1. Nella console Amazon Textract, scegli Analizza il documento nel pannello di navigazione.
  2. Sotto Carica documentoscegli Scegli documento per caricare la tessera di vaccinazione dal tuo drive locale.
  3. Dopo aver caricato il documento, seleziona Query nel Configura documento .
  4. È quindi possibile aggiungere query sotto forma di domande sul linguaggio naturale. Aggiungiamo quanto segue:
    • Cos'è lo stato vaccinale?
    • Cos'è il nome?
    • Qual è la data di nascita?
    • Cos'è il numero del documento?
  5. Dopo aver aggiunto tutte le tue domande, scegli Applica configurazione.
  6. Controlla le query scheda per vedere le risposte alle domande.

Puoi vedere Amazon Textract estrae la risposta alla tua query dal documento.

Distribuire la soluzione di verifica della vaccinazione

In questo post, usiamo un AWS Cloud9 istanza e installare le dipendenze necessarie sull'istanza con il file Kit di sviluppo cloud AWS (AWS CDK) e Docker. AWS Cloud9 è un ambiente di sviluppo integrato (IDE) basato su cloud che ti consente di scrivere, eseguire ed eseguire il debug del tuo codice semplicemente con un browser.

  1. Nel terminale, scegli Carica file locali sul Compila il menu.
  2. Scegli Seleziona cartella e scegliere il vaccination_verification_solution cartella scaricata da GitHub.
  3. Nel terminale, prepara la tua applicazione serverless per i passaggi successivi nel flusso di lavoro di sviluppo Modello di applicazione serverless AWS (AWS SAM) utilizzando il seguente comando:
    $ cd vaccination_verification_solution/
    $ pip install -r requirements.txt
    

  4. Distribuire l'applicazione utilizzando il file cdk deploy comando:
    cdk deploy DemoQueries --outputs-file demo_queries.json --require-approval never

    Attendi che AWS CDK distribuisca il modello e crei le risorse menzionate nel modello.

  5. Una volta completata la distribuzione, puoi controllare le risorse distribuite sul file AWS CloudFormazione consolle sul Risorse scheda della pagina dei dettagli dello stack.

Prova la soluzione

Ora è il momento di testare la soluzione. Per attivare il flusso di lavoro, utilizzare aws s3 cp per caricare il file vac_card.jpg file per DemoQueries.DocumentUploadLocation all'interno della cartella documenti:

aws s3 cp docs/vac_card.JPG $(aws cloudformation list-exports --query 'Exports[?Name==`DemoQueries-DocumentUploadLocation`].Value' --output text)


Il file del certificato di vaccinazione viene caricato automaticamente nel bucket S3 demoqueries-textractxxx nella cartella dei caricamenti.

Il flusso di lavoro Step Functions viene attivato tramite una funzione Lambda non appena il file del certificato di vaccinazione viene caricato nel bucket S3.

La funzione Lambda Queries-Decider esamina il documento e aggiunge informazioni sul tipo MIME, sul numero di pagine e sul numero di query al flusso di lavoro Step Functions (per questo esempio utilizziamo quattro query: numero del documento, nome del cliente, data di nascita e stato vaccinale).

I TextractSync La funzione invia le query di input ad Amazon Textract e restituisce in modo sincrono il risultato completo come parte della risposta. Supporta documenti di 1 pagina (TIFF, PDF, JPG, PNG) e fino a 15 query. IL GenerateCsvTask la funzione prende l'output JSON da Amazon Textract e lo converte in un file CSV.

L'output finale viene archiviato nello stesso bucket S3 nella cartella csv-output come file CSV.

Puoi scaricare il file sul tuo computer locale utilizzando il seguente comando:

aws s3 cp <paste the S3 URL from TextractOutputCSVPath>

Il formato del risultato è timestamp, classification, filename, page number, key name, key_confidence, value, value_confidence, key_bb_top, key_bb_height, key_bb.width, key_bb_left, value_bb_top, value_bb_height, value_bb_width, value_bb_left.

Puoi adattare la soluzione a centinaia di documenti di certificati di vaccinazione per più clienti caricando i relativi certificati di vaccinazione su DemoQueries.DocumentUploadLocation. Ciò attiva automaticamente più esecuzioni della macchina a stati Step Functions e il risultato finale viene archiviato nello stesso bucket S3 nella cartella csv-output.

Per modificare il set iniziale di query inserite in Amazon Textract, puoi accedere all'istanza AWS Cloud9 e aprire il file start_execution.py. Nella visualizzazione file nel riquadro di sinistra, vai a lambda, start_queries, app, start_execution.py. Questa funzione Lambda viene richiamata quando un file viene caricato su DemoQueries.DocumentUploadLocation. Le query inviate al flusso di lavoro sono definite in start_execution.py; puoi modificarli aggiornando il codice come mostrato nello screenshot seguente.

ripulire

Per evitare di incorrere in spese correnti, elimina le risorse create in questo post utilizzando il seguente comando:

cdk destroy DemoQueries

Rispondi alla domanda Are you sure you want to delete: DemoQueries (y/n)? con y.

Conclusione

In questo post ti abbiamo mostrato come utilizzare Amazon Textract Queries per creare una soluzione di verifica delle vaccinazioni per il settore dei viaggi. Puoi utilizzare Amazon Textract Queries per creare soluzioni in altri settori come la finanza e la sanità e recuperare informazioni da documenti come buste paga, note ipotecarie e tessere assicurative basate su domande in linguaggio naturale.

Per ulteriori informazioni, vedere Analisi dei documentioppure controlla la console Amazon Textract e prova questa funzione.


Informazioni sugli autori

Dhiraj Thakur è un Solutions Architect con Amazon Web Services. Collabora con clienti e partner AWS per fornire indicazioni sull'adozione, la migrazione e la strategia del cloud aziendale. È appassionato di tecnologia e ama costruire e sperimentare nello spazio di analisi e AI/ML.

Rishabh Yadav è un Partner Solutions Architect presso AWS con una vasta esperienza nelle offerte DevOps e sicurezza presso AWS. Collabora con i partner ASEAN per fornire indicazioni sull'adozione del cloud aziendale e sulle revisioni dell'architettura, oltre alla creazione di pratiche AWS attraverso l'implementazione del Well-Architected Framework. Al di fuori del lavoro, gli piace trascorrere il tempo nel campo sportivo e nei giochi FPS.

spot_img

L'ultima intelligenza

spot_img