Logo Zéphyrnet

Créez une solution de vérification des vaccinations à l'aide de la fonctionnalité Requêtes dans Amazon Textract | Services Web Amazon

Date :

Extrait d'Amazon est un service d'apprentissage automatique (ML) qui permet l'extraction automatique du texte, de l'écriture manuscrite et des données des documents numérisés, dépassant ainsi la reconnaissance optique de caractères (OCR) traditionnelle. Il peut identifier, comprendre et extraire les données des tableaux et des formulaires avec une précision remarquable. Actuellement, plusieurs entreprises s'appuient sur des méthodes d'extraction manuelles ou sur un logiciel OCR de base, ce qui est fastidieux et prend du temps, et nécessite une configuration manuelle qui doit être mise à jour lorsque le formulaire change. Amazon Textract aide à résoudre ces défis en utilisant le ML pour traiter automatiquement différents types de documents et extraire avec précision les informations avec une intervention manuelle minimale. Cela vous permet d'automatiser le traitement des documents et d'utiliser les données extraites à différentes fins, telles que l'automatisation du traitement des prêts ou la collecte d'informations à partir des factures et des reçus.

À mesure que les voyages reprennent après la pandémie, la vérification du statut vaccinal d'un voyageur peut être nécessaire dans de nombreux cas. Les hôtels et les agences de voyages doivent souvent examiner les cartes de vaccination pour recueillir des détails importants, comme si le voyageur est complètement vacciné, les dates de vaccination et le nom du voyageur. Certaines agences procèdent à cette vérification en vérifiant manuellement les cartes, ce qui peut prendre beaucoup de temps pour le personnel et laisser place à l'erreur humaine. D'autres ont élaboré des solutions personnalisées, mais celles-ci peuvent être coûteuses et difficiles à mettre à l'échelle, et leur mise en œuvre prend beaucoup de temps. À l’avenir, il pourrait y avoir des opportunités de rationaliser le processus de vérification du statut vaccinal d’une manière efficace pour les entreprises tout en respectant la vie privée et la commodité des voyageurs.

Requêtes de texte Amazon contribue à relever ces défis. Amazon Textract Queries vous permet de spécifier et d'extraire uniquement les informations dont vous avez besoin du document. Il vous donne des informations précises et exactes à partir du document.

Dans cet article, nous vous présentons un guide de mise en œuvre étape par étape pour créer une solution de vérification du statut vaccinal à l'aide d'Amazon Textract Queries. La solution montre comment traiter les cartes de vaccination à l'aide d'une requête Amazon Textract, vérifier le statut de vaccination et stocker les informations pour une utilisation future.

Vue d'ensemble de la solution

Le diagramme suivant illustre l'architecture de la solution.

Le workflow comprend les étapes suivantes:

  1. L'utilisateur prend une photo d'un carnet de vaccination.
  2. L'image est téléchargée sur un Service de stockage simple Amazon (Amazon S3) seau.
  3. Lorsque l'image est enregistrée dans le compartiment S3, elle appelle un Fonctions d'étape AWS flux de travail :
  4. Le décideur de requêtes AWS Lambda La fonction examine le document transmis et ajoute des informations sur le type MIME, le nombre de pages et le nombre de requêtes au flux de travail Step Functions (pour notre exemple, nous avons quatre requêtes).
  5. NumberQueriesAndPagesChoice est un état Choice qui ajoute une logique conditionnelle à un flux de travail. S'il y a entre 15 et 31 requêtes et que le nombre de pages est compris entre 2 et 3,001 15, le traitement asynchrone Amazon Textract est la seule option, car les API synchrones ne prennent en charge que jusqu'à XNUMX requêtes et documents d'une page. Pour tous les autres cas, on s'oriente vers la sélection aléatoire de traitements synchrones ou asynchrones.
  6. La TextractSync La fonction Lambda envoie une requête à Amazon Textract pour analyser le document en fonction des requêtes Amazon Textract suivantes :
    1. Qu’est-ce que le statut vaccinal ?
    2. Quel est le nom?
    3. Quelle est la date de naissance ?
    4. Qu'est-ce que le numéro de document ?
  7. Amazon Textract analyse l'image et renvoie les réponses à ces requêtes à la fonction Lambda.
  8. La fonction Lambda vérifie le statut vaccinal du client et stocke le résultat final au format CSV dans le même bucket S3 (demoqueries-textractxxx) Dans le csv-output dossier.

Pré-requis

Pour compléter cette solution, vous devez disposer d'un compte AWS et des autorisations appropriées pour créer les ressources requises dans le cadre de la solution.

Téléchargez le code de déploiement et le modèle de carnet de vaccination sur GitHub.

Utilisez la fonctionnalité Requêtes sur la console Amazon Textract

Avant de créer la solution de vérification de la vaccination, explorons comment vous pouvez utiliser les requêtes Amazon Textract pour extraire le statut de vaccination via la console Amazon Textract. Vous pouvez utiliser l'exemple de carte de vaccination que vous avez téléchargé à partir du dépôt GitHub.

  1. Sur la console Amazon Text, choisissez Analyser un document dans le volet de navigation.
  2. Sous Télécharger des documents, choisissez Choisissez le document pour télécharger le carnet de vaccination depuis votre disque local.
  3. Après avoir téléchargé le document, sélectionnez Requêtes dans l' Configurer le document .
  4. Vous pouvez ensuite ajouter des requêtes sous forme de questions en langage naturel. Ajoutons ce qui suit :
    • Qu’est-ce que le statut vaccinal ?
    • Quel est le nom?
    • Quelle est la date de naissance ?
    • Qu'est-ce que le numéro de document ?
  5. Après avoir ajouté toutes vos requêtes, choisissez Appliquer la configuration.
  6. Vérifiez les requêtes onglet pour voir les réponses aux questions.

Vous pouvez voir qu'Amazon Textract extrait la réponse à votre requête du document.

Déployer la solution de vérification des vaccinations

Dans cet article, nous utilisons un AWSCloud9 instance et installez les dépendances nécessaires sur l'instance avec le Kit de développement AWS Cloud (AWS CDK) et Docker. AWS Cloud9 est un environnement de développement intégré (IDE) basé sur le cloud qui vous permet d'écrire, d'exécuter et de déboguer votre code avec un simple navigateur.

  1. Dans le terminal, choisissez Télécharger des fichiers locaux sur le Déposez votre dernière attestation menu.
  2. Selectionnez Sélectionner le dossier Et choisissez le vaccination_verification_solution dossier que vous avez téléchargé depuis GitHub.
  3. Dans le terminal, préparez votre application sans serveur pour les étapes suivantes de votre flux de travail de développement dans Modèle d'application sans serveur AWS (AWS SAM) à l'aide de la commande suivante :
    $ cd vaccination_verification_solution/
    $ pip install -r requirements.txt
    

  4. Déployez l'application à l'aide du cdk deploy commander:
    cdk deploy DemoQueries --outputs-file demo_queries.json --require-approval never

    Attendez que AWS CDK déploie le modèle et crée les ressources mentionnées dans le modèle.

  5. Une fois le déploiement terminé, vous pouvez vérifier les ressources déployées sur le AWS CloudFormation console sur le Ressources de la page de détails de la pile.

Testez la solution

Il est maintenant temps de tester la solution. Pour déclencher le workflow, utilisez aws s3 cp pour télécharger le vac_card.jpg déposer à DemoQueries.DocumentUploadLocation dans le dossier docs :

aws s3 cp docs/vac_card.JPG $(aws cloudformation list-exports --query 'Exports[?Name==`DemoQueries-DocumentUploadLocation`].Value' --output text)


Le fichier du certificat de vaccination est automatiquement téléchargé dans le compartiment S3 demoqueries-textractxxx dans le dossier des téléchargements.

Le workflow Step Functions est déclenché via une fonction Lambda dès que le fichier du certificat de vaccination est téléchargé dans le bucket S3.

La fonction Queries-Decider Lambda examine le document et ajoute des informations sur le type MIME, le nombre de pages et le nombre de requêtes au flux de travail Step Functions (pour cet exemple, nous utilisons quatre requêtes : numéro de document, nom du client, date de naissance et statut vaccinal).

La TextractSync La fonction envoie les requêtes d'entrée à Amazon Textract et renvoie de manière synchrone le résultat complet dans le cadre de la réponse. Il prend en charge les documents d'une page (TIFF, PDF, JPG, PNG) et jusqu'à 1 requêtes. Le GenerateCsvTask La fonction prend la sortie JSON d'Amazon Textract et la convertit en fichier CSV.

La sortie finale est stockée dans le même compartiment S3 dans le dossier csv-output en tant que fichier CSV.

Vous pouvez télécharger le fichier sur votre ordinateur local à l'aide de la commande suivante :

aws s3 cp <paste the S3 URL from TextractOutputCSVPath>

Le format du résultat est timestamp, classification, filename, page number, key name, key_confidence, value, value_confidence, key_bb_top, key_bb_height, key_bb.width, key_bb_left, value_bb_top, value_bb_height, value_bb_width, value_bb_left.

Vous pouvez faire évoluer la solution vers des centaines de documents de certificats de vaccination pour plusieurs clients en téléchargeant leurs certificats de vaccination sur DemoQueries.DocumentUploadLocation. Cela déclenche automatiquement plusieurs exécutions de la machine à états Step Functions et le résultat final est stocké dans le même compartiment S3 dans le dossier csv-output.

Pour modifier l'ensemble initial de requêtes introduites dans Amazon Textract, vous pouvez accéder à votre instance AWS Cloud9 et ouvrir le fichier start_execution.py. Dans la vue des fichiers dans le volet de gauche, accédez à lambda, start_queries, app, start_execution.py. Cette fonction Lambda est invoquée lorsqu'un fichier est téléchargé vers DemoQueries.DocumentUploadLocation. Les requêtes envoyées au workflow sont définies dans start_execution.py; vous pouvez les modifier en mettant à jour le code comme indiqué dans la capture d'écran suivante.

Nettoyer

Pour éviter d'encourir des frais courants, supprimez les ressources créées dans cet article à l'aide de la commande suivante :

cdk destroy DemoQueries

Répondre à la question Are you sure you want to delete: DemoQueries (y/n)? avec y.

Conclusion

Dans cet article, nous vous avons montré comment utiliser Amazon Textract Queries pour créer une solution de vérification des vaccinations pour l'industrie du voyage. Vous pouvez utiliser Amazon Textract Queries pour créer des solutions dans d'autres secteurs tels que la finance et la santé, et récupérer des informations à partir de documents tels que des fiches de paie, des notes d'hypothèque et des cartes d'assurance en fonction de questions en langage naturel.

Pour plus d'informations, voir Analyser des documents, ou consultez la console Amazon Textract et essayez cette fonctionnalité.


À propos des auteurs

Dhiraj Thakur est un architecte de solutions avec Amazon Web Services. Il travaille avec les clients et partenaires AWS pour fournir des conseils sur l'adoption, la migration et la stratégie du cloud d'entreprise. Il est passionné de technologie et aime créer et expérimenter dans le domaine de l'analyse et de l'IA / ML.

Rishabh Yadav est un architecte de solutions partenaires chez AWS avec une vaste expérience dans les offres DevOps et de sécurité chez AWS. Il travaille avec des partenaires de l'ASEAN pour fournir des conseils sur l'adoption et l'examen de l'architecture du cloud d'entreprise, ainsi que pour développer les pratiques AWS grâce à la mise en œuvre du cadre Well-Architected. En dehors du travail, il aime consacrer son temps au sport et aux jeux FPS.

spot_img

Dernières informations

spot_img