Zephyrnet-Logo

Erstellen Sie eine Impfüberprüfungslösung mithilfe der Abfragefunktion in Amazon Textract | Amazon Web Services

Datum:

Amazontext ist ein Dienst für maschinelles Lernen (ML), der die automatische Extraktion von Text, Handschrift und Daten aus gescannten Dokumenten ermöglicht und damit die herkömmliche optische Zeichenerkennung (OCR) übertrifft. Es kann Daten aus Tabellen und Formularen mit bemerkenswerter Genauigkeit identifizieren, verstehen und extrahieren. Derzeit verlassen sich mehrere Unternehmen auf manuelle Extraktionsmethoden oder einfache OCR-Software, was mühsam und zeitaufwändig ist und eine manuelle Konfiguration erfordert, die aktualisiert werden muss, wenn sich das Formular ändert. Amazon Textract hilft bei der Lösung dieser Herausforderungen, indem es ML nutzt, um verschiedene Dokumenttypen automatisch zu verarbeiten und Informationen mit minimalem manuellen Eingriff präzise zu extrahieren. Dadurch können Sie die Dokumentenverarbeitung automatisieren und die extrahierten Daten für verschiedene Zwecke verwenden, beispielsweise zur Automatisierung der Kreditbearbeitung oder zum Sammeln von Informationen aus Rechnungen und Quittungen.

Da das Reisen nach der Pandemie wieder aufgenommen wird, kann es in vielen Fällen erforderlich sein, den Impfstatus eines Reisenden zu überprüfen. Hotels und Reisebüros müssen häufig Impfausweise überprüfen, um wichtige Informationen zu erhalten, z. B. ob der Reisende vollständig geimpft ist, Impfdaten und den Namen des Reisenden. Einige Agenturen tun dies durch manuelle Überprüfung der Karten, was für das Personal zeitaufwändig sein kann und Raum für menschliches Versagen lässt. Andere haben maßgeschneiderte Lösungen entwickelt, diese können jedoch kostspielig und schwierig zu skalieren sein und die Implementierung erfordert viel Zeit. In Zukunft könnte es Möglichkeiten geben, den Prozess zur Überprüfung des Impfstatus so zu rationalisieren, dass er für Unternehmen effizient ist und gleichzeitig die Privatsphäre und den Komfort der Reisenden respektiert.

Amazon Textract-Abfragen hilft, diese Herausforderungen zu bewältigen. Mit Amazon Textract Queries können Sie nur die Informationen angeben und aus dem Dokument extrahieren, die Sie benötigen. Es liefert Ihnen präzise und genaue Informationen aus dem Dokument.

In diesem Beitrag führen wir Sie Schritt für Schritt durch eine Implementierungsanleitung zum Aufbau einer Lösung zur Überprüfung des Impfstatus mithilfe von Amazon Textract Queries. Die Lösung zeigt, wie Impfausweise mithilfe einer Amazon Textract-Abfrage verarbeitet, der Impfstatus überprüft und die Informationen für die zukünftige Verwendung gespeichert werden.

Lösungsüberblick

Das folgende Diagramm zeigt die Lösungsarchitektur.

Der Workflow umfasst die folgenden Schritte:

  1. Der Nutzer fotografiert einen Impfausweis.
  2. Das Bild wird auf eine hochgeladen Amazon Simple Storage-Service (Amazon S3) Eimer.
  3. Wenn das Bild im S3-Bucket gespeichert wird, wird ein aufgerufen AWS Step-Funktionen Arbeitsablauf:
  4. Der Abfrage-Entscheider AWS Lambda Die Funktion untersucht das übergebene Dokument und fügt Informationen über den MIME-Typ, die Anzahl der Seiten und die Anzahl der Abfragen zum Step Functions-Workflow hinzu (in unserem Beispiel haben wir vier Abfragen).
  5. NumberQueriesAndPagesChoice ist ein Auswahlzustand, der einem Workflow bedingte Logik hinzufügt. Wenn es zwischen 15 und 31 Abfragen gibt und die Anzahl der Seiten zwischen 2 und 3,001 liegt, ist die asynchrone Verarbeitung von Amazon Textract die einzige Option, da synchrone APIs nur bis zu 15 Abfragen und einseitige Dokumente unterstützen. In allen anderen Fällen leiten wir zur zufälligen Auswahl der synchronen oder asynchronen Verarbeitung über.
  6. Das TextractSync Die Lambda-Funktion sendet eine Anfrage an Amazon Textract, um das Dokument basierend auf den folgenden Amazon Textract-Abfragen zu analysieren:
    1. Was ist der Impfstatus?
    2. Was ist Name?
    3. Was ist das Geburtsdatum?
    4. Was ist die Dokumentnummer?
  7. Amazon Textract analysiert das Bild und sendet die Antworten dieser Abfragen zurück an die Lambda-Funktion.
  8. Die Lambda-Funktion überprüft den Impfstatus des Kunden und speichert das Endergebnis im CSV-Format im selben S3-Bucket (demoqueries-textractxxx) In der csv-output -Ordner.

Voraussetzungen:

Um diese Lösung abzuschließen, sollten Sie über ein AWS-Konto und die entsprechenden Berechtigungen zum Erstellen der als Teil der Lösung erforderlichen Ressourcen verfügen.

Laden Sie den Bereitstellungscode und den Musterimpfausweis herunter von GitHub.

Verwenden Sie die Abfragefunktion in der Amazon Textract-Konsole

Bevor Sie die Impfüberprüfungslösung erstellen, wollen wir untersuchen, wie Sie Amazon Textract-Abfragen verwenden können, um den Impfstatus über die Amazon Textract-Konsole zu extrahieren. Sie können das Impfpass-Beispiel verwenden, das Sie aus dem GitHub-Repo heruntergeladen haben.

  1. Wählen Sie in der Amazon Textract-Konsole Dokument analysieren im Navigationsbereich.
  2. Der Dokument hochladen, wählen Dokument auswählen um den Impfausweis von Ihrem lokalen Laufwerk hochzuladen.
  3. Wählen Sie nach dem Hochladen des Dokuments aus Abfragen der Dokument konfigurieren .
  4. Anschließend können Sie Abfragen in Form von Fragen in natürlicher Sprache hinzufügen. Fügen wir Folgendes hinzu:
    • Was ist der Impfstatus?
    • Was ist Name?
    • Was ist das Geburtsdatum?
    • Was ist die Dokumentnummer?
  5. Nachdem Sie alle Ihre Abfragen hinzugefügt haben, wählen Sie Konfiguration anwenden.
  6. Überprüfen Sie die Abfragen Klicken Sie auf die Registerkarte, um die Antworten auf die Fragen anzuzeigen.

Sie können sehen, wie Amazon Textract die Antwort auf Ihre Anfrage aus dem Dokument extrahiert.

Stellen Sie die Impfüberprüfungslösung bereit

In diesem Beitrag verwenden wir ein AWS Cloud9 Instanz und installieren Sie die erforderlichen Abhängigkeiten auf der Instanz mit dem AWS Cloud-Entwicklungskit (AWS CDK) und Docker. AWS Cloud9 ist eine cloudbasierte integrierte Entwicklungsumgebung (IDE), mit der Sie Ihren Code nur mit einem Browser schreiben, ausführen und debuggen können.

  1. Wählen Sie im Terminal Laden Sie lokale Dateien hoch auf die Reichen Sie das Menü.
  2. Auswählen Ordner auswählen und wähle das vaccination_verification_solution Ordner, den Sie von GitHub heruntergeladen haben.
  3. Bereiten Sie im Terminal Ihre serverlose Anwendung für nachfolgende Schritte in Ihrem Entwicklungsworkflow vor AWS Serverless-Anwendungsmodell (AWS SAM) mit dem folgenden Befehl:
    $ cd vaccination_verification_solution/
    $ pip install -r requirements.txt
    

  4. Stellen Sie die Anwendung mithilfe von bereit cdk deploy Befehl:
    cdk deploy DemoQueries --outputs-file demo_queries.json --require-approval never

    Warten Sie, bis das AWS CDK das Modell bereitstellt und die in der Vorlage genannten Ressourcen erstellt.

  5. Wenn die Bereitstellung abgeschlossen ist, können Sie die bereitgestellten Ressourcen auf überprüfen AWS CloudFormation Konsole auf der Downloads Registerkarte der Stack-Detailseite.

Testen Sie die Lösung

Jetzt ist es an der Zeit, die Lösung zu testen. Um den Workflow auszulösen, verwenden Sie aws s3 cp um das hochzuladen vac_card.jpg Datei auf DemoQueries.DocumentUploadLocation im docs-Ordner:

aws s3 cp docs/vac_card.JPG $(aws cloudformation list-exports --query 'Exports[?Name==`DemoQueries-DocumentUploadLocation`].Value' --output text)


Die Impfzertifikatsdatei wird automatisch in den S3-Bucket hochgeladen demoqueries-textractxxx im Upload-Ordner.

Der Step Functions-Workflow wird über eine Lambda-Funktion angestoßen, sobald die Impfpassdatei in den S3-Bucket hochgeladen wird.

Die Lambda-Funktion „Queries-Decider“ untersucht das Dokument und fügt Informationen über den Mime-Typ, die Anzahl der Seiten und die Anzahl der Abfragen zum Step Functions-Workflow hinzu (in diesem Beispiel verwenden wir vier Abfragen – Dokumentnummer, Kundenname, Datum von). Geburt und Impfstatus).

Das TextractSync Die Funktion sendet die Eingabeabfragen an Amazon Textract und gibt synchron das vollständige Ergebnis als Teil der Antwort zurück. Es unterstützt einseitige Dokumente (TIFF, PDF, JPG, PNG) und bis zu 1 Abfragen. Der GenerateCsvTask Die Funktion übernimmt die JSON-Ausgabe von Amazon Textract und konvertiert sie in eine CSV-Datei.

Die endgültige Ausgabe wird im selben S3-Bucket im Ordner „csv-output“ wie eine CSV-Datei gespeichert.

Sie können die Datei mit dem folgenden Befehl auf Ihren lokalen Computer herunterladen:

aws s3 cp <paste the S3 URL from TextractOutputCSVPath>

Das Format des Ergebnisses ist timestamp, classification, filename, page number, key name, key_confidence, value, value_confidence, key_bb_top, key_bb_height, key_bb.width, key_bb_left, value_bb_top, value_bb_height, value_bb_width, value_bb_left.

Sie können die Lösung auf Hunderte von Impfbescheinigungsdokumenten für mehrere Kunden skalieren, indem Sie deren Impfbescheinigungen auf hochladen DemoQueries.DocumentUploadLocation. Dadurch werden automatisch mehrere Ausführungen der Step Functions-Zustandsmaschine ausgelöst, und das Endergebnis wird im selben S3-Bucket im Ordner „csv-output“ gespeichert.

Um den anfänglichen Satz von Abfragen zu ändern, die in Amazon Textract eingespeist werden, können Sie zu Ihrer AWS Cloud9-Instanz gehen und die Datei start_execution.py öffnen. Navigieren Sie in der Dateiansicht im linken Bereich zu Lambda, start_queries, app, start_execution.py. Diese Lambda-Funktion wird aufgerufen, wenn eine Datei hochgeladen wird DemoQueries.DocumentUploadLocation. Die an den Workflow gesendeten Abfragen werden in definiert start_execution.py; Sie können diese ändern, indem Sie den Code aktualisieren, wie im folgenden Screenshot gezeigt.

Aufräumen

Um laufende Kosten zu vermeiden, löschen Sie die in diesem Beitrag erstellten Ressourcen mit dem folgenden Befehl:

cdk destroy DemoQueries

Beantworte die Frage Are you sure you want to delete: DemoQueries (y/n)? mit y.

Zusammenfassung

In diesem Beitrag haben wir Ihnen gezeigt, wie Sie Amazon Textract Queries verwenden, um eine Impfüberprüfungslösung für die Reisebranche zu erstellen. Sie können Amazon Textract Queries verwenden, um Lösungen in anderen Branchen wie dem Finanz- und Gesundheitswesen zu erstellen und Informationen aus Dokumenten wie Gehaltsabrechnungen, Hypothekenbriefen und Versicherungskarten basierend auf Fragen in natürlicher Sprache abzurufen.

Für weitere Informationen, siehe Dokumente analysieren, oder schauen Sie sich die Amazon Textract-Konsole an und probieren Sie diese Funktion aus.


Über die Autoren

Dhiraj Thakur ist ein Lösungsarchitekt bei Amazon Web Services. Er arbeitet mit AWS-Kunden und -Partnern zusammen, um Anleitungen zur Einführung, Migration und Strategie von Unternehmens-Clouds zu geben. Er liebt Technologie und baut und experimentiert gerne im Bereich Analytics und AI / ML.

Rishabh Yadav ist Partnerlösungsarchitekt bei AWS mit umfassendem Hintergrundwissen zu DevOps und Sicherheitsangeboten bei AWS. Er arbeitet mit ASEAN-Partnern zusammen, um durch die Implementierung des Well-Architected Framework Leitlinien für die Einführung von Unternehmens-Clouds und Architekturüberprüfungen bereitzustellen und AWS-Praktiken zu entwickeln. Außerhalb der Arbeit verbringt er seine Zeit gerne im Sportbereich und beim FPS-Gaming.

spot_img

Neueste Intelligenz

spot_img