Λογότυπο Zephyrnet

Δημιουργήστε μια λύση επαλήθευσης εμβολιασμού χρησιμοποιώντας τη λειτουργία Queries στο Amazon Textract | Υπηρεσίες Ιστού της Amazon

Ημερομηνία:

Textract Amazon είναι μια υπηρεσία μηχανικής εκμάθησης (ML) που επιτρέπει την αυτόματη εξαγωγή κειμένου, χειρογράφου και δεδομένων από σαρωμένα έγγραφα, ξεπερνώντας την παραδοσιακή οπτική αναγνώριση χαρακτήρων (OCR). Μπορεί να αναγνωρίσει, να κατανοήσει και να εξάγει δεδομένα από πίνακες και φόρμες με αξιοσημείωτη ακρίβεια. Επί του παρόντος, αρκετές εταιρείες βασίζονται σε μεθόδους χειροκίνητης εξαγωγής ή βασικό λογισμικό OCR, το οποίο είναι κουραστικό και χρονοβόρο και απαιτεί χειροκίνητη διαμόρφωση που χρειάζεται ενημέρωση όταν αλλάζει η φόρμα. Το Amazon Textract βοηθά στην επίλυση αυτών των προκλήσεων χρησιμοποιώντας την ML για την αυτόματη επεξεργασία διαφορετικών τύπων εγγράφων και την ακριβή εξαγωγή πληροφοριών με ελάχιστη μη αυτόματη παρέμβαση. Αυτό σας δίνει τη δυνατότητα να αυτοματοποιήσετε την επεξεργασία εγγράφων και να χρησιμοποιήσετε τα εξαγόμενα δεδομένα για διαφορετικούς σκοπούς, όπως η αυτοματοποίηση της επεξεργασίας δανείων ή η συλλογή πληροφοριών από τιμολόγια και αποδείξεις.

Καθώς τα ταξίδια ξαναρχίζουν μετά την πανδημία, η επαλήθευση της κατάστασης εμβολιασμού ενός ταξιδιώτη μπορεί να απαιτείται σε πολλές περιπτώσεις. Τα ξενοδοχεία και τα ταξιδιωτικά γραφεία συχνά χρειάζεται να ελέγχουν τις κάρτες εμβολιασμού για να συγκεντρώσουν σημαντικές λεπτομέρειες όπως αν ο ταξιδιώτης είναι πλήρως εμβολιασμένος, ημερομηνίες εμβολιασμού και το όνομα του ταξιδιώτη. Ορισμένα πρακτορεία το κάνουν αυτό μέσω της μη αυτόματης επαλήθευσης των καρτών, η οποία μπορεί να είναι χρονοβόρα για το προσωπικό και αφήνει περιθώρια για ανθρώπινο λάθος. Άλλοι έχουν δημιουργήσει προσαρμοσμένες λύσεις, αλλά αυτές μπορεί να είναι δαπανηρές και δύσκολο να κλιμακωθούν και να χρειαστούν σημαντικό χρόνο για να εφαρμοστούν. Προχωρώντας προς τα εμπρός, ενδέχεται να υπάρξουν ευκαιρίες για τον εξορθολογισμό της διαδικασίας επαλήθευσης της κατάστασης εμβολιασμού με τρόπο που να είναι αποτελεσματικός για τις επιχειρήσεις, με σεβασμό του απορρήτου και της ευκολίας των ταξιδιωτών.

Ερωτήματα κειμένου Amazon βοηθά στην αντιμετώπιση αυτών των προκλήσεων. Τα ερωτήματα κειμένου Amazon σάς επιτρέπουν να καθορίσετε και να εξαγάγετε μόνο τις πληροφορίες που χρειάζεστε από το έγγραφο. Σας δίνει ακριβείς και ακριβείς πληροφορίες από το έγγραφο.

Σε αυτήν την ανάρτηση, σας καθοδηγούμε σε έναν οδηγό εφαρμογής βήμα προς βήμα για να δημιουργήσετε μια λύση επαλήθευσης κατάστασης εμβολιασμού χρησιμοποιώντας ερωτήματα κειμένου Amazon. Η λύση παρουσιάζει πώς να επεξεργάζεστε τις κάρτες εμβολιασμού χρησιμοποιώντας ένα ερώτημα Amazon Textract, να επαληθεύετε την κατάσταση εμβολιασμού και να αποθηκεύετε τις πληροφορίες για μελλοντική χρήση.

Επισκόπηση λύσεων

Το παρακάτω διάγραμμα απεικονίζει την αρχιτεκτονική λύσεων.

Η ροή εργασίας περιλαμβάνει τα ακόλουθα βήματα:

  1. Ο χρήστης φωτογραφίζει μια κάρτα εμβολιασμού.
  2. Η εικόνα μεταφορτώνεται σε ένα Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) κάδος.
  3. Όταν η εικόνα αποθηκεύεται στον κάδο S3, καλεί ένα Λειτουργίες βημάτων AWS ροή εργασιών:
  4. The Queries-Decider AWS Lambda Η συνάρτηση εξετάζει το έγγραφο που διαβιβάστηκε και προσθέτει πληροφορίες σχετικά με τον τύπο mime, τον αριθμό των σελίδων και τον αριθμό των ερωτημάτων στη ροή εργασίας Βήμα Λειτουργίες (για το παράδειγμά μας, έχουμε τέσσερα ερωτήματα).
  5. NumberQueriesAndPagesChoice είναι μια κατάσταση επιλογής που προσθέτει λογική υπό όρους σε μια ροή εργασίας. Εάν υπάρχουν μεταξύ 15-31 ερωτήματα και ο αριθμός των σελίδων είναι μεταξύ 2 και 3,001, τότε η ασύγχρονη επεξεργασία του Amazon Textract είναι η μόνη επιλογή, επειδή τα σύγχρονα API υποστηρίζουν μόνο έως και 15 ερωτήματα και έγγραφα μιας σελίδας. Για όλες τις άλλες περιπτώσεις, δρομολογούμε στην τυχαία επιλογή σύγχρονης ή ασύγχρονης επεξεργασίας.
  6. Η TextractSync Η συνάρτηση Lambda στέλνει ένα αίτημα στο Amazon Textract για ανάλυση του εγγράφου με βάση τα ακόλουθα ερωτήματα Amazon Textract:
    1. Τι είναι η κατάσταση εμβολιασμού;
    2. Τι είναι όνομα?
    3. Τι είναι η Ημερομηνία Γέννησης;
    4. Τι είναι ο αριθμός εγγράφου;
  7. Το Amazon Textract αναλύει την εικόνα και στέλνει τις απαντήσεις αυτών των ερωτημάτων πίσω στη συνάρτηση Lambda.
  8. Η λειτουργία Lambda επαληθεύει την κατάσταση εμβολιασμού του πελάτη και αποθηκεύει το τελικό αποτέλεσμα σε μορφή CSV στον ίδιο κάδο S3 (demoqueries-textractxxx) στο csv-output φάκελο.

Προϋποθέσεις

Για να ολοκληρώσετε αυτήν τη λύση, θα πρέπει να έχετε έναν λογαριασμό AWS και τα κατάλληλα δικαιώματα για τη δημιουργία των πόρων που απαιτούνται ως μέρος της λύσης.

Κατεβάστε τον κωδικό ανάπτυξης και το δείγμα της κάρτας εμβολιασμού από GitHub.

Χρησιμοποιήστε τη δυνατότητα ερωτημάτων στην κονσόλα Amazon Textract

Πριν δημιουργήσετε τη λύση επαλήθευσης εμβολιασμού, ας διερευνήσουμε πώς μπορείτε να χρησιμοποιήσετε τα ερωτήματα Amazon Textract για να εξαγάγετε την κατάσταση εμβολιασμού μέσω της κονσόλας Amazon Textract. Μπορείτε να χρησιμοποιήσετε το δείγμα της κάρτας εμβολιασμού που κατεβάσατε από το αποθετήριο GitHub.

  1. Στην κονσόλα Amazon Textract, επιλέξτε Αναλύστε το έγγραφο στο παράθυρο πλοήγησης.
  2. Κάτω από Μεταφόρτωση εγγράφου, επιλέξτε Επιλέξτε έγγραφο για να ανεβάσετε την κάρτα εμβολιασμού από την τοπική μονάδα δίσκου σας.
  3. Αφού ανεβάσετε το έγγραφο, επιλέξτε Ερωτήματα στο Διαμόρφωση εγγράφου τμήμα.
  4. Στη συνέχεια, μπορείτε να προσθέσετε ερωτήματα με τη μορφή ερωτήσεων φυσικής γλώσσας. Ας προσθέσουμε τα εξής:
    • Τι είναι η κατάσταση εμβολιασμού;
    • Τι είναι όνομα?
    • Τι είναι η Ημερομηνία Γέννησης;
    • Τι είναι ο αριθμός εγγράφου;
  5. Αφού προσθέσετε όλα τα ερωτήματά σας, επιλέξτε Εφαρμογή διαμόρφωσης.
  6. Ελέγξτε τα ερωτήματα καρτέλα για να δείτε τις απαντήσεις στις ερωτήσεις.

Μπορείτε να δείτε το Amazon Textract να εξάγει την απάντηση στο ερώτημά σας από το έγγραφο.

Αναπτύξτε τη λύση επαλήθευσης εμβολιασμού

Σε αυτήν την ανάρτηση, χρησιμοποιούμε ένα AWS Cloud9 παράδειγμα και εγκαταστήστε τις απαραίτητες εξαρτήσεις στην παρουσία με το Κιτ ανάπτυξης AWS Cloud (AWS CDK) και Docker. Το AWS Cloud9 είναι ένα ολοκληρωμένο περιβάλλον ανάπτυξης (IDE) που βασίζεται σε σύννεφο που σας επιτρέπει να γράφετε, να εκτελείτε και να διορθώνετε τον κώδικά σας μόνο με ένα πρόγραμμα περιήγησης.

  1. Στο τερματικό, επιλέξτε Ανεβάστε τοπικά αρχεία σχετικά με την Αρχεία μενού.
  2. Επιλέξτε Επιλογή φακέλου Και επιλέξτε το vaccination_verification_solution φάκελο που κατεβάσατε από το GitHub.
  3. Στο τερματικό, προετοιμάστε την εφαρμογή χωρίς διακομιστή για τα επόμενα βήματα στη ροή εργασιών ανάπτυξης Μοντέλο εφαρμογής χωρίς διακομιστή AWS (AWS SAM) χρησιμοποιώντας την ακόλουθη εντολή:
    $ cd vaccination_verification_solution/
    $ pip install -r requirements.txt
    

  4. Αναπτύξτε την εφαρμογή χρησιμοποιώντας το cdk deploy εντολή:
    cdk deploy DemoQueries --outputs-file demo_queries.json --require-approval never

    Περιμένετε μέχρι το AWS CDK να αναπτύξει το μοντέλο και να δημιουργήσετε τους πόρους που αναφέρονται στο πρότυπο.

  5. Όταν ολοκληρωθεί η ανάπτυξη, μπορείτε να ελέγξετε τους πόρους που έχουν αναπτυχθεί στο AWS CloudFormation κονσόλα στο Υποστηρικτικό υλικό καρτέλα της σελίδας λεπτομερειών στοίβας.

Δοκιμάστε τη λύση

Τώρα ήρθε η ώρα να δοκιμάσετε τη λύση. Για να ενεργοποιήσετε τη ροή εργασίας, χρησιμοποιήστε aws s3 cp για να ανεβάσετε το vac_card.jpg αρχείο στο DemoQueries.DocumentUploadLocation μέσα στο φάκελο των εγγράφων:

aws s3 cp docs/vac_card.JPG $(aws cloudformation list-exports --query 'Exports[?Name==`DemoQueries-DocumentUploadLocation`].Value' --output text)


Το αρχείο του πιστοποιητικού εμβολιασμού μεταφορτώνεται αυτόματα στον κάδο S3 demoqueries-textractxxx στο φάκελο μεταφορτώσεις.

Η ροή εργασιών Step Functions ενεργοποιείται μέσω μιας συνάρτησης Lambda μόλις το αρχείο του πιστοποιητικού εμβολιασμού μεταφορτωθεί στον κάδο S3.

Η συνάρτηση Queries-Decider Lambda εξετάζει το έγγραφο και προσθέτει πληροφορίες σχετικά με τον τύπο mime, τον αριθμό των σελίδων και τον αριθμό των ερωτημάτων στη ροή εργασίας Step Functions (για αυτό το παράδειγμα, χρησιμοποιούμε τέσσερα ερωτήματα—αριθμός εγγράφου, όνομα πελάτη, ημερομηνία κατάσταση γέννησης και εμβολιασμού).

Η TextractSync Η συνάρτηση στέλνει τα ερωτήματα εισόδου στο Amazon Textract και επιστρέφει συγχρονισμένα το πλήρες αποτέλεσμα ως μέρος της απάντησης. Υποστηρίζει έγγραφα 1 σελίδας (TIFF, PDF, JPG, PNG) και έως και 15 ερωτήματα. ο GenerateCsvTask Η συνάρτηση παίρνει την έξοδο JSON από το Amazon Textract και τη μετατρέπει σε αρχείο CSV.

Η τελική έξοδος αποθηκεύεται στον ίδιο κάδο S3 στον φάκελο csv-output ως αρχείο CSV.

Μπορείτε να κάνετε λήψη του αρχείου στον τοπικό σας υπολογιστή χρησιμοποιώντας την ακόλουθη εντολή:

aws s3 cp <paste the S3 URL from TextractOutputCSVPath>

Η μορφή του αποτελέσματος είναι timestamp, classification, filename, page number, key name, key_confidence, value, value_confidence, key_bb_top, key_bb_height, key_bb.width, key_bb_left, value_bb_top, value_bb_height, value_bb_width, value_bb_left.

Μπορείτε να προσαρμόσετε τη λύση σε εκατοντάδες έγγραφα πιστοποιητικού εμβολιασμού για πολλούς πελάτες, ανεβάζοντας τα πιστοποιητικά εμβολιασμού τους στο DemoQueries.DocumentUploadLocation. Αυτό ενεργοποιεί αυτόματα πολλαπλές εκτελέσεις του μηχανήματος κατάστασης Step Functions και το τελικό αποτέλεσμα αποθηκεύεται στον ίδιο κάδο S3 στο φάκελο csv-output.

Για να αλλάξετε το αρχικό σύνολο ερωτημάτων που τροφοδοτούνται στο Amazon Textract, μπορείτε να μεταβείτε στην παρουσία σας στο AWS Cloud9 και να ανοίξετε το αρχείο start_execution.py. Στην προβολή αρχείου στο αριστερό παράθυρο, μεταβείτε στο λάμδα, start_queries, app, start_execution.py. Αυτή η συνάρτηση Lambda καλείται όταν γίνεται αποστολή ενός αρχείου στο DemoQueries.DocumentUploadLocation. Τα ερωτήματα που αποστέλλονται στη ροή εργασίας ορίζονται στο start_execution.py; μπορείτε να τα αλλάξετε ενημερώνοντας τον κώδικα όπως φαίνεται στο παρακάτω στιγμιότυπο οθόνης.

εκκαθάριση

Για να αποφύγετε τις τρέχουσες χρεώσεις, διαγράψτε τους πόρους που δημιουργήθηκαν σε αυτήν την ανάρτηση χρησιμοποιώντας την ακόλουθη εντολή:

cdk destroy DemoQueries

Απάντησε την ερώτηση Are you sure you want to delete: DemoQueries (y/n)? με y.

Συμπέρασμα

Σε αυτήν την ανάρτηση, σας δείξαμε πώς να χρησιμοποιείτε τα ερωτήματα κειμένου Amazon για να δημιουργήσετε μια λύση επαλήθευσης εμβολιασμού για την ταξιδιωτική βιομηχανία. Μπορείτε να χρησιμοποιήσετε τα ερωτήματα κειμένου Amazon για να δημιουργήσετε λύσεις σε άλλους κλάδους, όπως η χρηματοδότηση και η υγειονομική περίθαλψη, και να ανακτήσετε πληροφορίες από έγγραφα όπως αποδείξεις πληρωμής, σημειώσεις υποθήκης και κάρτες ασφάλισης που βασίζονται σε ερωτήσεις φυσικής γλώσσας.

Για περισσότερες πληροφορίες, δείτε Ανάλυση Εγγράφων, ή ρίξτε μια ματιά στην κονσόλα Amazon Textract και δοκιμάστε αυτήν τη δυνατότητα.


Σχετικά με τους Συγγραφείς

Dhiraj Thakur είναι αρχιτέκτονας λύσεων με τις υπηρεσίες Web της Amazon. Συνεργάζεται με πελάτες και συνεργάτες της AWS για να παρέχει καθοδήγηση σχετικά με την υιοθέτηση, τη μετανάστευση και τη στρατηγική εταιρικού cloud. Είναι παθιασμένος με την τεχνολογία και του αρέσει να χτίζει και να πειραματίζεται στον χώρο ανάλυσης και AI/ML.

Rishabh Yadav είναι αρχιτέκτονας λύσεων συνεργατών στο AWS με εκτεταμένο υπόβαθρο σε DevOps και προσφορές ασφάλειας στο AWS. Συνεργάζεται με τους εταίρους του ASEAN για να παρέχει καθοδήγηση σχετικά με την υιοθέτηση εταιρικού cloud και τις αξιολογήσεις αρχιτεκτονικής, καθώς και την κατασκευή πρακτικών AWS μέσω της εφαρμογής του Well-Architected Framework. Εκτός δουλειάς, του αρέσει να περνάει τον χρόνο του στον αθλητικό χώρο και στα παιχνίδια FPS.

spot_img

Τελευταία Νοημοσύνη

spot_img