Λογότυπο Zephyrnet

Πώς να αυτοματοποιήσετε την εξαγωγή δεδομένων και να ψηφιοποιήσετε τις διαδικασίες σας βάσει εγγράφων;

Ημερομηνία:

Πώς να αυτοματοποιήσετε την εξαγωγή δεδομένων και να ψηφιοποιήσετε τις διαδικασίες σας βάσει εγγράφων;

Η Εξαγωγή Χειροκίνητων Δεδομένων εξακολουθεί να είναι κάτι το 2021;

Τη στιγμή που διάβασα τον τίτλο της ανάρτησης του ιστολογίου, η πρώτη ερώτηση που ξεκίνησε στο μυαλό μου ήταν: «Η μη αυτόματη εισαγωγή δεδομένων εξακολουθεί να είναι κάτι το 2021; Λίγη έρευνα και με εξέπληξε ευχάριστα το μέγεθος του προβλήματος. Πολλοί οργανισμοί εξακολουθούν να βασίζονται στη μη αυτόματη εισαγωγή δεδομένων. Οι περισσότεροι από αυτούς δεν επενδύουν στη δημιουργία ενός αυτοματοποιημένου αγωγού εξαγωγής δεδομένων επειδή η μη αυτόματη εισαγωγή δεδομένων είναι εξαιρετικά φθηνή και απαιτεί σχεδόν μηδενική εμπειρία. Ωστόσο, σύμφωνα με το Goldman Sachs του 2018 αναφέρουν, το άμεσο και έμμεσο κόστος της μη αυτόματης εισαγωγής δεδομένων ανέρχεται σε περίπου 2.7 τρισεκατομμύρια δολάρια για παγκόσμιες επιχειρήσεις.

Μια πιθανή περίπτωση χρήσης για έναν αυτοματοποιημένο αγωγό εξαγωγής δεδομένων ήταν κατά τη διάρκεια της πανδημίας COVID-19. Πολλά δεδομένα όπως ο αριθμός των ατόμων που δοκιμάστηκαν, οι αναφορές δοκιμών κάθε ατόμου κ.λπ. έπρεπε να εισαχθούν χειροκίνητα σε μια βάση δεδομένων. Η αυτοματοποίηση της διαδικασίας θα είχε εξοικονομήσει πολύ χρόνο και εργατικό δυναμικό.

ΣΧΕΔΙΑ ΕΓΧΕΙΡΙΔΙΟ ΕΚΧΥΛΙΣΗΣ ΔΕΔΟΜΕΝΩΝ:

  1. Σφάλματα: Κατά την εκτέλεση μιας κουραστικής και επαναλαμβανόμενης εργασίας όπως η μη αυτόματη εισαγωγή δεδομένων, τα σφάλματα αναγκάζονται να εισέλθουν. Ο εντοπισμός και η διόρθωση αυτών των σφαλμάτων σε μεταγενέστερο στάδιο ενδέχεται να αποδειχθεί δαπανηρή υπόθεση.
  2. Αργή διαδικασία: Σε σύγκριση με την αυτόματη εξαγωγή δεδομένων, η μη αυτόματη εισαγωγή δεδομένων είναι μια εξαιρετικά αργή διαδικασία και θα μπορούσε να σταματήσει ολόκληρο τον αγωγό παραγωγής.
  3. Ασφάλεια δεδομένων: Όταν ασχολείστε με ευαίσθητα δεδομένα, μια μη αυτόματη διαδικασία εισαγωγής δεδομένων μπορεί να οδηγήσει σε διαρροές δεδομένων που θα μπορούσαν με τη σειρά τους να θέσουν σε κίνδυνο το σύστημα.

Αντιμετωπίζετε προβλήματα μη αυτόματης εξαγωγής δεδομένων; Θέλετε να κάνετε τη διαδικασία εξαγωγής δεδομένων του οργανισμού σας αποτελεσματική; Προχωρήστε προς Νανοδίκτυα και δείτε μόνοι σας τον τρόπο αυτόματης εξαγωγής δεδομένων από έγγραφα.


ΤΜΗΜΑ 1: Ο ΠΙΝΑΚΑΣ ΔΕΔΟΜΕΝΩΝ

Για να ξεπεραστούν τα προαναφερθέντα μειονεκτήματα, σχεδόν όλοι οι μεγάλοι οργανισμοί πρέπει να δημιουργήσουν έναν αγωγό δεδομένων. Τα κύρια στοιχεία οποιουδήποτε αγωγού δεδομένων περιγράφονται κατάλληλα από το ακρωνύμιο ETL (Extract, Transform, Load). Η εξαγωγή δεδομένων περιλαμβάνει την εξαγωγή δεδομένων από διάφορες πηγές, το στάδιο μετατροπής δεδομένων στοχεύει στη μετατροπή αυτών των δεδομένων σε συγκεκριμένη μορφή και η φόρτωση δεδομένων αναφέρεται στη διαδικασία αποθήκευσης αυτών των δεδομένων σε αποθήκη δεδομένων.

Πώς να αυτοματοποιήσετε την εξαγωγή δεδομένων και να ψηφιοποιήσετε τις διαδικασίες σας βάσει εγγράφων;
Σχήμα 1. Η διαδικασία ETL

Όντας το πρώτο στάδιο της προετοιμασίας, η εξαγωγή δεδομένων παίζει καθοριστικό ρόλο σε κάθε οργανισμό. Αυτή η ανάρτηση διερευνά τις διάφορες μεθόδους και εργαλεία που μπορούν να χρησιμοποιηθούν για την εξαγωγή δεδομένων και πώς μπορεί να χρησιμοποιηθεί η Οπτική Αναγνώριση Χαρακτήρων (OCR) για αυτήν την εργασία.

ΤΜΗΜΑ 2: ΕΚΧΥΛΙΣΗ ΑΥΤΟΜΑΤΩΝ ΔΕΔΟΜΕΝΩΝ:

Σχεδόν όλες οι σύγχρονες αναλύσεις δεδομένων απαιτούν μεγάλες ποσότητες δεδομένων για να έχουν καλή απόδοση. Για παράδειγμα: Οποιοσδήποτε οργανισμός θα ήθελε να παρακολουθεί την απόδοση των ανταγωνιστών του, τις γενικές τάσεις της αγοράς, τις κριτικές και τις αντιδράσεις των πελατών κ.λπ. Ένας τρόπος να γίνει αυτό είναι να κάνουν χρήση του εργαλεία εξαγωγής δεδομένων που μπορεί να αποκόψει τον ιστό και να ανακτήσει δεδομένα από διάφορες πηγές. Η ακόλουθη ενότητα επισημαίνει μερικά δημοφιλή εργαλεία εξαγωγής δεδομένων από το ράφι.

2.1: ΕΡΓΑΛΕΙΑ ΕΚΧΥΛΙΣΗΣ ΔΕΔΟΜΕΝΩΝ
1) Ξυστό: Το Scrapy είναι ένα πρόγραμμα ανίχνευσης ιστού ανοιχτού κώδικα γραμμένο σε python. Ας δούμε ένα απλό παράδειγμα που δείχνει πώς ακόμη και ένας πλήρης αρχάριος μπορεί να αποκόψει τον ιστό χρησιμοποιώντας το Scrapy. Στο ακόλουθο παράδειγμα, έχω χρησιμοποιήσει το Scrapy για να αναλύσω τον τίτλο της σελίδας blog Nanonets.

Πώς να αυτοματοποιήσετε την εξαγωγή δεδομένων και να ψηφιοποιήσετε τις διαδικασίες σας βάσει εγγράφων;
Εικ. 2. Ο τίτλος της σελίδας blog Nanonets αναλύθηκε χρησιμοποιώντας το Scrapy

Αν και χρησιμοποίησα το κέλυφος Scrapy για την ανάλυση, η ίδια συμπεριφορά θα μπορούσε να επιτευχθεί χρησιμοποιώντας ένα σενάριο python.

Πώς να αυτοματοποιήσετε την εξαγωγή δεδομένων και να ψηφιοποιήσετε τις διαδικασίες σας βάσει εγγράφων;
Εικ. 3. Τίτλος της σελίδας ιστολογίου Nanonets που αναλύεται από το Scrapy

Το εργαλείο είναι εξαιρετικά διαισθητικό και τα στοιχεία από οποιαδήποτε σελίδα HTML μπορούν να αναλυθούν χρησιμοποιώντας CSS. Το μόνο μειονέκτημα του εργαλείου από την άποψη ενός αρχάριου ήταν ότι η ανάλυση δυναμικών ιστοσελίδων ήταν αρκετά δύσκολη.

2) Το Octoparse, το Outwit hub, το Parsehub κ.λπ. είναι άλλα εργαλεία ανοιχτού κώδικα που παρέχουν ένα διαισθητικό GUI για το web scraping.

Εκτός από αυτά τα εργαλεία ανοιχτού κώδικα υπάρχουν εταιρείες που είναι αφιερωμένες στην εκτέλεση εξαγωγής δεδομένων. Μικροί οργανισμοί που δεν έχουν τους πόρους για τη δημιουργία προσαρμοσμένων αγωγών εξαγωγής δεδομένων μπορούν να αναθέσουν τη διαδικασία εξαγωγής δεδομένων χρησιμοποιώντας αυτούς τους υπηρεσίες εξαγωγής δεδομένων.

2.2: ΤΕΧΝΙΚΕΣ ΕΚΧΥΛΙΣΗΣ ΔΕΔΟΜΕΝΩΝ

Το διάγραμμα ροής που δίνεται παρακάτω παρέχει μια σύντομη εξήγηση σχετικά με μερικές τεχνικές εξαγωγής δεδομένων.

Πώς να αυτοματοποιήσετε την εξαγωγή δεδομένων και να ψηφιοποιήσετε τις διαδικασίες σας βάσει εγγράφων;
Διάγραμμα ροής 1. Τεχνικές εξαγωγής δεδομένων

Οι ακόλουθες ενότητες διερευνούν τη χρήση της Αναγνώρισης Οπτικών Χαρακτήρων (OCR) για την εκτέλεση της εργασίας της εξαγωγής δεδομένων.


Αντιμετωπίζετε προβλήματα μη αυτόματης εξαγωγής δεδομένων; Θέλετε να κάνετε τη διαδικασία εξαγωγής δεδομένων του οργανισμού σας αποτελεσματική; Προχωρήστε προς Νανοδίκτυα και δείτε μόνοι σας πώς μπορεί να αυτοματοποιηθεί η εξαγωγή δεδομένων από έγγραφα.


ΤΜΗΜΑ 3: ΑΥΤΟΜΑΤΗ ΕΚΧΥΛΙΣΗ ΔΕΔΟΜΕΝΩΝ ΜΕ ΧΡΗΣΗ OCR:

Η οπτική αναγνώριση χαρακτήρων (OCR) είναι μια τεχνολογία που προσδιορίζει χαρακτήρες από έντυπο ή χειρόγραφο υλικό. Με τη δημιουργία ενός αγωγού εξαγωγής δεδομένων χρησιμοποιώντας OCR, οι οργανισμοί μπορούν να αυτοματοποιήσουν τη διαδικασία εξαγωγής και αποθήκευσης δεδομένων.

Η ΚΑΡΔΙΑ ΟΠΟΙΑΔΗΠΟΤΕ ΣΥΣΤΗΜΑ OCR:

Τα σύγχρονα εργαλεία OCR διαθέτουν μια σειρά από προεπεξεργασία δεδομένων (αφαίρεση θορύβου, δυαδικοποίηση, τμηματοποίηση γραμμών) και βήματα μετά την επεξεργασία. Ωστόσο, στον πυρήνα οποιουδήποτε συστήματος OCR βρίσκεται δύο βασικά στοιχεία:

  1. Εξαγωγέας χαρακτηριστικών και
  2. Ένας ταξινομητής
Πώς να αυτοματοποιήσετε την εξαγωγή δεδομένων και να ψηφιοποιήσετε τις διαδικασίες σας βάσει εγγράφων;
Σχήμα 4

Ο εξολκέας χαρακτηριστικών εξάγει χαρακτηριστικά που αντιστοιχούν σε κάθε lexeme (χαρακτήρας / λέξη). Αυτά τα εξαγόμενα χαρακτηριστικά τροφοδοτούνται ως είσοδοι στον ταξινομητή που καθορίζει την πιθανότητα του lexeme να ανήκει σε μια συγκεκριμένη κατηγορία.

ΠΑΡΑΔΟΣΙΑΚΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ ΓΙΑ ΤΗ ΛΥΣΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ OCR:

  1. Αντιστοίχιση προτύπου: Συλλέγονται και αποθηκεύονται ένα σύνολο προτύπων (εικόνες κάθε χαρακτήρα του αλφαβήτου). Στη συνέχεια, κάθε χαρακτήρας της εικόνας εισαγωγής αντιστοιχεί σε αυτήν τη συλλογή προτύπων. Κάθε σύγκριση συσχετίζεται με ένα μέτρο ομοιότητας χρησιμοποιώντας το οποίο προσδιορίζονται οι καλύτεροι δυνατοί αγώνες.
Πώς να αυτοματοποιήσετε την εξαγωγή δεδομένων και να ψηφιοποιήσετε τις διαδικασίες σας βάσει εγγράφων;
Εικ. 5. Λίστα προτύπων για το αγγλικό αλφάβητο (Πηγή: https://www.google.com/url?sa=i&url=https%3A%2F%2Fwww.slideshare.net%2FVj84529%2Focr-color&psig=AOvVaw0u4z1m4DwYNIFQEFKlQLqH&ust=1613545352470000&source=images&cd=vfe&ved=0CAIQjRxqFwoTCKiG8Ijr7e4CFQAAAAAdAAAAABAD)

Μέθοδοι βάσει κανόνα: Σαν παιδιά μάθαμε να αναγνωρίζουμε τον χαρακτήρα «Η» ως δύο κάθετες γραμμές με οριζόντια γραμμή που τις συνδέει. Διαισθητικά αυτό προσπαθούν να επιτύχουν οι μέθοδοι που βασίζονται σε κανόνες. Ορισμένα δομικά χαρακτηριστικά εξάγονται από τις εικόνες εισόδου και ένα σύστημα βασισμένο σε κανόνες χρησιμοποιείται για την ταξινόμησή τους.

Εκτός από τις προαναφερθείσες προσεγγίσεις, έχουν αναπτυχθεί διάφορες άλλες μέθοδοι για την εκτέλεση OCR με βάση την παραδοσιακή όραση του υπολογιστή. Ωστόσο, σχεδόν όλα έχουν αντικατασταθεί ή συμπληρωθεί από το Deep Learning.
Τώρα που έχουμε μια ιδέα για το τι είναι το OCR και μερικές από τις παραδοσιακές προσεγγίσεις που χρησιμοποιούνται για την εκτέλεση του OCR, ας πάμε βαθύτερα…

Πώς να αυτοματοποιήσετε την εξαγωγή δεδομένων και να ψηφιοποιήσετε τις διαδικασίες σας βάσει εγγράφων;
(Πηγή: https://memegenerator.net/instance/57413687/inception-di-caprio-we-need-to-go-deeper)

ΤΜΗΜΑ 4: ΕΡΓΑΛΕΙΑ OCR

Ας ρίξουμε μια ματιά σε μερικά από τα δωρεάν εργαλεία ανοιχτού κώδικα αιχμής OCR:

  1. Tesseract: Το Tesseract αναπτύχθηκε αρχικά από την HP και κυκλοφόρησε ως λογισμικό ανοιχτού κώδικα το 2005. Έκτοτε, η ανάπτυξή του έχει αναληφθεί από την Google. Υπάρχουν πολλά σεμινάρια που εξηγούν όλες τις λεπτομέρειες του OCR και πώς μπορεί να χρησιμοποιηθεί. Το ακόλουθο ιστολόγιο στο Nanonets παρέχει μια ολοκληρωμένη ανασκόπηση του ίδιου https://nanonets.com/blog/ocr-with-tesseract/#introduction
  2. Ocropus: Το OCRopus είναι μια συλλογή εργαλείων που χρησιμοποιούνται για την εκτέλεση OCR σε εικόνες. Ο γενικός αγωγός του OCRopus περιέχει τρία κύρια μπλοκ όπως φαίνεται στο παρακάτω σχήμα.
Πώς να αυτοματοποιήσετε την εξαγωγή δεδομένων και να ψηφιοποιήσετε τις διαδικασίες σας βάσει εγγράφων;
Διάγραμμα ροής2. Γενικός αγωγός του OCRopus

Το OCRopus είναι ένας πλήρης κινητήρας GUI και μπορεί προαιρετικά να χρησιμοποιεί tesseract στο backend για εκτέλεση OCR.

3. Καλαμάρι OCR: Το Calamari OCR είναι ένα σχετικά νέο λογισμικό αναγνώρισης γραμμής που χρησιμοποιεί βαθιά νευρωνικά δίκτυα που εφαρμόζονται στο TensorFlow. Σε σύγκριση με το Tesseract και το OCRopus, το Calamari OCR έχει λίγες εξηγήσεις που περιγράφουν λεπτομερώς την αρχιτεκτονική του δικτύου και τις εσωτερικές λειτουργίες του. Αυτό φαίνεται σαν ένα καλό σημείο για να επισημοποιήσετε το πρόβλημα OCR και να το κοιτάξετε μέσα από τα μάτια του Calamari.

Ας υποθέσουμε ότι θέλουμε να κάνουμε αναγνώριση οπτικών χαρακτήρων στη λέξη «Ταχύτητα» χρησιμοποιώντας ένα Deep Neural Network (DNN). Ας υποθέσουμε επίσης ότι έχουμε δημιουργήσει ένα DNN χρησιμοποιώντας Convolutional Neural Nets (CNNs) και Long βραχυπρόθεσμη μνήμη (LSTM) για την εκτέλεση αυτής της εργασίας. Το δίκτυό μας προβλέπει πιθανότητες εξόδου που σχετίζονται με κάθε τάξη σε κάθε χρονικό βήμα.

Για παράδειγμα: Σε ένα ιδανικό σενάριο

Πώς να αυτοματοποιήσετε την εξαγωγή δεδομένων και να ψηφιοποιήσετε τις διαδικασίες σας βάσει εγγράφων;
Εικ. 6. Εισαγωγή εικόνας που τροφοδοτείται στο Νευρωνικό Δίκτυο

Πώς να αυτοματοποιήσετε την εξαγωγή δεδομένων και να ψηφιοποιήσετε τις διαδικασίες σας βάσει εγγράφων;
Εικ. 7. Η έξοδος (αν όλα πάνε καλά)

Ο παρακάτω πίνακας δείχνει τις πιθανές τιμές πιθανότητας που σχετίζονται με κάθε χρονικό βήμα.

T0

T1

T2

T3

T4

Ρ (α)

0.001

0.002

0.01

0.01

0.001

Ρ (β)

0.001

0.003

0.003

0.002

0.002

Ρ (γ)

0.005

0.005

0.002

0.001

0.001

Ρ (δ)

0.002

0.001

0.001

0.003

0.7

Ρ (ε)

0.001

0.002

0.7

0.8

0.002

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

Ρ (π)

0.003

0.8

0.002

0.004

0.001

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

ΥΣΤΕΡΟΓΡΑΦΟ)

0.7

0.008

0.002

0.001

0.007

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

   Πίνακας 1. Πιθανότητες που σχετίζονται με κάθε τάξη

Λαμβάνοντας τη μέγιστη πιθανότητα σε κάθε χρονικό βήμα, λαμβάνουμε την απαιτούμενη έξοδο, δηλαδή SPEED. Τι θα μπορούσε να πάει στραβά με αυτήν την προσέγγιση; Ας πάρουμε λίγο χρόνο για να σκεφτούμε μια υπόθεση που έχουμε κάνει στη συλλογιστική μας, δηλαδή την ευθυγράμμιση κάθε χρονικού βήματος.
Υποθέσαμε ότι κάθε χρονικό βήμα εμφανίζεται ακριβώς μεταξύ διαδοχικών αλφαβήτων. Η έξοδος θα ήταν πολύ διαφορετική εάν το νευρικό δίκτυο αποφασίσει να ευθυγραμμίσει τα βήματα όπως φαίνεται στο σχήμα 8.

Πώς να αυτοματοποιήσετε την εξαγωγή δεδομένων και να ψηφιοποιήσετε τις διαδικασίες σας βάσει εγγράφων;
Σχήμα 8. Χρονικά βήματα που δεν ευθυγραμμίζονται

Σε αυτό το σενάριο, το νευρικό δίκτυο μπορεί να προβλέψει το SSPPEEEEDD ως έξοδο. Δεύτερον, η προετοιμασία των δεδομένων εκπαίδευσης για το νευρικό δίκτυο μπορεί να αποδειχθεί εξαιρετικά κουραστική. Θα πρέπει να καθορίσουμε την ακριβή θέση των pixel από την οποία ξεκινά και τελειώνει κάθε αλφάβητο.

Αυτό που φαινόταν σαν ένα απλό έργο αποδεικνύεται εξαιρετικά απογοητευτικό. Το πρόβλημα των μη ευθυγραμμισμένων χρονικών βημάτων και του σχολιασμού των εκπαιδευτικών δεδομένων μπορεί να λυθεί εισάγοντας μια νέα λειτουργία απώλειας.

Συνδεδεμένη χρονική ταξινόμηση (CTC)

Πώς να αυτοματοποιήσετε την εξαγωγή δεδομένων και να ψηφιοποιήσετε τις διαδικασίες σας βάσει εγγράφων;
(Source:https://www.google.com/search?q=memeanimals.com+i+must+go+my+people+need+me&tbm=isch&source=iu&ictx=1&fir=C8adpx9pd63_pM%252C6SVZE5KvuruZIM%252C_&vet=1&usg=AI4_-kR44ME7ZPnrJBaiK3LJUtr-hYlyWw&sa=X&ved=2ahUKEwiiiZ2XqonvAhUkmeYKHQpbCgcQ9QF6BAgMEAE#imgrc=C8adpx9pd63_pM)

Το CTC μας βοηθά με τους ακόλουθους τρόπους:

  1. Χρησιμοποιώντας την απώλεια CTC, μπορούμε να εκπαιδεύσουμε το δίκτυο χωρίς να χρειάζεται να καθορίσουμε τη θέση κάθε pixel. Αυτό επιτυγχάνεται με την εισαγωγή ενός νέου χαρακτήρα «-». Το '-' χρησιμοποιείται για να δείξει ότι δεν εμφανίζεται χαρακτήρας σε μια δεδομένη χρονική στιγμή.
    Χρησιμοποιώντας αυτόν τον ειδικό χαρακτήρα '-', η αλήθεια εδάφους θα μπορούσε να τροποποιηθεί για να εξηγήσει όλες τις πιθανές θέσεις όπου η λέξη "ταχύτητα" εμφανίζεται στην εικόνα. Για παράδειγμα, η λέξη "ταχύτητα" θα μπορούσε να γραφτεί ως "- ταχύτητα", "- ταχύτητα -", "- ταχύτητα -", "ταχύτητα—". Ομοίως, δεδομένου ότι δεν ξέρουμε πόσος χώρος μπορεί να πάρει κάθε αλφάβητο, προσθέτουμε επαναλήψεις χαρακτήρων για να ληφθούν υπόψη τα διαφορετικά μήκη χαρακτήρων, δηλαδή η "ταχύτητα" μπορεί να γραφτεί ως "- ταχύτητα", "- ταχύτητα" και ούτω καθεξής.
    Στην περίπτωση των πραγματικών επαναλήψεων χαρακτήρων στην αλήθεια του εδάφους, πρέπει να προσθέσουμε ένα «-» μεταξύ των χαρακτήρων που επαναλαμβάνονται. Έτσι, η λέξη «ταχύτητα» μπορεί να κωδικοποιηθεί με τους ακόλουθους τρόπους: “—spe-ed”, “–spe-ed-”, “-spe-ed–”, “spe-ed–”, “–sspe-ed” Υπολογίζουμε το σκορ για κάθε πιθανή κωδικοποίηση και το άθροισμα όλων των επιμέρους βαθμολογιών μας δίνει την απώλεια για κάθε ζεύγος (εικόνα, αλήθεια εδάφους).
  2. Η χρήση του αποκωδικοποιητή CTC είναι πολύ απλούστερη. Ας πούμε ότι ο αποκωδικοποιητής εξάγει «ssppe-eee-dd. Μπορούμε απλώς να απορρίψουμε διπλότυπα, δηλαδή το "ssppe-eee-dd" γίνεται "spe-ed". Τέλος, αφαιρούμε τους χαρακτήρες '-' για να λάβουμε τη λέξη "ταχύτητα".

Βρήκα τους παρακάτω πόρους εξαιρετικά χρήσιμους όταν μαθαίνω για την απώλεια CTC.https://distill.pub/2017/ctc/        https://dl.acm.org/doi/abs/10.1145/1143844.1143891

Η εφαρμογή του δικτύου είναι απλή. Σύμφωνα με την εφημερίδα (https://arxiv.org/pdf/1807.02004.pdf), το προεπιλεγμένο δίκτυο έχει τις ακόλουθες προδιαγραφές:

Αρχιτεκτονική: Επίπεδο μετατροπής -> Μέγιστη συγκέντρωση -> Επίπεδο μετατροπής -> Μέγιστη συγκέντρωση -> LSTM.  

Απώλεια: Απώλεια CTC                                                                                                    

Βελτιστοποιητής: Ο Αδάμ με ποσοστό εκμάθησης 0.001

Φτου! Αυτή ήταν πολλή θεωρία. Ας λερώσουμε τα χέρια μας εφαρμόζοντας την αναγνώριση οπτικών χαρακτήρων χρησιμοποιώντας το Calamari.

Ξεκινώντας από τη σελίδα github Calamari https://github.com/Calamari-OCR/calamari είναι μια εύκολη εργασία και δεν είχα κανένα πρόβλημα κατά τη διαδικασία εγκατάστασης. Αποφάσισα να χρησιμοποιήσω ένα μοντέλο εκπαιδευμένο στο σύνολο δεδομένων uw3-modern-english. Το σχήμα 9 δείχνει την είσοδο που τροφοδοτείται στο δίκτυο και το σχήμα 10 δείχνει την αντίστοιχη έξοδο.

Πώς να αυτοματοποιήσετε την εξαγωγή δεδομένων και να ψηφιοποιήσετε τις διαδικασίες σας βάσει εγγράφων;
Εικ. 9. Εισαγωγή εικόνας στο Καλαμάρι
Πώς να αυτοματοποιήσετε την εξαγωγή δεδομένων και να ψηφιοποιήσετε τις διαδικασίες σας βάσει εγγράφων;
Εικ. 10. Έξοδος από το Calamari OCR

Η Calamari παρήγαγε την παραγωγή (Εικ. 10) με εμπιστοσύνη 97%. Λειτουργεί πολύ καλά στις περισσότερες περιπτώσεις και μπορεί εύκολα να ρυθμιστεί ανάλογα με τη συγκεκριμένη θήκη χρήσης σας.
ΣΗΜΕΊΩΣΗ: Το Calamari εκτελεί OCR σε μία γραμμή κειμένου κάθε φορά. Εάν θέλετε να εκτελέσετε OCR σε ένα ολόκληρο έγγραφο απαιτείται κάποια προεπεξεργασία (ανάλυση διάταξης, τμηματοποίηση γραμμών κ.λπ.) πριν από την τροφοδοσία της εικόνας στο Calamari.
Εκτός από τα προαναφερθέντα δωρεάν εργαλεία OCR ανοιχτού κώδικα, υπάρχουν πολλά εργαλεία επί πληρωμή όπως το Google cloud vision, το Microsoft Computer Vision API και το Amazon Textract.

Η επόμενη ενότητα μιλά για το πώς μπορεί να χρησιμοποιηθεί το OCR για την επίλυση πρακτικών προβλημάτων σε διάφορες βιομηχανίες και οργανισμούς.


Έχετε απαίτηση εξαγωγής δεδομένων; Προχωρήστε προς Νανοδίκτυα και δείτε πώς μπορείτε να αυτοματοποιήσετε την Εξαγωγή δεδομένων από έγγραφα όπως PDF, αποδείξεις, τιμολόγια, φόρμες και άλλα.


ΤΜΗΜΑ 5: ΠΡΑΚΤΙΚΕΣ ΠΕΡΙΠΤΩΣΕΙΣ ΧΡΗΣΗΣ ΕΚΧΥΛΙΣΗΣ ΔΕΔΟΜΕΝΩΝ ΜΕ ΧΡΗΣΗ OCR:

Χρησιμοποιώντας το γενικό αγωγό OCR που εμφανίζεται στο FlowChart3, μερικά από τα προβλήματα που μπορούν να επιλυθούν χρησιμοποιώντας το OCR παρουσιάζονται παρακάτω.

Πώς να αυτοματοποιήσετε την εξαγωγή δεδομένων και να ψηφιοποιήσετε τις διαδικασίες σας βάσει εγγράφων;
Διάγραμμα ροής 3. Αγωγός OCR

Τεχνικές εξαγωγής δεδομένων με βάση το OCR για τον τομέα υγειονομικής περίθαλψης

Το πρόβλημα: Από τότε που ήμουν μικρό παιδί, η ακόλουθη σειρά βημάτων θα γινόταν κάθε φορά που επισκέφτηκα το νοσοκομείο. Ο ρεσεψιονίστ θα ζητούσε πρώτα τον αριθμό ταυτότητάς μου. Στη συνέχεια θα βυθιστεί σε μια τεράστια στοίβα ημερολογίων που ταξινομήθηκαν με κάποιο τρόπο. Συνήθως, μετά από μια παρατεταμένη περίοδο αναζήτησης, θα έπαιρνα το ημερολόγιό μου και έναν αριθμό διακριτικού. Ο γιατρός θα εξέταζε την αιτία της ασθένειάς μου και θα έγραφε μια συνταγή στο ημερολόγιό μου. Μετά την παράδοση της συνταγής στο φαρμακείο, θα λάβω τα απαιτούμενα φάρμακα. Υποθέτω ότι αυτή είναι η ρουτίνα που ακολουθείται στα περισσότερα τοπικά νοσοκομεία της χώρας.

Λύση: Χρησιμοποιώντας τον αγωγό OCR, όλες οι πληροφορίες θα μπορούσαν να ψηφιοποιηθούν και να αποθηκευτούν σε μια βάση δεδομένων. Ένας απλός τρόπος για να εφαρμοστεί αυτό θα ήταν να παραδώσετε φόρμες σε κάθε ασθενή που σαρώνονται και τροφοδοτούνται στον αγωγό OCR. Τα πλεονεκτήματα αυτής της διαδικασίας είναι πολλά:

  1. Το ιατρικό ιστορικό των ασθενών μπορεί να αποθηκευτεί σε μια κοινή βάση δεδομένων στην οποία οι γιατροί μπορούν να έχουν πρόσβαση κατά βούληση. Αυτές οι πληροφορίες θα μπορούσαν να βοηθήσουν τον γιατρό να διαγνώσει την ασθένεια.
  2. Το νοσοκομείο θα μπορούσε να αναλύσει τα δεδομένα και να κατανείμει τους πόρους του αναλόγως. Για παράδειγμα: Εάν τα δεδομένα υποδεικνύουν ότι η γυναικολογία έχει μέγιστο αριθμό ασθενών, το νοσοκομείο μπορεί να επιλέξει να προσλάβει περισσότερους γιατρούς και νοσηλευτές σε αυτήν την ενότητα.

Πιθανές παγίδες:

  1. Όπως ίσως μαντέψατε, η αποκρυπτογράφηση συνταγών γιατρών με χρήση OCR δεν είναι μικρή πρόκληση. Ωστόσο, χρησιμοποιώντας δεδομένα εκπαίδευσης καλής ποιότητας μαζί με ορισμένες πληροφορίες για συγκεκριμένους τομείς (ονόματα γνωστών φαρμάκων) στο στάδιο μετά την επεξεργασία, η λύση μπορεί να γίνει ισχυρή στα περισσότερα λάθη.

Υπηρεσίες αυτόματης εξαγωγής δεδομένων που μπορούν να ωφελήσουν την κυβέρνηση

Το πρόβλημα:  Κατά τη διάρκεια του περασμένου έτους, η πανδημία COVID-19 έχει φέρει μαζί της μια σειρά προβλημάτων. Ήμουν αρκετά έκπληκτος που έμαθα ότι η μη αυτόματη εισαγωγή δεδομένων ήταν μία από αυτές. Όταν η πανδημία βρισκόταν στο αποκορύφωμά της, πραγματοποιήθηκαν καθημερινά εκατομμύρια δοκιμές και όλα τα αποτελέσματα έπρεπε να εισαχθούν χειροκίνητα σε μια βάση δεδομένων.

Λύση: Το OCR θα μπορούσε εύκολα να χρησιμοποιηθεί σε αυτό το σενάριο. Ένα σαρωμένο αντίγραφο της εργαστηριακής αναφοράς μπορεί να τροφοδοτηθεί στον αγωγό OCR. Για παράδειγμα, το Σχήμα 11 δείχνει την έκθεση δοκιμής που τροφοδοτείται ως είσοδος στον αγωγό και το Σχήμα 12 είναι το αντίστοιχο αποτέλεσμα.

Πώς να αυτοματοποιήσετε την εξαγωγή δεδομένων και να ψηφιοποιήσετε τις διαδικασίες σας βάσει εγγράφων;
Εικ. 11. Σαρωμένο αντίγραφο μιας αναφοράς δοκιμής COVID (https://www.lalpathlabs.com/SampleReports/N228.pdf)
Πώς να αυτοματοποιήσετε την εξαγωγή δεδομένων και να ψηφιοποιήσετε τις διαδικασίες σας βάσει εγγράφων;
Εικ. 12. Αποτέλεσμα του OCR στην έκθεση δοκιμής COVID

Το πρόβλημα θα μπορούσε να απλουστευθεί περαιτέρω με την επικέντρωση στα πεδία που είναι σημαντικά και αγνοώντας τα υπόλοιπα. Σε αυτήν την περίπτωση, το όνομα του ατόμου και το αποτέλεσμα του τεστ πρέπει να εξαχθούν αξιόπιστα. Δεδομένου ότι τα αποτελέσματα του τεστ είναι δυαδικά, δηλαδή αρνητικά ή θετικά, θα μπορούσαν να αντιστοιχιστούν χρησιμοποιώντας κανονικές εκφράσεις. Ομοίως, το πεδίο ονόματος θα μπορούσε να αντικατασταθεί από έναν μοναδικό αριθμό αναγνώρισης για να εξασφαλιστεί αξιόπιστη αναγνώριση χαρακτήρων.

Λογισμικό εξαγωγής δεδομένων βάσει OCR για αυτοματοποίηση τιμολογίων

ΤΟ ΠΡΟΒΛΗΜΑ: Βαθιά μέσα στην ενότητα λογαριασμών οποιουδήποτε οργανισμού βρίσκεται μια ομάδα ατόμων των οποίων η δουλειά είναι να εισάγει μη αυτόματα δεδομένα από τιμολόγια στη βάση δεδομένων της εταιρείας. Αυτή είναι μια εξαιρετικά επαναλαμβανόμενη και συνήθης εργασία που μπορεί να αυτοματοποιηθεί χάρη στον αγωγό OCR.

ΛΥΣΗ: Η εκτέλεση OCR στο δεδομένο τιμολόγιο μπορεί να αυτοματοποιήσει την εργασία της μη αυτόματης εισαγωγής δεδομένων. Έχει ήδη γίνει πολλή δουλειά σε αυτόν τον τομέα και η ανάπτυξη μιας ισχυρής λύσης εξαρτάται κυρίως από την αξιόπιστη εξαγωγή πινάκων και ποσών με ακρίβεια από το τιμολόγιο.

Τα ακόλουθα blogposts https://nanonets.com/blog/table-extraction-deep-learning/ και https://nanonets.com/blog/extract-structured-data-from-invoice/ παρέχει ολοκληρωμένες εξηγήσεις για το ίδιο.

ΤΜΗΜΑ 6: ΝΕΟΤΕΡΑ ΕΡΕΥΝΑ:

  1. ScrabbleGAN: Δημιουργία χειρόγραφου κειμένου ημι-εποπτευόμενου μήκους μεταβλητού μήκους(https://arxiv.org/abs/2003.10557) (CVPR-2020):

Αυτό το άρθρο αντιμετωπίζει το πρόβλημα της χειρόγραφης αναγνώρισης κειμένου (HTR). Παρόλο που τα σύγχρονα εργαλεία OCR αποδίδουν καλά σε έντυπο κείμενο, η αναγνώριση χειρόγραφου κειμένου εξακολουθεί να είναι ένα αναπτυσσόμενο πεδίο. Οι συγγραφείς αποδίδουν αυτό το κενό στην έλλειψη εκπαιδευτικών δεδομένων, δηλαδή στην έλλειψη σχολιασμένου χειρόγραφου κειμένου. Οι συγγραφείς προτείνουν ένα DNN που μπορεί να δημιουργήσει χειρόγραφες εικόνες διαφορετικών στυλ.

Πώς να αυτοματοποιήσετε την εξαγωγή δεδομένων και να ψηφιοποιήσετε τις διαδικασίες σας βάσει εγγράφων;
Εικ. 13. Αρχιτεκτονική του ScrabbleGAN

Το Σχ. 13. Απεικονίζει την αρχιτεκτονική του ScrabbleGAN. Η γεννήτρια δημιουργεί συνθετικές εικόνες που τροφοδοτούνται σε αναγνωριστικό εκτός από το διακριτικό. Ο διαχωριστής αναγκάζει τη γεννήτρια να δημιουργήσει εικόνες με πραγματική εμφάνιση, ενώ ο αναγνωριστής διασφαλίζει ότι δημιουργούνται σημαντικές λέξεις από τη γεννήτρια.

Πώς να αυτοματοποιήσετε την εξαγωγή δεδομένων και να ψηφιοποιήσετε τις διαδικασίες σας βάσει εγγράφων;
Εικ. 14. Διαφορετικά στυλ της λέξης "supercalifragilisticexpialidocious"

Το δίκτυο εκπαιδεύεται με ημι-εποπτευόμενο τρόπο και δύο μετρήσεις, δηλαδή το Word Error Rate (WER) και η κανονικοποιημένη απόσταση επεξεργασίας (NED) χρησιμοποιούνται για αξιολόγηση.

2. OrigamiNet: OrigamiNet: Αδύνατη επίβλεψη, Χωρίς τμηματοποίηση, Ένα βήμα, Αναγνώριση κειμένου πλήρους σελίδας μαθαίνοντας να ξεδιπλώνεται (https://arxiv.org/abs/2006.07491) (CVPR-2020):

Οι πρώτες αρχιτεκτονικές OCR προσπάθησαν να τμηματοποιήσουν κάθε χαρακτήρα από την εικόνα εισαγωγής και να ταξινομήσουν κάθε τμηματοποιημένο χαρακτήρα. Αυτό προχώρησε σε προσεγγίσεις χωρίς τμηματοποίηση όπου μια ολόκληρη λέξη ήταν τμηματοποιημένη και ταξινομημένη. Σήμερα, οι περισσότερες υπερσύγχρονες προσεγγίσεις λειτουργούν σε μια ολόκληρη σειρά κειμένου.

Σε αυτό το άρθρο, οι συγγραφείς προτείνουν ένα απλό σύνολο λειτουργιών που επιτρέπουν την εκτέλεση του OCR σε ολόκληρη τη σελίδα σε μία μόνο κίνηση προς τα εμπρός μέσω του δικτύου. Ο κύριος περιορισμός στην εκτέλεση OCR σε ολόκληρη τη σελίδα είναι ότι η λειτουργία απώλειας CTC απαιτεί την είσοδο να είναι 1D. Αυτό απεικονίζεται σαφώς στο Σχήμα 15, όπου η είσοδος γίνεται δειγματοληψία και μετατρέπεται σε 1D πριν από το στάδιο υπολογισμού της απώλειας.

Πώς να αυτοματοποιήσετε την εξαγωγή δεδομένων και να ψηφιοποιήσετε τις διαδικασίες σας βάσει εγγράφων;
Εικ. 15. Ένα πλήρως συνελικτικό αναγνωριστικό μιας γραμμής

Δεδομένου ότι τα CNN αποδίδουν καλά σε εργασίες όπως η μετάφραση εικόνας σε εικόνα, οι συγγραφείς χρησιμοποιούν ένα CNN για να μάθουν τον μετασχηματισμό 2D σε 1D. Ο χάρτης δυνατοτήτων από το γενικό πλήρως συνελικτικό νευρωνικό δίκτυο γίνεται δειγματοληπτικά κάθετα και κάτω δείγματα οριζόντια σε δύο διαδοχικά στάδια πριν από την εκτέλεση της ομαδοποίησης.

Πώς να αυτοματοποιήσετε την εξαγωγή δεδομένων και να ψηφιοποιήσετε τις διαδικασίες σας βάσει εγγράφων;
Εικ. 16. Γενικό CNN που χρησιμοποιείται για την εκτέλεση OCR σε μία γραμμή κειμένου που έχει αυξηθεί με πρόσθετα στάδια για την εκτέλεση αναγνώρισης πολλαπλών γραμμών

Ο τελικός χάρτης με ψηλά χαρακτηριστικά περιέχει όλες τις γραμμές κειμένου από την εικόνα εισαγωγής. Οι συγγραφείς υποστηρίζουν ότι η παροχή επαρκούς χωρικής χωρητικότητας στο μοντέλο του επιτρέπει να μάθει εύκολα τον απαιτούμενο μετασχηματισμό 2D σε 1D.
Οι συγγραφείς αξιολογούν τη δουλειά τους χρησιμοποιώντας τυπικά CNN όπως ResNet, VGG και GTR

ΣΎΝΑΨΗ:

Σε αυτήν την ανάρτηση εξετάσαμε λεπτομερώς την εξαγωγή δεδομένων και πώς μπορεί να χρησιμοποιηθεί η οπτική αναγνώριση χαρακτήρων για την επίλυση αυτού του προβλήματος. Η Ενότητα 1 περιέχει μια σύντομη εισαγωγή του προβλήματος εξαγωγής δεδομένων. Στην Ενότητα 2 ρίξαμε μια ματιά σε ορισμένα εργαλεία και τεχνικές εξαγωγής δεδομένων. Το Τμήμα 3 έδωσε μια επισκόπηση του προβλήματος OCR και μερικές από τις παραδοσιακές μεθόδους που χρησιμοποιούνται για την επίλυσή του. Στην Ενότητα 4 διερευνήσαμε μερικά δημοφιλή εργαλεία ανοιχτού κώδικα που χρησιμοποιήθηκαν για την εκτέλεση OCR και κατανοήσαμε τη λειτουργία απώλειας CTC. Το Τμήμα 5 περιέχει πολλές πρακτικές περιπτώσεις χρήσης όπου το OCR μπορεί να χρησιμοποιηθεί για την επίλυση του προβλήματος εξαγωγής δεδομένων. Τέλος, εξετάσαμε την τρέχουσα έρευνα της τελευταίας τεχνολογίας στον τομέα του OCR.

Ξεκινήστε να χρησιμοποιείτε Nanonets για Αυτοματισμό

Δοκιμάστε το μοντέλο ή ζητήστε επίδειξη σήμερα!

ΠΡΟΣΠΑΘΗΣΤΕ ΤΩΡΑ

Πώς να αυτοματοποιήσετε την εξαγωγή δεδομένων και να ψηφιοποιήσετε τις διαδικασίες σας βάσει εγγράφων;

Πηγή: https://nanonets.com/blog/automating-data-extraction-and-digitizing-document-based-processes/

spot_img

Τελευταία Νοημοσύνη

spot_img