Logo Zéphyrnet

Comment automatiser l'extraction de données et numériser vos processus documentaires?

Date :

Comment automatiser l'extraction de données et numériser vos processus documentaires?

L'extraction manuelle de données est-elle toujours une chose en 2021?

Au moment où j'ai lu le titre du billet de blog, la première question qui m'est venue à l'esprit était: «La saisie manuelle des données est-elle encore une chose en 2021?». Un peu de recherche et j'ai été agréablement surpris par l'ampleur du problème. De nombreuses organisations comptent encore sur la saisie manuelle des données. La plupart d'entre eux n'investissent pas dans la mise en place d'un pipeline d'extraction de données automatisé car la saisie manuelle des données est extrêmement bon marché et ne nécessite pratiquement aucune expertise. Cependant, selon un Goldman Sachs 2018 rapport, les coûts directs et indirects de la saisie manuelle des données s'élèvent à environ 2.7 billions de dollars pour les entreprises mondiales.

Un cas d'utilisation potentiel pour un pipeline d'extraction de données automatisé était pendant la pandémie COVID-19. De nombreuses données telles que le nombre de personnes testées, les rapports de test de chaque individu, etc. ont dû être saisies manuellement dans une base de données. L'automatisation du processus aurait permis d'économiser beaucoup de temps et de main-d'œuvre.

DESSINS D'EXTRACTION MANUELLE DES DONNÉES:

  1. Les erreurs: Lors de l'exécution d'une tâche fastidieuse et répétitive telle que la saisie manuelle des données, des erreurs sont vouées à s'infiltrer. Identifier et corriger ces erreurs à un stade ultérieur peut s'avérer une affaire coûteuse.
  2. Processus lent: Par rapport à l'extraction automatisée des données, la saisie manuelle des données est un processus extrêmement lent et pourrait bloquer l'ensemble du pipeline de production.
  3. Sécurité des données: Lorsqu'il s'agit de données sensibles, un processus de saisie manuelle des données peut entraîner des fuites de données qui pourraient à leur tour compromettre le système.

Êtes-vous confronté à des problèmes d'extraction manuelle de données? Vous voulez rendre le processus d'extraction de données de votre organisation efficace? Dirigez-vous vers nanonets et voyez par vous-même comment l'extraction de données à partir de documents peut être automatisée.


SECTION 1: LE PIPELINE DE DONNÉES

Pour surmonter les inconvénients mentionnés ci-dessus, presque toutes les grandes entreprises doivent créer un pipeline de données. Les principaux composants de tout pipeline de données sont correctement décrits par l'acronyme ETL (Extract, Transform, Load). L'extraction de données consiste à extraire des données à partir de diverses sources, l'étape de transformation des données vise à convertir ces données dans un format spécifique et le chargement de données fait référence au processus de stockage de ces données dans un entrepôt de données.

Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 1. Le processus ETL

Étant la première étape du pipeline, l'extraction de données joue un rôle crucial dans toute organisation. Cet article explore les différentes méthodes et outils qui peuvent être utilisés pour effectuer l'extraction de données et comment la reconnaissance optique de caractères (OCR) peut être utilisée pour cette tâche.

SECTION 2: EXTRACTION AUTOMATIQUE DES DONNÉES:

Presque toutes les analyses de données modernes nécessitent de grandes quantités de données pour fonctionner correctement. Par exemple: toute organisation souhaiterait garder un œil sur les performances de ses concurrents, les tendances générales du marché, les avis et réactions des clients, etc. Une façon de le faire est d'utiliser outils d'extraction de données qui peuvent gratter le Web et récupérer des données à partir de diverses sources. La section suivante met en évidence quelques outils d'extraction de données prêts à l'emploi.

2.1: OUTILS D'EXTRACTION DE DONNÉES
1) Scrubby : Scrapy est un robot d'exploration Web open source écrit en python. Passons en revue un exemple simple qui illustre comment même un novice complet peut gratter le Web en utilisant Scrapy. Dans l'exemple suivant, j'ai utilisé Scrapy pour analyser le titre de la page de blog Nanonets.

Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 2. Titre de la page de blog Nanonets analysée à l'aide de Scrapy

Bien que j'aie utilisé le shell Scrapy à des fins d'analyse, le même comportement pourrait être obtenu en utilisant un script python.

Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 3: Titre de la page de blog Nanonets analysée par Scrapy

L'outil est extrêmement intuitif et les éléments de n'importe quelle page HTML peuvent être analysés à l'aide de CSS. Le seul inconvénient de l'outil du point de vue d'un débutant était que l'analyse des pages Web dynamiques était assez difficile.

2) Octoparse, Outwit hub, Parsehub, etc. sont d'autres outils open source qui fournissent une interface graphique intuitive pour le scraping Web.

Outre ces outils open source, il existe des entreprises qui se consacrent à l'extraction de données. Les petites organisations qui ne disposent pas des ressources nécessaires pour créer des pipelines d'extraction de données personnalisés peuvent externaliser le processus d'extraction de données en utilisant ces services d'extraction de données.

2.2: TECHNIQUES D'EXTRACTION DE DONNÉES

L'organigramme ci-dessous fournit une brève explication de quelques techniques d'extraction de données.

Comment automatiser l'extraction de données et numériser vos processus documentaires?
Organigramme 1. Techniques d'extraction de données

Les sections suivantes explorent l'utilisation de la reconnaissance optique de caractères (OCR) pour effectuer la tâche d'extraction de données.


Êtes-vous confronté à des problèmes d'extraction manuelle de données? Vous voulez rendre le processus d'extraction de données de votre organisation efficace? Dirigez-vous vers nanonets et voyez par vous-même comment l'extraction de données à partir de documents peut être automatisée.


SECTION 3: EXTRACTION AUTOMATIQUE DES DONNÉES À L'AIDE DE L'OCR:

La reconnaissance optique de caractères (OCR) est une technologie qui identifie les caractères à partir de documents imprimés ou manuscrits. En configurant un pipeline d'extraction de données à l'aide de l'OCR, les organisations peuvent automatiser le processus d'extraction et de stockage des données.

LE CŒUR DE TOUT SYSTÈME OCR:

Les outils OCR modernes sont livrés avec un éventail d'étapes de prétraitement des données (suppression du bruit, binarisation, segmentation de ligne) et de post-traitement. Cependant, au cœur de tout système OCR se trouvent deux composants majeurs:

  1. Un extracteur de fonctionnalités et
  2. Un classificateur
Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 4

L'extracteur de fonctionnalités extrait les fonctionnalités correspondant à chaque lexème (caractère / mot). Ces caractéristiques extraites sont fournies en tant qu'entrées au classificateur qui détermine la probabilité que le lexème appartienne à une classe spécifique.

APPROCHES TRADITIONNELLES POUR RÉSOUDRE LE PROBLÈME OCR:

  1. Correspondance des modèles: Un ensemble de modèles (images de chaque caractère de l'alphabet) sont collectés et stockés. Chaque caractère de l'image d'entrée est ensuite comparé à cette collection de modèles. Chaque comparaison est associée à une mesure de similarité à l'aide de laquelle les meilleures correspondances possibles sont identifiées.
Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 5. Liste des modèles pour l'alphabet anglais (Source: https://www.google.com/url?sa=i&url=https%3A%2F%2Fwww.slideshare.net%2FVj84529%2Focr-color&psig=AOvVaw0u4z1m4DwYNIFQEFKlQLqH&ust=1613545352470000&source=images&cd=vfe&ved=0CAIQjRxqFwoTCKiG8Ijr7e4CFQAAAAAdAAAAABAD)

Méthodes basées sur des règles: En tant qu'enfants, on nous a appris à reconnaître le caractère «H» comme deux lignes verticales reliées par une ligne horizontale. C'est intuitivement ce que les méthodes basées sur des règles tentent d'atteindre. Certaines caractéristiques structurelles sont extraites des images d'entrée et un système basé sur des règles est utilisé pour les classer.

Outre les approches mentionnées ci-dessus, diverses autres méthodes ont été développées pour effectuer l'OCR sur la base de la vision par ordinateur traditionnelle. Cependant, presque tous ont été remplacés ou complétés par Deep Learning.
Maintenant que nous avons une idée de ce qu'est l'OCR et de certaines des approches traditionnelles utilisées pour effectuer l'OCR, allons plus loin ...

Comment automatiser l'extraction de données et numériser vos processus documentaires?
(Source : https://memegenerator.net/instance/57413687/inception-di-caprio-we-need-to-go-deeper)

SECTION 4: OUTILS OCR

Examinons quelques-uns des outils OCR gratuits et open source de pointe:

  1. Tesseract : Tesseract a été initialement développé par HP et a été lancé en tant que logiciel open source en 2005. Depuis lors, son développement a été repris par Google. Il existe de nombreux tutoriels expliquant tous les détails de tesseract OCR et comment il peut être utilisé. Le blog suivant sur Nanonets fournit un examen complet de la même https://nanonets.com/blog/ocr-with-tesseract/#introduction
  2. OCRopus : OCRopus est une collection d'outils utilisés pour effectuer l'OCR sur des images. Le pipeline général d'OCRopus contient trois blocs principaux, comme illustré dans la figure ci-dessous.
Comment automatiser l'extraction de données et numériser vos processus documentaires?
Organigramme 2. Pipeline général d'OCRopus

OCRopus est un moteur d'interface graphique complet et peut éventuellement utiliser tesseract dans le backend pour effectuer l'OCR.

3. OCR Calamars: Calamari OCR est un logiciel de reconnaissance de ligne relativement nouveau qui utilise des réseaux de neurones profonds implémentés dans TensorFlow. Comparé à Tesseract et OCRopus, Calamari OCR a peu d'explications détaillant son architecture de réseau et son fonctionnement interne. Cela semble être un bon point pour formaliser le problème de l'OCR et l'examiner à travers les yeux de Calamari.

Supposons que nous souhaitons effectuer une reconnaissance optique de caractères sur le mot «vitesse» en utilisant un réseau neuronal profond (DNN). Supposons également que nous ayons créé un DNN à l'aide de réseaux de neurones convolutifs (CNN) et de mémoire à long terme (LSTM) pour effectuer cette tâche. Notre réseau prédit les probabilités de sortie associées à chaque classe à chaque pas de temps.

Par exemple: dans un scénario idéal

Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 6. Image d'entrée envoyée au réseau neuronal

Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 7. La sortie (si tout se passe bien)

Le tableau ci-dessous montre les valeurs de probabilité possibles associées à chaque pas de temps.

T0

T1

T2

T3

T4

Pennsylvanie)

0.001

0.002

0.01

0.01

0.001

P (b)

0.001

0.003

0.003

0.002

0.002

P (c)

0.005

0.005

0.002

0.001

0.001

P (d)

0.002

0.001

0.001

0.003

0.7

P (e)

0.001

0.002

0.7

0.8

0.002

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

P (p)

0.003

0.8

0.002

0.004

0.001

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

P (s)

0.7

0.008

0.002

0.001

0.007

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

   Tableau 1. Probabilités associées à chaque classe

En prenant la probabilité maximale sous chaque pas de temps, nous obtenons la sortie requise, c'est-à-dire SPEED. Qu'est-ce qui pourrait mal tourner avec cette approche? Prenons un moment pour réfléchir à une hypothèse que nous avons faite dans notre raisonnement à savoir l'alignement de chaque pas de temps.
Nous avons supposé que chaque pas de temps se produit exactement entre les alphabets successifs. La sortie aurait été très différente si le réseau neuronal décidait d'aligner les pas de temps comme le montre la figure 8.

Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 8. Pas de temps mal alignés

Dans ce scénario, le réseau neuronal peut prédire SSPPEEEEDD comme sortie. Deuxièmement, la préparation des données d'entraînement pour le réseau neuronal peut s'avérer extrêmement fastidieuse. Nous aurions besoin de spécifier l'emplacement exact du pixel auquel chaque alphabet commence et se termine.

Ce qui semblait être une tâche simple se révèle extrêmement frustrant. Le problème des pas de temps mal alignés et de l'annotation des données d'apprentissage peut être résolu en introduisant une nouvelle fonction de perte.

Classification temporelle connexionniste (CTC)

Comment automatiser l'extraction de données et numériser vos processus documentaires?
(Source:https://www.google.com/search?q=memeanimals.com+i+must+go+my+people+need+me&tbm=isch&source=iu&ictx=1&fir=C8adpx9pd63_pM%252C6SVZE5KvuruZIM%252C_&vet=1&usg=AI4_-kR44ME7ZPnrJBaiK3LJUtr-hYlyWw&sa=X&ved=2ahUKEwiiiZ2XqonvAhUkmeYKHQpbCgcQ9QF6BAgMEAE#imgrc=C8adpx9pd63_pM)

CTC nous aide des manières suivantes:

  1. En utilisant la perte CTC, nous pouvons entraîner le réseau sans avoir à spécifier la position par pixel de chaque alphabet. Ceci est réalisé en introduisant un nouveau caractère «-». «-» est utilisé pour indiquer qu'aucun caractère n'est vu à un pas de temps donné.
    En utilisant ce caractère spécial «-», la vérité terrain pourrait être modifiée pour tenir compte de toutes les positions possibles où le mot «vitesse» apparaît dans l'image. Par exemple, le mot «vitesse» pourrait s'écrire «—speed», «–speed-», «-speed–», «speed—». De même, puisque nous ne savons pas combien d'espace chaque alphabet peut prendre, nous ajoutons des répétitions de caractères pour tenir compte des différentes longueurs de caractères, c'est-à-dire que «speed» peut s'écrire «—sspeed», «—ssspeed», etc.
    Dans le cas de répétitions de caractères réels dans la vérité terrain, nous devons ajouter un «-» entre les caractères qui sont répétés. Ainsi, le mot «speed» peut être encodé de la manière suivante: «—spe-ed», «–spe-ed-», «-spe-ed–», «spe-ed–», «–sspe-ed» , etc. Nous calculons le score pour chaque encodage possible et la somme de tous les scores individuels nous donne la perte pour chaque paire (image, vérité terrain).
  2. L'utilisation du décodeur CTC est beaucoup plus simple. Disons que le décodeur émet «ssppe-eee-dd. Nous pouvons simplement éliminer les doublons, c'est-à-dire que «ssppe-eee-dd» devient «spe-ed». Enfin, nous supprimons les caractères «-» pour obtenir le mot «vitesse».

J'ai trouvé les ressources suivantes extrêmement utiles pour en savoir plus sur la perte de CTC.https://distill.pub/2017/ctc/        https://dl.acm.org/doi/abs/10.1145/1143844.1143891

La mise en œuvre du réseau est simple. Selon l'article (https://arxiv.org/pdf/1807.02004.pdf), le réseau par défaut a les spécifications suivantes:

Archi Couche de convection -> Max-Pooling -> Couche de convection -> Max Pooling -> LSTM.  

Perte: Perte de CTC                                                                                                    

Optimiseur: Adam avec un taux d'apprentissage de 0.001

Phew! C'était beaucoup de théorie. Mettons la main à la pâte en implémentant la reconnaissance optique des caractères à l'aide de Calamari.

Démarrer à partir de la page github Calamari https://github.com/Calamari-OCR/calamari est une tâche facile et je n'ai eu aucun problème pendant le processus d'installation. J'ai décidé d'utiliser un modèle formé sur le jeu de données uw3-modern-english. La figure 9 montre l'entrée fournie au réseau et la figure 10 montre la sortie correspondante.

Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 9. Image d'entrée dans Calamari
Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 10. Sortie de Calamari OCR

Les calamars ont produit la sortie (Fig 10) avec une confiance de 97%. Il fonctionne très bien dans la plupart des cas et peut facilement être ajusté en fonction de votre cas d'utilisation spécifique.
REMARQUE: Calamari effectue l'OCR sur une seule ligne de texte à la fois. Si vous souhaitez effectuer l'OCR sur un document entier, un prétraitement (analyse de mise en page, segmentation de ligne, etc.) est nécessaire avant d'alimenter l'image vers Calamari.
Outre les outils OCR open source gratuits mentionnés ci-dessus, il existe plusieurs outils payants tels que Google Cloud Vision, Microsoft Computer Vision API et Amazon Textract.

La section suivante explique comment l'OCR peut être utilisée pour résoudre des problèmes pratiques dans diverses industries et organisations.


Avez-vous une exigence d'extraction de données? Dirigez-vous vers nanonets et découvrez comment vous pouvez automatiser l'extraction de données à partir de documents tels que des PDF, des reçus, des factures, des formulaires, etc.


SECTION 5: CAS D'UTILISATION PRATIQUE D'EXTRACTION DE DONNÉES À L'AIDE DE L'OCR:

En utilisant le pipeline OCR générique présenté dans FlowChart3, certains des problèmes qui peuvent être résolus à l'aide de l'OCR sont expliqués ci-dessous.

Comment automatiser l'extraction de données et numériser vos processus documentaires?
Organigramme 3. Pipeline OCR

Techniques d'extraction de données basées sur l'OCR pour le secteur de la santé

Le problème: Depuis que je suis un petit garçon, la séquence d'étapes suivante était exécutée chaque fois que je visitais l'hôpital. La réceptionniste demandait d'abord mon numéro d'identification. Elle plongeait ensuite dans une énorme pile de journaux qui étaient triés d'une manière ou d'une autre. Habituellement, après une longue période de recherche, j'obtenais mon journal et un numéro symbolique. Le médecin examinait la cause de ma maladie et notait une ordonnance dans mon journal. En remettant l'ordonnance à la pharmacie, je recevais les médicaments nécessaires. Je suppose que c'est la routine suivie dans la plupart des hôpitaux locaux du pays.

Solution: Grâce à notre pipeline OCR, toutes les informations peuvent être numérisées et stockées dans une base de données. Un moyen simple de mettre en œuvre ceci serait de remettre des formulaires à chaque patient qui sont scannés et introduits dans le pipeline OCR. Les avantages de cette opération sont multiples:

  1. Les antécédents médicaux des patients peuvent être stockés dans une base de données commune à laquelle les médecins peuvent accéder à leur gré. Cette information pourrait aider le médecin à diagnostiquer la maladie.
  2. L'hôpital pourrait analyser les données et affecter ses ressources en conséquence. Par exemple: si les données indiquent que la section de gynécologie a un nombre maximum de patients, l'hôpital peut choisir d'employer plus de médecins et d'infirmières dans cette section.

Pièges potentiels:

  1. Comme vous l'avez peut-être deviné, déchiffrer les ordonnances des médecins à l'aide de l'OCR n'est pas un mince défi. Cependant, en utilisant des données de formation de bonne qualité avec certaines informations spécifiques au domaine (noms de médicaments bien connus) dans l'étape de post-traitement, la solution peut être rendue robuste à la plupart des erreurs.

Services d'extraction de données automatisés qui peuvent profiter au gouvernement

Le problème:  Au cours de l'année écoulée, la pandémie de COVID-19 a entraîné une série de problèmes. J'ai été assez surpris d'apprendre que la saisie manuelle des données en faisait partie. Lorsque la pandémie était à son apogée, des milliers de tests étaient effectués chaque jour et tous les résultats devaient être saisis manuellement dans une base de données.

Solution: L'OCR aurait pu être facilement utilisé dans ce scénario. Une copie numérisée du rapport de laboratoire peut être introduite dans le pipeline OCR. Par exemple, la figure 11 montre le rapport de test qui est fourni en tant qu'entrée au pipeline et la figure 12 est le résultat correspondant.

Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 11. Copie numérisée d'un rapport de test COVID (https://www.lalpathlabs.com/SampleReports/N228.pdf)
Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 12. Résultat de l'OCR sur le rapport de test COVID

Le problème pourrait être encore simplifié en se concentrant sur les domaines importants et en ignorant le reste. Dans ce cas, le nom de l'individu et le résultat du test doivent être extraits de manière fiable. Puisque les résultats du test sont binaires, c'est-à-dire négatifs ou positifs, ils pourraient être mis en correspondance à l'aide d'expressions régulières. De même, le champ du nom pourrait être remplacé par un numéro d'identification unique pour garantir une reconnaissance fiable des caractères.

Logiciel d'extraction de données basé sur l'OCR pour l'automatisation des factures

LE PROBLÈME: Au plus profond de la section des comptes de toute organisation se trouve un groupe de personnes dont le travail consiste à saisir manuellement les données des factures dans la base de données de l'entreprise. Il s'agit d'une tâche très répétitive et banale qui peut être automatisée grâce à notre pipeline OCR.

SOLUTION: L'exécution de l'OCR sur la facture donnée peut automatiser la tâche de saisie manuelle des données. Beaucoup de travail a déjà été fait dans ce domaine et le développement d'une solution robuste repose principalement sur l'extraction fiable des tableaux et des montants avec précision de la facture.

Les articles de blog suivants https://nanonets.com/blog/table-extraction-deep-learning/ et https://nanonets.com/blog/extract-structured-data-from-invoice/ fournir des explications détaillées sur la même chose.

SECTION 6: LA DERNIÈRE RECHERCHE:

  1. ScrabbleGAN: Génération de texte manuscrit semi-supervisé de longueur variable(https://arxiv.org/abs/2003.10557) (CVPR-2020):

Cet article aborde le problème de la reconnaissance de texte manuscrit (HTR). Bien que les outils OCR de pointe fonctionnent bien sur le texte imprimé, la reconnaissance de texte manuscrit est encore un domaine en développement. Les auteurs attribuent cet écart au manque de données de formation, c'est-à-dire au manque de texte manuscrit annoté. Les auteurs proposent un DNN qui peut générer des images manuscrites de styles variés.

Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 13. Architecture de ScrabbleGAN

Fig 13. Illustre l'architecture de ScrabbleGAN. Le générateur génère des images synthétiques qui sont transmises à un dispositif de reconnaissance en plus du discriminateur. Le discriminateur force le générateur à générer des images réelles tandis que le dispositif de reconnaissance s'assure que des mots significatifs sont générés par le générateur.

Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 14. Différents styles du mot «supercalifragilisticexpialidocious»

Le réseau est formé de manière semi-supervisée et deux métriques à savoir le taux d'erreur de mot (WER) et la distance d'édition normalisée (NED) sont utilisées pour l'évaluation.

2. OrigamiNet: OrigamiNet: Reconnaissance de texte pleine page faiblement supervisée, sans segmentation, en une seule étape en apprenant à se déplier (https://arxiv.org/abs/2006.07491) (CVPR-2020):

Les toutes premières architectures OCR ont tenté de segmenter chaque caractère de l'image d'entrée et de classer chaque caractère segmenté. Cela a évolué vers des approches sans segmentation où un mot entier a été segmenté et classé. Aujourd'hui, la plupart des approches de pointe fonctionnent sur une ligne entière de texte.

Dans cet article, les auteurs proposent un ensemble simple d'opérations qui permettent de réaliser l'OCR sur une page entière en un seul passage à travers le réseau. La principale contrainte dans l'exécution de l'OCR sur une page entière est que la fonction de perte CTC nécessite que l'entrée soit 1D. Ceci est clairement illustré sur la figure 15, où l'entrée est sous-échantillonnée et convertie en 1D avant l'étape de calcul de la perte.

Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 15. Un outil de reconnaissance de ligne unique entièrement convolutif

Étant donné que les CNN fonctionnent bien sur des tâches telles que la traduction d'image en image, les auteurs utilisent un CNN pour apprendre la transformation 2D en 1D. La carte des caractéristiques du réseau neuronal générique entièrement convolutif est suréchantillonnée verticalement et sous-échantillonnée horizontalement en deux étapes successives avant que l'opération de mise en commun ne soit effectuée.

Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 16. CNN générique utilisé pour effectuer l'OCR sur une seule ligne de texte augmenté d'étapes supplémentaires pour effectuer la reconnaissance multiligne

La dernière carte des caractéristiques haute contient toutes les lignes de texte de l'image d'entrée. Les auteurs soutiennent que fournir au modèle une capacité spatiale suffisante lui permet d'apprendre facilement la transformation 2D en 1D requise.
Les auteurs évaluent leur travail en utilisant des CNN standards tels que ResNet, VGG et GTR

CONCLUSION:

Dans cet article, nous avons examiné l'extraction de données en détail et comment la reconnaissance optique de caractères peut être utilisée pour résoudre ce problème. La section 1 contient une brève introduction du problème d'extraction de données. Dans la section 2, nous avons examiné quelques outils et techniques d'extraction de données. La section 3 a donné un aperçu du problème de l'OCR et de certaines des méthodes traditionnelles utilisées pour le résoudre. Dans la section 4, nous avons exploré certains outils open source populaires utilisés pour effectuer l'OCR et compris la fonction de perte de CTC. La section 5 contient plusieurs cas d'utilisation pratiques où l'OCR peut être utilisé pour résoudre le problème d'extraction de données. Enfin, nous avons examiné l'état actuel de la recherche dans le domaine de l'OCR.

Commencez à utiliser Nanonets pour l'automatisation

Essayez le modèle ou demandez une démo dès aujourd'hui!

ESSAYEZ MAINTENANT

Comment automatiser l'extraction de données et numériser vos processus documentaires?

Source : https://nanonets.com/blog/automating-data-extraction-and-digitizing-document-based-processes/

spot_img

Dernières informations

spot_img