Suivez nous sur

AI

Les professionnels de la cybersécurité ne peuvent pas gérer seuls toutes les tâches liées aux menaces, selon un expert

Avatar

En cliquant sur ce bouton,

on

Les professionnels de la cybersécurité ne peuvent pas gérer seuls toutes les tâches liées aux menaces, selon un expert

Longueur: 5: 00 | Jan 22, 2021

Disposer d'un outil d'IA pour vous aider peut alléger le fardeau des équipes de cybersécurité, qui ont du mal à faire face à des menaces constantes et plus graves.

Source: https://www.techrepublic.com/videos/cybersecurity-pros-cant-handle-all-the-threat-tasks-alone-expert-says/#ftag=RSS56d97e7

AI

Cette vidéo sauvage cartographie tout Internet et son évolution depuis 1997

Avatar

En cliquant sur ce bouton,

on

l'opte de visualisation internet 2021

Au début de l'informatique numérique, les machines étaient monolithiques et isolées. Ils n'ont pas communiqué. En fait, ils ne pouvait pas communiquer. Il n'y avait pas de lingua franca.

Ce problème n'était pas un secret. Les informaticiens avaient travaillé sur les moyens de mettre en réseau les ordinateurs dès 1962. Ensuite, 29 Octobre 1969- seulement quelques mois après qu'Apollo 11 a atterri sur la lune - l'étudiant diplômé, Charley Kline, a envoyé un message de son ordinateur à l'UCLA à un ordinateur à quelque 350 miles au nord du Stanford Research Institute (SRI). Pour Kline et son co-conspirateur, Bill Duvall, ce n'était pas grave. «C'était juste des ingénieurs qui travaillaient», a déclaré Leonard Kleinrock, un pionnier des réseaux informatiques et un chef de file du projet.

Avec le recul, cependant, le message était - au moins dans un sens technique - le déclenchement des deux premiers «neurones» d'Internet. Le réseau, appelé Arpanet, s'est rapidement étendu à d'autres institutions et est devenu une sorte de proto-internet pour les chercheurs et les scientifiques. De nombreux concepts développés pour Arpanet ont été appliqués et sont toujours à l'œuvre sur Internet d'aujourd'hui.

Carte d'Arpanet en 1977. Crédit d'image: Arpanet

Bien sûr, le fossé entre Arpanet et le web moderne est en train de bailler.

La connexion UCLA-SRI a eu lieu à un puis 50 kilobits par seconde à la vitesse de l'éclair; Internet d'aujourd'hui peut atteindre des vitesses quelque 20,000 XNUMX fois plus rapides. Arpanet a atteint un maximum d'environ 100 nœuds (ou ordinateurs connectés). Internet d'aujourd'hui est un réseau de réseaux comprenant des milliards de nœuds dans le monde.

Les implications de tout cela n'ont pas besoin d'être présentées: Internet a une influence sur la civilisation.

Pour autant, c'est encore un concept plutôt abstrait. Pour la plupart des gens, Internet est son contenu: actualités, images, vidéos, musique, messages et mèmes. Mais tout ce contenu vit et est servi par une masse tentaculaire d'ordinateurs interconnectés dans le monde entier.

Pour vraiment visualiser l'étalement, vous devez cartographier le territoire. Les cartes d'Arpanet étaient des schémas d'ingénierie assez simples, mais l'échelle du Web moderne est beaucoup trop grande pour une feuille de papier et quelques lignes et points droits. Entrer Barrett Lyon.

En 2003, Lyon était finissant juste l'école et travaillant comme hacker embauché. Les entreprises lui avaient confié la tâche d'éliminer les vulnérabilités de leurs systèmes et il avait développé des outils de cartographie pour le travail. Ses renifleurs électroniques traçaient les lignes et les nœuds d'un réseau et rapportaient ce qu'ils avaient trouvé. Pourquoi ne pas les lâcher sur la mère de tous les réseaux, pensa-t-il? Alors il l'a fait.

La visualisation résultante a rappelé de grands modèles naturels, comme des réseaux de neurones ou la structure à grande échelle de l'univers. Mais c'était à la fois plus banal et époustouflant - représentant, comme il le faisait, à la fois un ensemble d'ordinateurs portables et de bureau pour la plupart standard connectés à des serveurs dans des parcs de bureaux banals et la un émergent technologique une force qui était bien plus que la somme de ses parties.

La première carte Internet complète de Lyon, le 22 novembre 2003. Crédit d'image: Le projet Opte

En 2010, Lyon a mis à jour sa carte avec une nouvelle méthode. Au lieu des traceroutes qu'il a utilisés en 2003, qui ne sont pas toujours précis, il s'est tourné vers un outil de cartographie Internet plus précis appelé Border Gateway Protocol routing tables. Et maintenant, il est de retour avec une nouvelle carte, également basé sur les BGP du projet Route Views de l'Université de l'Oregon. Seulement cette fois, il a reconstitué un laps de temps d'environ 25 ans de la croissance explosive d'Internet.

C'est un visuel fascinant, presque organique. Mais c'est aussi plus que ça.

Les couleurs correspondent aux régions: Amérique du Nord (bleu), Europe (vert), Amérique latine (violet), Asie-Pacifique (rouge), Afrique (orange) et la dorsale Internet (blanc). Les lignes connectent les nœuds; et les starbursts sont des fournisseurs Internet pour les réseaux publics, privés et gouvernementaux (pensez AT&T ou Comcast ou l'armée). Le milieu est la région la plus connectée et la périphérie la moins.

Parce qu'il est animé au fil du temps, vous pouvez regarder différentes régions se mettre en ligne. De même, vous pouvez voir les régions clignoter. Certains pays, comme la Chine et l'Iran, s'attardent à la périphérie, avec moins de liens entrants et sortants. Cela, note Lyon, permet un meilleur contrôle des réseaux nationaux, comme, par exemple, le grand pare-feu chinois. Lors des manifestations iraniennes de 2019, le gouvernement a fermé la majeure partie d'Internet - la connectivité est tombée à seulement XNUMX% de la moyenne - et cela est clairement visible dans la visualisation. Les grands réseaux iraniens disparaissent tout simplement.

Le plus évident et dramatique est à quel point Internet s'est développé. Il y a maintenant près de cinq milliards de personnes en ligne. Les quelques milliards restants se connecteront probablement au cours de la prochaine décennie.

"Quand je le regarde, chacun de ces petits gribouillis et trémoussements est un être humain qui fait quelque chose", a récemment déclaré Lyon. Wired. «Les gens utilisent réellement le réseau, construisent le réseau, traversent littéralement les océans et les montagnes avec des câbles à fibres optiques et creusent des fossés. Tout ce travail est reflété dans un instantané. " De toute évidence, beaucoup de choses ont changé depuis 1997 - mais dans un sens, nous ne faisons que commencer.

Crédit image: Barrett Lyon / Opte

Source: https://singularityhub.com/2021/02/28/this-video-shows-the-entire-internet-and-its-evolution-since-1997/

Continuer la lecture

AI

5 étapes pour créer un centre d'excellence en IA responsable

Avatar

En cliquant sur ce bouton,

on

Cerveau humain numérique couvert de réseaux


Voici comment établir un centre d'excellence en IA dans votre organisation. Toute grande entreprise devrait en avoir un en place.En Savoir Plus Source: https://venturebeat.com/2021/02/28/5-steps-to-creating-a-responsible-ai-center-of-excellence/

Continuer la lecture

AI

5 étapes pour créer un centre d'excellence en IA responsable

Avatar

En cliquant sur ce bouton,

on

Cerveau humain numérique couvert de réseaux


Voici comment établir un centre d'excellence en IA dans votre organisation. Toute grande entreprise devrait en avoir un en place.En Savoir Plus Source: https://venturebeat.com/2021/02/28/5-steps-to-creating-a-responsible-ai-center-of-excellence/

Continuer la lecture

AI

Comment automatiser l'extraction de données et numériser vos processus documentaires?

Avatar

En cliquant sur ce bouton,

on

Comment automatiser l'extraction de données et numériser vos processus documentaires?

L'extraction manuelle de données est-elle toujours une chose en 2021?

Au moment où j'ai lu le titre du billet de blog, la première question qui m'est venue à l'esprit était: «La saisie manuelle des données est-elle encore une chose en 2021?». Un peu de recherche et j'ai été agréablement surpris par l'ampleur du problème. De nombreuses organisations comptent encore sur la saisie manuelle des données. La plupart d'entre eux n'investissent pas dans la mise en place d'un pipeline d'extraction de données automatisé car la saisie manuelle des données est extrêmement bon marché et ne nécessite pratiquement aucune expertise. Cependant, selon un Goldman Sachs 2018 rapport, les coûts directs et indirects de la saisie manuelle des données s'élèvent à environ 2.7 billions de dollars pour les entreprises mondiales.

Un cas d'utilisation potentiel pour un pipeline d'extraction de données automatisé était pendant la pandémie COVID-19. De nombreuses données telles que le nombre de personnes testées, les rapports de test de chaque individu, etc. ont dû être saisies manuellement dans une base de données. L'automatisation du processus aurait permis d'économiser beaucoup de temps et de main-d'œuvre.

DESSINS D'EXTRACTION MANUELLE DES DONNÉES:

  1. Les erreurs: Lors de l'exécution d'une tâche fastidieuse et répétitive telle que la saisie manuelle des données, des erreurs sont vouées à s'infiltrer. Identifier et corriger ces erreurs à un stade ultérieur peut s'avérer une affaire coûteuse.
  2. Processus lent: Par rapport à l'extraction automatisée des données, la saisie manuelle des données est un processus extrêmement lent et pourrait bloquer l'ensemble du pipeline de production.
  3. Sécurité des données: Lorsqu'il s'agit de données sensibles, un processus de saisie manuelle des données peut entraîner des fuites de données qui pourraient à leur tour compromettre le système.

Êtes-vous confronté à des problèmes d'extraction manuelle de données? Vous voulez rendre le processus d'extraction de données de votre organisation efficace? Dirigez-vous vers Nanonets et voyez par vous-même comment l'extraction de données à partir de documents peut être automatisée.


SECTION 1: LE PIPELINE DE DONNÉES

Pour surmonter les inconvénients mentionnés ci-dessus, presque toutes les grandes entreprises doivent créer un pipeline de données. Les principaux composants de tout pipeline de données sont correctement décrits par l'acronyme ETL (Extract, Transform, Load). L'extraction de données consiste à extraire des données à partir de diverses sources, l'étape de transformation des données vise à convertir ces données dans un format spécifique et le chargement de données fait référence au processus de stockage de ces données dans un entrepôt de données.

Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 1. Le processus ETL

Étant la première étape du pipeline, l'extraction de données joue un rôle crucial dans toute organisation. Cet article explore les différentes méthodes et outils qui peuvent être utilisés pour effectuer l'extraction de données et comment la reconnaissance optique de caractères (OCR) peut être utilisée pour cette tâche.

SECTION 2: EXTRACTION AUTOMATIQUE DES DONNÉES:

Presque toutes les analyses de données modernes nécessitent de grandes quantités de données pour fonctionner correctement. Par exemple: toute organisation souhaiterait garder un œil sur les performances de ses concurrents, les tendances générales du marché, les avis et réactions des clients, etc. Une façon de le faire est d'utiliser outils d'extraction de données qui peuvent gratter le Web et récupérer des données à partir de diverses sources. La section suivante met en évidence quelques outils d'extraction de données prêts à l'emploi.

2.1: OUTILS D'EXTRACTION DE DONNÉES
1) Scrapy: Scrapy est un robot d'exploration Web open source écrit en python. Passons en revue un exemple simple qui illustre comment même un novice complet peut gratter le Web en utilisant Scrapy. Dans l'exemple suivant, j'ai utilisé Scrapy pour analyser le titre de la page de blog Nanonets.

Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 2. Titre de la page de blog Nanonets analysée à l'aide de Scrapy

Bien que j'aie utilisé le shell Scrapy à des fins d'analyse, le même comportement pourrait être obtenu en utilisant un script python.

Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 3: Titre de la page de blog Nanonets analysée par Scrapy

L'outil est extrêmement intuitif et les éléments de n'importe quelle page HTML peuvent être analysés à l'aide de CSS. Le seul inconvénient de l'outil du point de vue d'un débutant était que l'analyse des pages Web dynamiques était assez difficile.

2) Octoparse, Outwit hub, Parsehub, etc. sont d'autres outils open source qui fournissent une interface graphique intuitive pour le scraping Web.

Outre ces outils open source, il existe des entreprises qui se consacrent à l'extraction de données. Les petites organisations qui ne disposent pas des ressources nécessaires pour créer des pipelines d'extraction de données personnalisés peuvent externaliser le processus d'extraction de données en utilisant ces services d'extraction de données.

2.2: TECHNIQUES D'EXTRACTION DE DONNÉES

L'organigramme ci-dessous fournit une brève explication de quelques techniques d'extraction de données.

Comment automatiser l'extraction de données et numériser vos processus documentaires?
Organigramme 1. Techniques d'extraction de données

Les sections suivantes explorent l'utilisation de la reconnaissance optique de caractères (OCR) pour effectuer la tâche d'extraction de données.


Êtes-vous confronté à des problèmes d'extraction manuelle de données? Vous voulez rendre le processus d'extraction de données de votre organisation efficace? Dirigez-vous vers Nanonets et voyez par vous-même comment l'extraction de données à partir de documents peut être automatisée.


SECTION 3: EXTRACTION AUTOMATIQUE DES DONNÉES À L'AIDE DE L'OCR:

La reconnaissance optique de caractères (OCR) est une technologie qui identifie les caractères à partir de documents imprimés ou manuscrits. En configurant un pipeline d'extraction de données à l'aide de l'OCR, les organisations peuvent automatiser le processus d'extraction et de stockage des données.

LE CŒUR DE TOUT SYSTÈME OCR:

Les outils OCR modernes sont livrés avec un éventail d'étapes de prétraitement des données (suppression du bruit, binarisation, segmentation de ligne) et de post-traitement. Cependant, au cœur de tout système OCR se trouvent deux composants majeurs:

  1. Un extracteur de fonctionnalités et
  2. Un classificateur
Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 4

L'extracteur de fonctionnalités extrait les fonctionnalités correspondant à chaque lexème (caractère / mot). Ces caractéristiques extraites sont fournies en tant qu'entrées au classificateur qui détermine la probabilité que le lexème appartienne à une classe spécifique.

APPROCHES TRADITIONNELLES POUR RÉSOUDRE LE PROBLÈME OCR:

  1. Correspondance des modèles: Un ensemble de modèles (images de chaque caractère de l'alphabet) sont collectés et stockés. Chaque caractère de l'image d'entrée est ensuite comparé à cette collection de modèles. Chaque comparaison est associée à une mesure de similarité à l'aide de laquelle les meilleures correspondances possibles sont identifiées.
Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 5. Liste des modèles pour l'alphabet anglais (Source: https://www.google.com/url?sa=i&url=https%3A%2F%2Fwww.slideshare.net%2FVj84529%2Focr-color&psig=AOvVaw0u4z1m4DwYNIFQEFKlQLqH&ust=1613545352470000&source=images&cd=vfe&ved=0CAIQjRxqFwoTCKiG8Ijr7e4CFQAAAAAdAAAAABAD)

Méthodes basées sur des règles: En tant qu'enfants, on nous a appris à reconnaître le caractère «H» comme deux lignes verticales reliées par une ligne horizontale. C'est intuitivement ce que les méthodes basées sur des règles tentent d'atteindre. Certaines caractéristiques structurelles sont extraites des images d'entrée et un système basé sur des règles est utilisé pour les classer.

Outre les approches mentionnées ci-dessus, diverses autres méthodes ont été développées pour effectuer l'OCR sur la base de la vision par ordinateur traditionnelle. Cependant, presque tous ont été remplacés ou complétés par Deep Learning.
Maintenant que nous avons une idée de ce qu'est l'OCR et de certaines des approches traditionnelles utilisées pour effectuer l'OCR, allons plus loin ...

Comment automatiser l'extraction de données et numériser vos processus documentaires?
(Source: https://memegenerator.net/instance/57413687/inception-di-caprio-we-need-to-go-deeper)

SECTION 4: OUTILS OCR

Examinons quelques-uns des outils OCR gratuits et open source de pointe:

  1. Tesseract: Tesseract a été initialement développé par HP et a été lancé en tant que logiciel open source en 2005. Depuis lors, son développement a été repris par Google. Il existe de nombreux tutoriels expliquant tous les détails de tesseract OCR et comment il peut être utilisé. Le blog suivant sur Nanonets fournit un examen complet de la même https://nanonets.com/blog/ocr-with-tesseract/#introduction
  2. OCRopus: OCRopus est une collection d'outils utilisés pour effectuer l'OCR sur des images. Le pipeline général d'OCRopus contient trois blocs principaux, comme illustré dans la figure ci-dessous.
Comment automatiser l'extraction de données et numériser vos processus documentaires?
Organigramme 2. Pipeline général d'OCRopus

OCRopus est un moteur d'interface graphique complet et peut éventuellement utiliser tesseract dans le backend pour effectuer l'OCR.

3. OCR Calamars: Calamari OCR est un logiciel de reconnaissance de ligne relativement nouveau qui utilise des réseaux de neurones profonds implémentés dans TensorFlow. Comparé à Tesseract et OCRopus, Calamari OCR a peu d'explications détaillant son architecture de réseau et son fonctionnement interne. Cela semble être un bon point pour formaliser le problème de l'OCR et l'examiner à travers les yeux de Calamari.

Supposons que nous souhaitons effectuer une reconnaissance optique de caractères sur le mot «vitesse» en utilisant un réseau neuronal profond (DNN). Supposons également que nous ayons créé un DNN à l'aide de réseaux de neurones convolutifs (CNN) et de mémoire à long terme (LSTM) pour effectuer cette tâche. Notre réseau prédit les probabilités de sortie associées à chaque classe à chaque pas de temps.

Par exemple: dans un scénario idéal

Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 6. Image d'entrée envoyée au réseau neuronal

Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 7. La sortie (si tout se passe bien)

Le tableau ci-dessous montre les valeurs de probabilité possibles associées à chaque pas de temps.

T0

T1

T2

T3

T4

Pennsylvanie)

0.001

0.002

0.01

0.01

0.001

P (b)

0.001

0.003

0.003

0.002

0.002

P (c)

0.005

0.005

0.002

0.001

0.001

P (d)

0.002

0.001

0.001

0.003

0.7

P (e)

0.001

0.002

0.7

0.8

0.002

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

P (p)

0.003

0.8

0.002

0.004

0.001

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

P (s)

0.7

0.008

0.002

0.001

0.007

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

   Tableau 1. Probabilités associées à chaque classe

En prenant la probabilité maximale sous chaque pas de temps, nous obtenons la sortie requise, c'est-à-dire SPEED. Qu'est-ce qui pourrait mal tourner avec cette approche? Prenons un moment pour réfléchir à une hypothèse que nous avons faite dans notre raisonnement à savoir l'alignement de chaque pas de temps.
Nous avons supposé que chaque pas de temps se produit exactement entre les alphabets successifs. La sortie aurait été très différente si le réseau neuronal décidait d'aligner les pas de temps comme le montre la figure 8.

Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 8. Pas de temps mal alignés

Dans ce scénario, le réseau neuronal peut prédire SSPPEEEEDD comme sortie. Deuxièmement, la préparation des données d'entraînement pour le réseau neuronal peut s'avérer extrêmement fastidieuse. Nous aurions besoin de spécifier l'emplacement exact du pixel auquel chaque alphabet commence et se termine.

Ce qui semblait être une tâche simple se révèle extrêmement frustrant. Le problème des pas de temps mal alignés et de l'annotation des données d'apprentissage peut être résolu en introduisant une nouvelle fonction de perte.

Classification temporelle connexionniste (CTC)

Comment automatiser l'extraction de données et numériser vos processus documentaires?
(Source:https://www.google.com/search?q=memeanimals.com+i+must+go+my+people+need+me&tbm=isch&source=iu&ictx=1&fir=C8adpx9pd63_pM%252C6SVZE5KvuruZIM%252C_&vet=1&usg=AI4_-kR44ME7ZPnrJBaiK3LJUtr-hYlyWw&sa=X&ved=2ahUKEwiiiZ2XqonvAhUkmeYKHQpbCgcQ9QF6BAgMEAE#imgrc=C8adpx9pd63_pM)

CTC nous aide des manières suivantes:

  1. En utilisant la perte CTC, nous pouvons entraîner le réseau sans avoir à spécifier la position par pixel de chaque alphabet. Ceci est réalisé en introduisant un nouveau caractère «-». «-» est utilisé pour indiquer qu'aucun caractère n'est vu à un pas de temps donné.
    En utilisant ce caractère spécial «-», la vérité terrain pourrait être modifiée pour tenir compte de toutes les positions possibles où le mot «vitesse» apparaît dans l'image. Par exemple, le mot «vitesse» pourrait s'écrire «—speed», «–speed-», «-speed–», «speed—». De même, puisque nous ne savons pas combien d'espace chaque alphabet peut prendre, nous ajoutons des répétitions de caractères pour tenir compte des différentes longueurs de caractères, c'est-à-dire que «speed» peut s'écrire «—sspeed», «—ssspeed», etc.
    Dans le cas de répétitions de caractères réels dans la vérité terrain, nous devons ajouter un «-» entre les caractères qui sont répétés. Ainsi, le mot «speed» peut être encodé de la manière suivante: «—spe-ed», «–spe-ed-», «-spe-ed–», «spe-ed–», «–sspe-ed» , etc. Nous calculons le score pour chaque encodage possible et la somme de tous les scores individuels nous donne la perte pour chaque paire (image, vérité terrain).
  2. L'utilisation du décodeur CTC est beaucoup plus simple. Disons que le décodeur émet «ssppe-eee-dd. Nous pouvons simplement éliminer les doublons, c'est-à-dire que «ssppe-eee-dd» devient «spe-ed». Enfin, nous supprimons les caractères «-» pour obtenir le mot «vitesse».

J'ai trouvé les ressources suivantes extrêmement utiles pour en savoir plus sur la perte de CTC.https://distill.pub/2017/ctc/        https://dl.acm.org/doi/abs/10.1145/1143844.1143891

La mise en œuvre du réseau est simple. Selon l'article (https://arxiv.org/pdf/1807.02004.pdf), le réseau par défaut a les spécifications suivantes:

Architecture: Couche de convection -> Max-Pooling -> Couche de convection -> Max Pooling -> LSTM.  

Perte: Perte de CTC                                                                                                    

Optimiseur: Adam avec un taux d'apprentissage de 0.001

Phew! C'était beaucoup de théorie. Mettons la main à la pâte en implémentant la reconnaissance optique des caractères à l'aide de Calamari.

Démarrer à partir de la page github Calamari https://github.com/Calamari-OCR/calamari est une tâche facile et je n'ai eu aucun problème pendant le processus d'installation. J'ai décidé d'utiliser un modèle formé sur le jeu de données uw3-modern-english. La figure 9 montre l'entrée fournie au réseau et la figure 10 montre la sortie correspondante.

Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 9. Image d'entrée dans Calamari
Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 10. Sortie de Calamari OCR

Les calamars ont produit la sortie (Fig 10) avec une confiance de 97%. Il fonctionne très bien dans la plupart des cas et peut facilement être ajusté en fonction de votre cas d'utilisation spécifique.
REMARQUE: Calamari effectue l'OCR sur une seule ligne de texte à la fois. Si vous souhaitez effectuer l'OCR sur un document entier, un prétraitement (analyse de mise en page, segmentation de ligne, etc.) est nécessaire avant d'alimenter l'image vers Calamari.
Outre les outils OCR open source gratuits mentionnés ci-dessus, il existe plusieurs outils payants tels que Google Cloud Vision, Microsoft Computer Vision API et Amazon Textract.

La section suivante explique comment l'OCR peut être utilisée pour résoudre des problèmes pratiques dans diverses industries et organisations.


Avez-vous une exigence d'extraction de données? Dirigez-vous vers Nanonets et découvrez comment vous pouvez automatiser l'extraction de données à partir de documents tels que des PDF, des reçus, des factures, des formulaires, etc.


SECTION 5: CAS D'UTILISATION PRATIQUE D'EXTRACTION DE DONNÉES À L'AIDE DE L'OCR:

En utilisant le pipeline OCR générique présenté dans FlowChart3, certains des problèmes qui peuvent être résolus à l'aide de l'OCR sont expliqués ci-dessous.

Comment automatiser l'extraction de données et numériser vos processus documentaires?
Organigramme 3. Pipeline OCR

Techniques d'extraction de données basées sur l'OCR pour le secteur de la santé

Le problème: Depuis que je suis un petit garçon, la séquence d'étapes suivante était exécutée chaque fois que je visitais l'hôpital. La réceptionniste demandait d'abord mon numéro d'identification. Elle plongeait ensuite dans une énorme pile de journaux qui étaient triés d'une manière ou d'une autre. Habituellement, après une longue période de recherche, j'obtenais mon journal et un numéro symbolique. Le médecin examinait la cause de ma maladie et notait une ordonnance dans mon journal. En remettant l'ordonnance à la pharmacie, je recevais les médicaments nécessaires. Je suppose que c'est la routine suivie dans la plupart des hôpitaux locaux du pays.

Solution: Grâce à notre pipeline OCR, toutes les informations peuvent être numérisées et stockées dans une base de données. Un moyen simple de mettre en œuvre ceci serait de remettre des formulaires à chaque patient qui sont scannés et introduits dans le pipeline OCR. Les avantages de cette opération sont multiples:

  1. Les antécédents médicaux des patients peuvent être stockés dans une base de données commune à laquelle les médecins peuvent accéder à leur gré. Cette information pourrait aider le médecin à diagnostiquer la maladie.
  2. L'hôpital pourrait analyser les données et affecter ses ressources en conséquence. Par exemple: si les données indiquent que la section de gynécologie a un nombre maximum de patients, l'hôpital peut choisir d'employer plus de médecins et d'infirmières dans cette section.

Pièges potentiels:

  1. Comme vous l'avez peut-être deviné, déchiffrer les ordonnances des médecins à l'aide de l'OCR n'est pas un mince défi. Cependant, en utilisant des données de formation de bonne qualité avec certaines informations spécifiques au domaine (noms de médicaments bien connus) dans l'étape de post-traitement, la solution peut être rendue robuste à la plupart des erreurs.

Services d'extraction de données automatisés qui peuvent profiter au gouvernement

Le problème:  Au cours de l'année écoulée, la pandémie de COVID-19 a entraîné une série de problèmes. J'ai été assez surpris d'apprendre que la saisie manuelle des données en faisait partie. Lorsque la pandémie était à son apogée, des milliers de tests étaient effectués chaque jour et tous les résultats devaient être saisis manuellement dans une base de données.

Solution: L'OCR aurait pu être facilement utilisé dans ce scénario. Une copie numérisée du rapport de laboratoire peut être introduite dans le pipeline OCR. Par exemple, la figure 11 montre le rapport de test qui est fourni en tant qu'entrée au pipeline et la figure 12 est le résultat correspondant.

Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 11. Copie numérisée d'un rapport de test COVID (https://www.lalpathlabs.com/SampleReports/N228.pdf)
Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 12. Résultat de l'OCR sur le rapport de test COVID

Le problème pourrait être encore simplifié en se concentrant sur les domaines importants et en ignorant le reste. Dans ce cas, le nom de l'individu et le résultat du test doivent être extraits de manière fiable. Puisque les résultats du test sont binaires, c'est-à-dire négatifs ou positifs, ils pourraient être mis en correspondance à l'aide d'expressions régulières. De même, le champ du nom pourrait être remplacé par un numéro d'identification unique pour garantir une reconnaissance fiable des caractères.

Logiciel d'extraction de données basé sur l'OCR pour l'automatisation des factures

LE PROBLÈME: Au plus profond de la section des comptes de toute organisation se trouve un groupe de personnes dont le travail consiste à saisir manuellement les données des factures dans la base de données de l'entreprise. Il s'agit d'une tâche très répétitive et banale qui peut être automatisée grâce à notre pipeline OCR.

SOLUTION: L'exécution de l'OCR sur la facture donnée peut automatiser la tâche de saisie manuelle des données. Beaucoup de travail a déjà été fait dans ce domaine et le développement d'une solution robuste repose principalement sur l'extraction fiable des tableaux et des montants avec précision de la facture.

Les articles de blog suivants https://nanonets.com/blog/table-extraction-deep-learning/ et la https://nanonets.com/blog/extract-structured-data-from-invoice/ fournir des explications détaillées sur la même chose.

SECTION 6: LA DERNIÈRE RECHERCHE:

  1. ScrabbleGAN: Génération de texte manuscrit semi-supervisé de longueur variable(https://arxiv.org/abs/2003.10557) (CVPR-2020):

Cet article aborde le problème de la reconnaissance de texte manuscrit (HTR). Bien que les outils OCR de pointe fonctionnent bien sur le texte imprimé, la reconnaissance de texte manuscrit est encore un domaine en développement. Les auteurs attribuent cet écart au manque de données de formation, c'est-à-dire au manque de texte manuscrit annoté. Les auteurs proposent un DNN qui peut générer des images manuscrites de styles variés.

Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 13. Architecture de ScrabbleGAN

Fig 13. Illustre l'architecture de ScrabbleGAN. Le générateur génère des images synthétiques qui sont transmises à un dispositif de reconnaissance en plus du discriminateur. Le discriminateur force le générateur à générer des images réelles tandis que le dispositif de reconnaissance s'assure que des mots significatifs sont générés par le générateur.

Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 14. Différents styles du mot «supercalifragilisticexpialidocious»

Le réseau est formé de manière semi-supervisée et deux métriques à savoir le taux d'erreur de mot (WER) et la distance d'édition normalisée (NED) sont utilisées pour l'évaluation.

2. OrigamiNet: OrigamiNet: Reconnaissance de texte pleine page faiblement supervisée, sans segmentation, en une seule étape en apprenant à se déplier (https://arxiv.org/abs/2006.07491) (CVPR-2020):

Les toutes premières architectures OCR ont tenté de segmenter chaque caractère de l'image d'entrée et de classer chaque caractère segmenté. Cela a évolué vers des approches sans segmentation où un mot entier a été segmenté et classé. Aujourd'hui, la plupart des approches de pointe fonctionnent sur une ligne entière de texte.

Dans cet article, les auteurs proposent un ensemble simple d'opérations qui permettent de réaliser l'OCR sur une page entière en un seul passage à travers le réseau. La principale contrainte dans l'exécution de l'OCR sur une page entière est que la fonction de perte CTC nécessite que l'entrée soit 1D. Ceci est clairement illustré sur la figure 15, où l'entrée est sous-échantillonnée et convertie en 1D avant l'étape de calcul de la perte.

Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 15. Un outil de reconnaissance de ligne unique entièrement convolutif

Étant donné que les CNN fonctionnent bien sur des tâches telles que la traduction d'image en image, les auteurs utilisent un CNN pour apprendre la transformation 2D en 1D. La carte des caractéristiques du réseau neuronal générique entièrement convolutif est suréchantillonnée verticalement et sous-échantillonnée horizontalement en deux étapes successives avant que l'opération de mise en commun ne soit effectuée.

Comment automatiser l'extraction de données et numériser vos processus documentaires?
Fig 16. CNN générique utilisé pour effectuer l'OCR sur une seule ligne de texte augmenté d'étapes supplémentaires pour effectuer la reconnaissance multiligne

La dernière carte des caractéristiques haute contient toutes les lignes de texte de l'image d'entrée. Les auteurs soutiennent que fournir au modèle une capacité spatiale suffisante lui permet d'apprendre facilement la transformation 2D en 1D requise.
Les auteurs évaluent leur travail en utilisant des CNN standards tels que ResNet, VGG et GTR

CONCLUSION:

Dans cet article, nous avons examiné l'extraction de données en détail et comment la reconnaissance optique de caractères peut être utilisée pour résoudre ce problème. La section 1 contient une brève introduction du problème d'extraction de données. Dans la section 2, nous avons examiné quelques outils et techniques d'extraction de données. La section 3 a donné un aperçu du problème de l'OCR et de certaines des méthodes traditionnelles utilisées pour le résoudre. Dans la section 4, nous avons exploré certains outils open source populaires utilisés pour effectuer l'OCR et compris la fonction de perte de CTC. La section 5 contient plusieurs cas d'utilisation pratiques où l'OCR peut être utilisé pour résoudre le problème d'extraction de données. Enfin, nous avons examiné l'état actuel de la recherche dans le domaine de l'OCR.

Commencez à utiliser Nanonets pour l'automatisation

Essayez le modèle ou demandez une démo dès aujourd'hui!

ESSAYEZ MAINTENANT

Comment automatiser l'extraction de données et numériser vos processus documentaires?

Source: https://nanonets.com/blog/automating-data-extraction-and-digitizing-document-based-processes/

Continuer la lecture
BioingénieurIl y a 5 jours

Transformé par la lumière: photochromisme rapide découvert dans un matériau inorganique peu coûteux

AIIl y a 4 jours

IBM se retirerait de la santé avec Watson 

NEWATLASIl y a 5 jours

Le «planeur sous-marin» motorisé n'a pas de pièces mobiles externes

NEWATLASIl y a 5 jours

L'étude de Stanford sur «Zoom Fatigue» explique pourquoi les chats vidéo sont si fatigants

EnergieIl y a 5 jours

Solaire sur le speedway: NASCAR vise à rendre la course plus écologique

AIIl y a 4 jours

Tesla travaille en mode de conduite autonome complet, étendant le plomb de l'IA 

BioingénieurIl y a 5 jours

Le projet examine comment rendre la `` ferme à la table '' plus durable

180-degree-capital-corp-reports-6-7-growth-in-q4-2020-9-28-net-asset-value-per-share-as-of-december-31-2020-and-developments-from-q1-2021-including-expected-investment-in-a-planned-spac-sponsor.gif
Nano TechnologieIl y a 5 jours

180 Degree Capital Corp. annonce une croissance de + 6.7% au quatrième trimestre 4, une valeur liquidative par action de 2020 USD au 9.28 décembre 31 et des développements à partir du premier trimestre 2020, y compris l'investissement prévu dans un sponsor SPAC prévu

Nano TechnologieIl y a 5 jours

Noyaux atomiques dans le swing quantique: le contrôle extrêmement précis des excitations nucléaires ouvre des possibilités d'horloges atomiques ultra-précises et de puissantes batteries nucléaires

Nano TechnologieIl y a 5 jours

Une limite de vitesse s'applique également dans le monde quantique: une étude de l'Université de Bonn détermine le temps minimum pour des opérations quantiques complexes

Nano TechnologieIl y a 5 jours

Une limite de vitesse s'applique également dans le monde quantique: une étude de l'Université de Bonn détermine le temps minimum pour des opérations quantiques complexes

BioingénieurIl y a 5 jours

Des modèles de prédiction des flambées de dengue, de zika et de fièvre jaune sont développés par des chercheurs

BioingénieurIl y a 5 jours

Voir la schizophrénie: les rayons X éclairent les différences neuronales, indiquent un traitement

Crypto AmbIl y a 5 jours

L'énigme Ethereum: combien de temps les utilisateurs supporteront-ils des frais de transaction élevés?

AutomobileIl y a 4 jours

Le critique de Tesla Semi Bill Gates admet presque qu'il a court-circuité TSLA dans le passé

Nano TechnologieIl y a 5 jours

Dynamique des nanoparticules à l'aide d'un nouveau système de perfusion de lumière de vaisseau lymphatique isolé

BioingénieurIl y a 5 jours

Un chercheur du MUSC reçoit 9.9 millions de dollars pour le traitement et la prévention de la tuberculose

180-degree-capital-corp-reports-6-7-growth-in-q4-2020-9-28-net-asset-value-per-share-as-of-december-31-2020-and-developments-from-q1-2021-including-expected-investment-in-a-planned-spac-sponsor.gif
Nano TechnologieIl y a 5 jours

180 Degree Capital Corp. annonce une croissance de + 6.7% au quatrième trimestre 4, une valeur liquidative par action de 2020 USD au 9.28 décembre 31 et des développements à partir du premier trimestre 2020, y compris l'investissement prévu dans un sponsor SPAC prévu

AIIl y a 5 jours

Talkdesk et AWS: ce que l'intelligence artificielle et la synthèse vocale signifient pour l'avenir des centres de contact et une meilleure expérience client

Nano TechnologieIl y a 5 jours

Dynamique des nanoparticules à l'aide d'un nouveau système de perfusion de lumière de vaisseau lymphatique isolé

Tendance