Como automatizar a extração de dados e digitalizar seus processos baseados em documentos?

A extração manual de dados ainda é uma coisa em 2021?

No momento em que li o título da postagem no blog, a primeira pergunta que me veio à mente foi: 'A entrada manual de dados ainda é uma coisa em 2021 ?.' Um pouco de pesquisa e fiquei agradavelmente surpreso com a escala do problema. Muitas organizações ainda dependem da entrada manual de dados. A maioria deles não investe na configuração de um pipeline de extração automatizada de dados porque a entrada manual de dados é extremamente barata e requer quase zero conhecimento. No entanto, de acordo com um Goldman Sachs 2018 Denunciar, os custos diretos e indiretos da entrada manual de dados chegam a cerca de US $ 2.7 trilhões para empresas globais.

Um caso de uso potencial para um pipeline de extração de dados automatizado foi durante a pandemia COVID-19. Muitos dados, como o número de pessoas testadas, os relatórios de teste de cada indivíduo, etc., tiveram que ser inseridos manualmente em um banco de dados. Automatizar o processo teria economizado muito tempo e mão de obra.

DRAWBACKS DE EXTRAÇÃO MANUAL DE DADOS:

Erros: Ao executar uma tarefa entediante e repetitiva, como a entrada manual de dados, os erros tendem a aparecer. Identificar e corrigir esses erros em um estágio posterior pode revelar-se uma tarefa cara.
Processo lento: Quando comparada à extração automatizada de dados, a entrada manual de dados é um processo extremamente lento e pode paralisar todo o pipeline de produção.
Segurança de dados: Ao lidar com dados confidenciais, um processo de entrada manual de dados pode levar a vazamentos de dados que, por sua vez, podem comprometer o sistema.

Você está enfrentando problemas de extração manual de dados? Quer tornar o processo de extração de dados da sua organização eficiente? Vá para Nanoredes e veja por si mesmo como a extração de dados de documentos pode ser automatizada.

SEÇÃO 1: O PIPELINE DE DADOS

Para superar as desvantagens mencionadas acima, quase todas as grandes organizações precisam construir um pipeline de dados. Os principais componentes de qualquer pipeline de dados são apropriadamente descritos pelo acrônimo ETL (Extract, Transform, Load). A extração de dados envolve a extração de dados de várias fontes, o estágio de transformação de dados visa converter esses dados em um formato específico e o carregamento de dados refere-se ao processo de armazenamento desses dados em um data warehouse.

Como automatizar a extração de dados e digitalizar seus processos baseados em documentos? — Fig 1. O Processo ETL

Sendo o primeiro estágio do pipeline, a extração de dados desempenha um papel crucial em qualquer organização. Esta postagem explora os vários métodos e ferramentas que podem ser usados para realizar a extração de dados e como o Reconhecimento Óptico de Caracteres (OCR) pode ser empregado para essa tarefa.

SEÇÃO 2: EXTRAÇÃO AUTOMÁTICA DE DADOS:

Quase todas as análises de dados dos dias modernos requerem grandes quantidades de dados para ter um bom desempenho. Por exemplo: Qualquer organização gostaria de manter o controle sobre o desempenho de seus concorrentes, as tendências gerais do mercado, avaliações e reações dos clientes, etc. ferramentas de extração de dados que pode raspar a web e recuperar dados de várias fontes. A seção a seguir destaca algumas ferramentas populares de extração de dados prontas para o uso.

2.1: FERRAMENTAS DE EXTRAÇÃO DE DADOS
1) Raspado: Scrapy é um rastreador da web de código aberto escrito em python. Vamos examinar um exemplo simples que ilustra como até mesmo um novato completo pode vasculhar a web usando o Scrapy. No exemplo a seguir, usei o Scrapy para analisar o título da página do blog do Nanonets.

Embora eu tenha usado o shell Scrapy para fins de análise, o mesmo comportamento pode ser obtido usando um script Python.

A ferramenta é extremamente intuitiva e os elementos de qualquer página HTML podem ser analisados usando CSS. A única desvantagem da ferramenta, do ponto de vista de um iniciante, é que analisar páginas da Web dinâmicas era bastante desafiador.

2) Octoparse, Outwit hub, Parsehub etc são outras ferramentas de código aberto que fornecem uma GUI intuitiva para web scraping.

Além dessas ferramentas de código aberto, existem empresas que se dedicam a realizar a extração de dados. As pequenas organizações que não têm os recursos para construir pipelines de extração de dados personalizados podem terceirizar o processo de extração de dados fazendo uso desses serviços de extração de dados.

2.2: TÉCNICAS DE EXTRAÇÃO DE DADOS

O fluxograma fornecido a seguir fornece uma breve explicação sobre algumas técnicas de extração de dados.

As seções a seguir exploram o uso do reconhecimento óptico de caracteres (OCR) para realizar a tarefa de extração de dados.

SEÇÃO 3: EXTRAÇÃO AUTOMÁTICA DE DADOS USANDO OCR:

O reconhecimento óptico de caracteres (OCR) é uma tecnologia que identifica caracteres de material impresso ou manuscrito. Ao configurar um pipeline de extração de dados usando OCR, as organizações podem automatizar o processo de extração e armazenamento de dados.

O CORAÇÃO DE QUALQUER SISTEMA OCR:

As ferramentas de OCR modernas vêm com uma série de etapas de pré-processamento de dados (remoção de ruído, binarização, segmentação de linha) e pós-processamento. No entanto, no centro de qualquer sistema de OCR estão dois componentes principais:

Um extrator de recursos e
Um classificador

O extrator de recursos extrai recursos correspondentes a cada lexema (caractere / palavra). Esses recursos extraídos são alimentados como entradas para o classificador que determina a probabilidade do lexema pertencer a uma classe específica.

ABORDAGENS TRADICIONAIS PARA RESOLVER O PROBLEMA DE OCR:

Correspondência de modelos: Um conjunto de modelos (imagens de cada caractere do alfabeto) são coletados e armazenados. Cada caractere da imagem de entrada é então comparado a esta coleção de modelos. Cada comparação está associada a uma medida de similaridade por meio da qual as melhores correspondências possíveis são identificadas.

Métodos baseados em regras: Quando crianças, fomos ensinados a reconhecer o caractere 'H' como duas linhas verticais com uma linha horizontal conectando-as. Intuitivamente, é isso que os métodos baseados em regras tentam alcançar. Certos recursos estruturais são extraídos das imagens de entrada e um sistema baseado em regras é usado para classificá-los.

Além das abordagens mencionadas acima, vários outros métodos foram desenvolvidos para realizar OCR com base na visão computacional tradicional. No entanto, quase todos eles foram substituídos ou complementados pelo Deep Learning.
Agora que temos uma ideia do que é OCR e algumas das abordagens tradicionais usadas para realizar OCR, vamos nos aprofundar ...

SEÇÃO 4: FERRAMENTAS DE OCR

Vejamos algumas das ferramentas de OCR de código aberto de última geração:

Tesserato: O Tesseract foi inicialmente desenvolvido pela HP e lançado como um software de código aberto em 2005. Desde então, seu desenvolvimento foi assumido pelo Google. Existem inúmeros tutoriais que explicam todos os detalhes do tesseract OCR e como ele pode ser usado. O seguinte blog sobre Nanonets fornece uma revisão abrangente do mesmo https://nanonets.com/blog/ocr-with-tesseract/#introduction
OCRopus: OCRopus é uma coleção de ferramentas usadas para realizar OCR em imagens. O pipeline geral do OCRopus contém três blocos principais, conforme mostrado na figura abaixo.

OCRopus é um motor GUI completo e pode, opcionalmente, usar o tesseract no back-end para realizar OCR.

3. OCR de lula: Calamari OCR é um software de reconhecimento de linha relativamente novo que usa redes neurais profundas implementadas no TensorFlow. Quando comparado com Tesseract e OCRopus, Calamari OCR tem poucas explicações detalhando sua arquitetura de rede e seu funcionamento interno. Este parece ser um bom ponto para formalizar o problema de OCR e examiná-lo através dos olhos de Calamari.

Vamos supor que queremos realizar o reconhecimento óptico de caracteres na palavra “Velocidade” usando uma Rede Neural Profunda (DNN). Vamos supor também que criamos um DNN usando Redes Neurais Convolucionais (CNNs) e Memória de Curto Prazo Longa (LSTMs) para realizar essa tarefa. Nossa rede prevê probabilidades de saída associadas a cada classe em cada passo de tempo.

Por exemplo: Em um cenário ideal

A tabela abaixo mostra os possíveis valores de probabilidade associados a cada intervalo de tempo.

	T0	T1	T2	T3	T4
P (a)	0.001	0.002	0.01	0.01	0.001
P (b)	0.001	0.003	0.003	0.002	0.002
P (c)	0.005	0.005	0.002	0.001	0.001
P (d)	0.002	0.001	0.001	0.003	0.7
Educaçao Fisica)	0.001	0.002	0.7	0.8	0.002
. . .	. . .	. . .	. . .	. . .
P (p)	0.003	0.8	0.002	0.004	0.001
. . .	. . .	. . .	. . .	. . .
P (s)	0.7	0.008	0.002	0.001	0.007
. . .	. . .	. . .	. . .	. . .

Tabela 1. Probabilidades associadas a cada classe

Tomando a probabilidade máxima em cada etapa de tempo, obtemos a saída necessária, ou seja, VELOCIDADE. O que pode dar errado com essa abordagem? Vamos pensar um pouco sobre uma suposição que fizemos em nosso raciocínio, a saber, o alinhamento de cada passo de tempo.
Presumimos que cada passo de tempo ocorre exatamente entre alfabetos sucessivos. A saída teria sido muito diferente se a rede neural decidisse alinhar os passos de tempo conforme mostrado na figura 8.

Nesse cenário, a rede neural pode prever SSPPEEEEDD como a saída. Em segundo lugar, preparar os dados de treinamento para a rede neural pode ser extremamente tedioso. Precisamos especificar a localização exata do pixel em que cada alfabeto começa e termina.

O que parecia uma tarefa simples está se revelando extremamente frustrante. O problema de passos de tempo desalinhados e anotação de dados de treinamento pode ser resolvido com a introdução de uma nova função de perda.

Classificação Temporal Conexionista (CTC)

O CTC nos ajuda das seguintes maneiras:

Usando a perda de CTC, podemos treinar a rede sem precisar especificar a posição dos pixels de cada alfabeto. Isso é conseguido através da introdução de um novo caractere '-'. '-' é usado para indicar que nenhum caractere é visto em um determinado intervalo de tempo.
Usando este caractere especial '-', a verdade básica pode ser modificada para dar conta de todas as posições possíveis onde a palavra “velocidade” ocorre na imagem. Por exemplo, a palavra “velocidade” pode ser escrita como “—velocidade”, “–velocidade-”, “-velocidade–”, “velocidade—”. Da mesma forma, uma vez que não sabemos quanto espaço cada alfabeto pode ocupar, adicionamos repetições de caracteres para contabilizar comprimentos de caracteres variados, ou seja, “velocidade” pode ser escrita como “—svelocidade”, “—svelocidade” e assim por diante.
No caso de repetições reais de caracteres na verdade fundamental, precisamos adicionar um '-' entre os caracteres que são repetidos. Assim, a palavra “velocidade” pode ser codificada das seguintes maneiras: “—spe-ed”, “–spe-ed-”, “-spe-ed–”, “spec-ed–”, “–sspe-ed” , etc. Calculamos a pontuação para cada codificação possível e a soma de todas as pontuações individuais dá-nos a perda para cada par (imagem, verdade do terreno).
Usar o decodificador CTC é muito mais simples. Digamos que o decodificador produza “ssppe-eee-dd. Podemos simplesmente descartar duplicatas, ou seja, “ssppe-eee-dd” torna-se “spe-ed”. Finalmente, removemos os caracteres '-' para obter a palavra “velocidade”.

Achei os seguintes recursos extremamente úteis ao aprender sobre a perda do CTC.https://distill.pub/2017/ctc/ https://dl.acm.org/doi/abs/10.1145/1143844.1143891

Implementar a rede é simples. De acordo com o artigo (https://arxiv.org/pdf/1807.02004.pdf), a rede padrão tem as seguintes especificações:

Arquitetura: Camada Conv -> Max-Pooling -> Camada Conv -> Max Pooling -> LSTM.

Perda: Perda de CTC

Otimizador: Adam com uma taxa de aprendizagem de 0.001

Ufa! Isso era muita teoria. Vamos sujar as mãos implementando o reconhecimento óptico de caracteres usando Calamari.

Primeiros passos na página do github do Calamari https://github.com/Calamari-OCR/calamari é uma tarefa fácil e não tive problemas durante o processo de instalação. Decidi usar um modelo treinado no conjunto de dados uw3-modern-english. A Figura 9 mostra a entrada fornecida à rede e a Figura 10 mostra a saída correspondente.

Calamari produziu o resultado (Fig. 10) com uma confiança de 97%. Ele tem um desempenho muito bom na maioria dos casos e pode ser facilmente ajustado para se adequar ao seu caso de uso específico.
NOTA: O Calamari executa o OCR em uma única linha de texto por vez. Se você deseja executar o OCR em um documento inteiro, é necessário um pré-processamento (análise de layout, segmentação de linha, etc.) antes de alimentar a imagem para o Calamari.
Além das ferramentas de OCR de código aberto gratuitas acima mencionadas, existem várias ferramentas pagas, como Google Cloud Vision, Microsoft Computer Vision API e Amazon Textract.

A próxima seção fala sobre como o OCR pode ser usado para resolver problemas práticos em vários setores e organizações.

Você tem um requisito de extração de dados? Vá para Nanoredes e veja como você pode automatizar a extração de dados de documentos como PDFs, recibos, faturas, formulários e muito mais.

SEÇÃO 5: CASOS DE USO PRÁTICO DE EXTRAÇÃO DE DADOS USANDO OCR:

Usando o pipeline genérico de OCR mostrado no FlowChart3, alguns dos problemas que podem ser resolvidos usando OCR são elucidados abaixo.

Técnicas de extração de dados baseadas em OCR para o setor de saúde

O problema: Desde pequeno, a seguinte sequência de passos era realizada sempre que eu ia ao hospital. A recepcionista primeiro pedia meu número de identificação. Ela então mergulhava em uma enorme pilha de diários que eram classificados de alguma forma. Normalmente, após um período prolongado de pesquisa, eu obtinha meu diário e um número simbólico. O médico examinaria a causa de minha doença e anotaria uma receita em meu diário. Ao entregar a receita na farmácia, receberia os medicamentos necessários. Presumo que esta seja a rotina seguida na maioria dos hospitais locais do país.

Alternativa? Usando nosso pipeline de OCR, todas as informações puderam ser digitalizadas e armazenadas em um banco de dados. Uma maneira simples de implementar isso seria entregar formulários para cada paciente que são digitalizados e alimentados no pipeline de OCR. As vantagens de fazer isso são muitas:

O histórico médico dos pacientes pode ser armazenado em um banco de dados comum que os médicos podem acessar quando quiserem. Essas informações podem ajudar o médico a diagnosticar a doença.
O hospital pode analisar os dados e alocar seus recursos de acordo. Por exemplo: Se os dados indicarem que a seção de ginecologia tem um número máximo de pacientes, o hospital pode escolher empregar mais médicos e enfermeiras nesta seção.

Possíveis armadilhas:

Como você deve ter adivinhado, decifrar as receitas médicas usando OCR não é um desafio pequeno. No entanto, usando dados de treinamento de boa qualidade junto com algumas informações específicas do domínio (nomes de medicamentos conhecidos) na etapa de pós-processamento, a solução pode ser robusta para a maioria dos erros.

Serviços automatizados de extração de dados que podem beneficiar o governo

O problema: Durante o ano passado, a pandemia COVID-19 trouxe consigo uma série de problemas. Fiquei bastante surpreso ao saber que a entrada manual de dados era um deles. Quando a pandemia estava no auge, milhares de testes eram realizados todos os dias e todos os resultados tinham que ser inseridos manualmente em um banco de dados.

Alternativa? O OCR poderia ter sido facilmente empregado neste cenário. Uma cópia digitalizada do relatório do laboratório pode ser alimentada no pipeline de OCR. Por exemplo, a Figura 11 mostra o relatório de teste que é alimentado como uma entrada para o pipeline e a Figura 12 é o resultado correspondente.

O problema poderia ser simplificado ainda mais, concentrando-se nos campos que são importantes e ignorando o resto. Nesse caso, o Nome do indivíduo e o resultado do teste devem ser extraídos de forma confiável. Uma vez que os resultados do teste são binários, ou seja, negativos ou positivos, eles podem ser combinados usando expressões regulares. Da mesma forma, o campo de nome pode ser substituído por um número de identificação exclusivo para garantir o reconhecimento confiável de caracteres.

Software de extração de dados baseado em OCR para automação de faturas

O PROBLEMA: Nas profundezas da seção de contas de qualquer organização existe um grupo de pessoas cujo trabalho é inserir manualmente os dados das faturas no banco de dados da empresa. Esta é uma tarefa altamente repetitiva e mundana que pode ser automatizada graças ao nosso pipeline de OCR.

SOLUÇÃO: A execução de OCR na fatura fornecida pode automatizar a tarefa de entrada manual de dados. Muito trabalho já foi feito nesta área e o desenvolvimento de uma solução robusta depende principalmente da extração confiável de tabelas e valores da fatura.

As seguintes postagens de blog https://nanonets.com/blog/table-extraction-deep-learning/ e https://nanonets.com/blog/extract-structured-data-from-invoice/ fornecer explicações abrangentes sobre o mesmo.

SEÇÃO 6: A PESQUISA MAIS RECENTE:

ScrabbleGAN: Geração de texto manuscrito de comprimento variável semi-supervisionado(https://arxiv.org/abs/2003.10557) (CVPR-2020):

Este artigo aborda o problema de reconhecimento de texto manuscrito (HTR). Embora as ferramentas de OCR de última geração tenham um bom desempenho em texto impresso, o reconhecimento de texto manuscrito ainda é um campo em desenvolvimento. Os autores atribuem essa lacuna à falta de dados de treinamento, ou seja, à falta de texto manuscrito anotado. Os autores propõem um DNN que pode gerar imagens manuscritas de vários estilos.

Fig 13. Ilustra a arquitetura do ScrabbleGAN. O gerador gera imagens sintéticas que são enviadas a um reconhecedor além do discriminador. O discriminador força o gerador a gerar imagens de aparência real, enquanto o reconhecedor garante que palavras significativas sejam geradas pelo gerador.

A rede é treinada de maneira semissupervisionada e duas métricas, a saber, Word Error Rate (WER) e normalized edit distance (NED), são usadas para avaliação.

2. OrigamiNet: OrigamiNet: Fracamente supervisionado, sem segmentação, em uma etapa, reconhecimento de texto de página inteira aprendendo a desdobrar (https://arxiv.org/abs/2006.07491) (CVPR-2020):

As primeiras arquiteturas de OCR tentaram segmentar cada caractere da imagem de entrada e classificar cada caractere segmentado. Isso progrediu para abordagens livres de segmentação, em que uma palavra inteira era segmentada e classificada. Hoje, a maioria das abordagens de última geração opera em uma linha inteira de texto.

Neste artigo, os autores propõem um conjunto simples de operações que permitem que o OCR seja executado em uma página inteira em uma única passagem direta pela rede. A principal limitação na execução de OCR em uma página inteira é que a função de perda de CTC requer que a entrada seja 1D. Isso é claramente ilustrado na Fig. 15, onde a entrada é amostrada e convertida para 1D antes do estágio de cálculo de perda.

Como as CNNs têm um bom desempenho em tarefas como tradução de imagem para imagem, os autores usam uma CNN para aprender a transformação de 2D para 1D. O mapa de características da rede neural genérica totalmente convolucional é ampliado verticalmente e reduzido horizontalmente em dois estágios sucessivos antes que a operação de agrupamento seja realizada.

O mapa final de feições altas contém todas as linhas de texto da imagem de entrada. Os autores argumentam que fornecer ao modelo capacidade espacial suficiente permite que ele aprenda facilmente a transformação necessária de 2D para 1D.
Os autores avaliam seu trabalho usando CNNs padrão, como ResNet, VGG e GTR

CONCLUSÃO:

Nesta postagem, vimos a extração de dados em detalhes e como o reconhecimento óptico de caracteres pode ser usado para resolver esse problema. A seção 1 contém uma breve introdução ao problema de extração de dados. Na Seção 2, demos uma olhada em algumas ferramentas e técnicas de extração de dados. A Seção 3 deu uma visão geral do problema de OCR e alguns dos métodos tradicionais usados para resolvê-lo. Na Seção 4, exploramos algumas ferramentas populares de código aberto usadas para realizar OCR e entendemos a função de perda de CTC. A Seção 5 contém vários casos de uso prático onde o OCR pode ser usado para resolver o problema de extração de dados. Finalmente, examinamos o estado da arte atual da pesquisa no campo de OCR.

Comece a usar Nanonets para Automação

Experimente o modelo ou solicite uma demonstração hoje!

TENTE AGORA

Fonte: https://nanonets.com/blog/automating-data-extraction-and-digitizing-document-based-processes/

Inteligência de dados generativa

Como automatizar a extração de dados e digitalizar seus processos baseados em documentos?

A extração manual de dados ainda é uma coisa em 2021?

ESL Challenger Melbourne 2024: pontuações, classificação e muito mais – Snowball Esports

Notas do Draft da NFL de 2024

Inteligência mais recente

Ethereum, Solana e Altcoins se aproximando da 'Zona das Bananas', de acordo com o Macro Guru Raoul Pal – Aqui está sua perspectiva – The Daily Hodl

Astronautas da NASA chegam ao Centro Espacial Kennedy antes do teste de voo da tripulação do Boeing Starliner

As agências de aplicação da lei do Reino Unido agora podem apreender a criptografia com mais facilidade à medida que novas regras entram em vigor

Bitcoin Bears corre o risco de perder US$ 7.2 bilhões se o preço do BTC atingir esse nível

Moeda meme Dog Go To The Moon ultrapassa US$ 500 milhões de valor de mercado

Por que muitos 'blockchains zumbis' ainda têm limites de mercado na casa dos bilhões de dólares – desencadeado

Fale Conosco