데이터 추출을 자동화하고 문서 기반 프로세스를 디지털화하는 방법은 무엇입니까?

2021 년에도 수동 데이터 추출이 여전히 중요합니까?

블로그 글의 제목을 읽은 순간 첫 번째 질문이 떠 올랐습니다. '수동 데이터 입력은 2021 년에도 여전히 존재합니까?' 약간의 조사와 나는 문제의 규모에 유쾌하게 놀랐습니다. 많은 조직이 여전히 수동 데이터 입력에 의존하고 있습니다. 대부분은 자동 데이터 추출 파이프 라인 설정에 투자하지 않습니다. 수동 데이터 입력은 매우 저렴하고 전문 지식이 거의 필요하지 않기 때문입니다. 그러나 2018 년 Goldman Sachs에 따르면 신고, 수동 데이터 입력의 직간접 비용은 글로벌 비즈니스에서 약 2.7 조 XNUMX 천억 달러에 이릅니다.

자동화 된 데이터 추출 파이프 라인의 잠재적 사용 사례는 COVID-19 대유행 기간이었습니다. 테스트 한 사람 수, 각 개인의 테스트 보고서 등과 같은 많은 데이터를 데이터베이스에 수동으로 입력해야했습니다. 프로세스를 자동화하면 많은 시간과 인력을 절약 할 수있었습니다.

수동 데이터 추출의 단점 :

오류 : 수동 데이터 입력과 같은 지루하고 반복적 인 작업을 수행하면 오류가 발생할 수 있습니다. 이후 단계에서 이러한 오류를 식별하고 수정하는 것은 비용이 많이 드는 일이 될 수 있습니다.
느린 프로세스 : 자동 데이터 추출과 비교할 때 수동 데이터 입력은 매우 느린 프로세스이며 전체 프로덕션 파이프 라인을 지연시킬 수 있습니다.
데이터 보안: 민감한 데이터를 처리 할 때 수동 데이터 입력 프로세스로 인해 데이터 유출이 발생하여 시스템이 손상 될 수 있습니다.

수동 데이터 추출 문제가 있습니까? 조직의 데이터 추출 프로세스를 효율적으로 만들고 싶으십니까? 에 머리 나노 넷 문서에서 데이터 추출을 자동화하는 방법을 직접 확인하십시오.

섹션 1 : 데이터 파이프 라인

위에서 언급 한 단점을 극복하려면 거의 모든 대규모 조직에서 데이터 파이프 라인을 구축해야합니다. 모든 데이터 파이프 라인의 주요 구성 요소는 약어 ETL (추출, 변환,로드)로 적절하게 설명됩니다. 데이터 추출에는 다양한 소스에서 데이터를 추출하는 작업이 포함되며, 데이터 변환 단계는이 데이터를 특정 형식으로 변환하는 것을 목표로하며 데이터로드는이 데이터를 데이터웨어 하우스에 저장하는 프로세스를 의미합니다.

데이터 추출을 자동화하고 문서 기반 프로세스를 디지털화하는 방법은 무엇입니까? — 그림 1. ETL 프로세스

파이프 라인의 첫 번째 단계 인 데이터 추출은 모든 조직에서 중요한 역할을합니다. 이 게시물에서는 데이터 추출을 수행하는 데 사용할 수있는 다양한 방법과 도구와이 작업에 광학 문자 인식 (OCR)을 사용할 수있는 방법을 살펴 봅니다.

섹션 2 : 자동 데이터 추출 :

거의 모든 오늘날의 데이터 분석이 제대로 수행 되려면 많은 양의 데이터가 필요합니다. 예를 들면 : 모든 조직은 경쟁 업체의 성과, 일반적인 시장 동향, 고객 리뷰 및 반응 등을 확인하고 싶어합니다.이를 수행하는 방법은 다음을 사용하는 것입니다. 데이터 추출 도구 웹을 긁어 내고 다양한 소스에서 데이터를 검색 할 수 있습니다. 다음 섹션에서는 몇 가지 인기있는 기성품 데이터 추출 도구를 강조합니다.

2.1 : 데이터 추출 도구
1) 스크래피 : Scrapy는 파이썬으로 작성된 오픈 소스 웹 크롤러입니다. 완전한 초보자도 Scrapy를 사용하여 웹을 스크래핑 할 수있는 방법을 보여주는 간단한 예를 살펴 보겠습니다. 다음 예에서는 Scrapy를 사용하여 Nanonets 블로그 페이지의 제목을 구문 분석했습니다.

구문 분석을 위해 Scrapy 셸을 사용했지만 python 스크립트를 사용하여 동일한 동작을 수행 할 수 있습니다.

이 도구는 매우 직관적이며 모든 HTML 페이지의 요소는 CSS를 사용하여 구문 분석 할 수 있습니다. 초보자의 관점에서 볼 때 도구의 유일한 단점은 동적 웹 페이지를 구문 분석하는 것이 매우 어렵다는 것입니다.

2) Octoparse, Outwit hub, Parsehub 등은 웹 스크래핑을위한 직관적 인 GUI를 제공하는 다른 오픈 소스 도구입니다.

이러한 오픈 소스 도구 외에도 데이터 추출을 전담하는 회사가 있습니다. 사용자 지정 데이터 추출 파이프 라인을 구축 할 리소스가없는 소규모 조직은 이러한 데이터 추출 서비스를 사용하여 데이터 추출 프로세스를 아웃소싱 할 수 있습니다.

2.2 : 데이터 추출 기술

아래의 순서도는 몇 가지 데이터 추출 기술에 대한 간략한 설명을 제공합니다.

다음 섹션에서는 광학 문자 인식 (OCR)을 사용하여 데이터 추출 작업을 수행하는 방법을 살펴 봅니다.

섹션 3 : OCR을 사용한 자동 데이터 추출 :

OCR (Optical Character Recognition)은 인쇄물 또는 수기 자료에서 문자를 식별하는 기술입니다. OCR을 사용하여 데이터 추출 파이프 라인을 설정함으로써 조직은 데이터 추출 및 저장 프로세스를 자동화 할 수 있습니다.

모든 OCR 시스템의 핵심 :

최신 OCR 도구에는 데이터 전처리 (노이즈 제거, 이진화, 선 분할) 및 후 처리 단계가 함께 제공됩니다. 그러나 모든 OCR 시스템의 핵심에는 두 가지 주요 구성 요소가 있습니다.

특징 추출기 및
분류기

기능 추출기는 각 어휘 (문자 / 단어)에 해당하는 기능을 추출합니다. 이러한 추출 된 특징은 특정 클래스에 속하는 lexeme의 확률을 결정하는 분류기에 입력으로 제공됩니다.

OCR 문제를 해결하기위한 전통적인 접근 방식 :

템플릿 매칭 : 템플릿 세트 (알파벳의 각 문자 이미지)가 수집되어 저장됩니다. 그런 다음 입력 이미지의 각 문자가이 템플릿 모음과 일치합니다. 각 비교는 가능한 최상의 일치를 식별하는 유사성 측정과 연관됩니다.

규칙 기반 방법 : 어렸을 때 우리는 문자 'H'를 두 개의 수직선으로 인식하도록 배웠습니다. 직관적으로 이것은 규칙 기반 방법이 달성하려는 것입니다. 입력 이미지에서 특정 구조적 특징을 추출하고이를 분류하기 위해 규칙 기반 시스템을 사용합니다.

위에서 언급 한 접근 방식 외에도 전통적인 컴퓨터 비전을 기반으로 OCR을 수행하기위한 다양한 다른 방법이 개발되었습니다. 그러나 거의 모든 것이 딥 러닝으로 대체되거나 보완되었습니다.
이제 OCR이 무엇인지, 그리고 OCR을 수행하는 데 사용되는 몇 가지 기존 접근 방식에 대한 아이디어를 얻었으므로 더 자세히 살펴 보겠습니다.

섹션 4 : OCR 도구

최신 OCR 도구의 일부 무료 오픈 소스 상태를 살펴 보겠습니다.

테서 랙트 : Tesseract는 처음에 HP에서 개발했으며 2005 년에 오픈 소스 소프트웨어로 출시되었습니다. 그 이후로 Tesseract는 Google이 개발을 인수했습니다. tesseract OCR의 모든 세부 사항과 사용 방법을 설명하는 수많은 자습서가 있습니다. Nanonets에 대한 다음 블로그는 동일한 내용에 대한 포괄적 인 검토를 제공합니다. https://nanonets.com/blog/ocr-with-tesseract/#introduction
OCRopus : OCRopus는 이미지에서 OCR을 수행하는 데 사용되는 도구 모음입니다. OCRopus의 일반 파이프 라인은 아래 그림과 같이 세 개의 주요 블록을 포함합니다.

OCRopus는 완전한 GUI 엔진이며 OCR 수행을 위해 백엔드에서 선택적으로 tesseract를 사용할 수 있습니다..

3. 칼라 마리 OCR : Calamari OCR은 TensorFlow에서 구현 된 심층 신경망을 사용하는 비교적 새로운 라인 인식 소프트웨어입니다. Tesseract 및 OCRopus와 비교할 때 Calamari OCR은 네트워크 아키텍처와 내부 작동을 자세히 설명하는 설명이 거의 없습니다. 이것은 OCR 문제를 공식화하고 Calamari의 눈을 통해 그것을 들여다보기에 좋은 포인트처럼 보입니다.

Deep Neural Network (DNN)를 사용하여 "Speed"라는 단어에 대해 광학 문자 인식을 수행한다고 가정 해 보겠습니다. 또한이 작업을 수행하기 위해 컨볼 루션 신경망 (CNN) 및 장단기 기억 (LSTM)을 사용하여 DNN을 생성했다고 가정 해 봅시다. 우리의 네트워크는 모든 시간 단계에서 각 클래스와 관련된 출력 확률을 예측합니다.

예 : 이상적인 시나리오에서

아래 표는 각 시간 단계와 관련된 가능한 확률 값을 보여줍니다.

	T0	T1	T2	T3	T4
아빠)	0.001	0.002	0.01	0.01	0.001
피 (b)	0.001	0.003	0.003	0.002	0.002
P (c)	0.005	0.005	0.002	0.001	0.001
피 (d)	0.002	0.001	0.001	0.003	0.7
체육)	0.001	0.002	0.7	0.8	0.002
. . .	. . .	. . .	. . .	. . .
피 (피)	0.003	0.8	0.002	0.004	0.001
. . .	. . .	. . .	. . .	. . .
추신)	0.7	0.008	0.002	0.001	0.007
. . .	. . .	. . .	. . .	. . .

표 1. 각 클래스와 연관된 확률

각 시간 단계에서 최대 확률을 취하면 필요한 출력, 즉 SPEED를 얻습니다. 이 접근 방식에서 무엇이 잘못 될 수 있습니까? 우리가 추론에서 내린 가정, 즉 각 시간 단계의 정렬에 대해 잠시 생각해 보겠습니다.
우리는 각 시간 단계가 연속적인 알파벳 사이에 정확히 발생한다고 가정했습니다. 신경망이 그림 8과 같이 시간 단계를 정렬하기로 결정했다면 출력은 매우 달랐을 것입니다.

이 시나리오에서 신경망은 SSPPEEEEDD를 출력으로 예측할 수 있습니다. 둘째, 신경망을위한 훈련 데이터를 준비하는 것은 매우 지루할 수 있습니다. 각 알파벳이 시작하고 끝나는 정확한 픽셀 위치를 지정해야합니다.

간단한 작업처럼 보였던 것이 매우 실망 스러웠습니다. 잘못된 타임 스텝 및 학습 데이터 주석 문제는 새로운 손실 함수를 도입하여 해결할 수 있습니다.

연결주의 시간 분류 (CTC)

CTC는 다음과 같은 방식으로 당사를 지원합니다.

CTC 손실을 사용하면 각 알파벳의 픽셀 단위 위치를 지정하지 않고도 네트워크를 훈련시킬 수 있습니다. 이것은 새로운 캐릭터 '-'를 도입함으로써 달성됩니다. '-'는 주어진 시간 단계에서 문자가 표시되지 않음을 나타내는 데 사용됩니다.
이 특수 문자 '-'를 사용하면 이미지에서 "속도"라는 단어가 나오는 모든 가능한 위치를 설명하도록 Ground Truth를 수정할 수 있습니다. 예를 들어, "속도"라는 단어는 "—speed", "–speed-", "-speed–", "speed—"와 같이 쓸 수 있습니다. 마찬가지로 각 알파벳이 차지하는 공간을 알지 못하기 때문에 다양한 문자 길이를 고려하여 문자 반복을 추가합니다. 즉, "speed"는 "—sspeed", "—ssspeed"등으로 쓸 수 있습니다.
Ground Truth에서 실제 문자 반복의 경우 반복되는 문자 사이에 '-'를 추가해야합니다. 따라서 "속도"라는 단어는 "—spe-ed", "–spe-ed-", "-spe-ed–", "spe-ed–", "–sspe-ed"와 같은 방식으로 인코딩 될 수 있습니다. , 등등. 우리는 가능한 각 인코딩에 대한 점수를 계산하고 모든 개별 점수의 합은 각 (이미지, 지상 진실) 쌍에 대한 손실을 제공합니다.
CTC 디코더를 사용하는 것이 훨씬 간단합니다. 디코더가“ssppe-eee-dd. 우리는 단순히 중복을 버릴 수 있습니다. 즉 "ssppe-eee-dd"가 "spe-ed"가됩니다. 마지막으로 '-'문자를 제거하여 "speed"라는 단어를 얻습니다.

CTC 손실에 대해 배울 때 다음 리소스가 매우 유용하다는 것을 알았습니다.https://distill.pub/2017/ctc/ https://dl.acm.org/doi/abs/10.1145/1143844.1143891

네트워크 구현은 간단합니다. 논문 (https://arxiv.org/pdf/1807.02004.pdf)에 따르면 기본 네트워크의 사양은 다음과 같습니다.

건축물: Conv layer-> Max-Pooling-> Conv layer-> Max Pooling-> LSTM.

손실: CTC 손실

최적화 : 학습률이 0.001 인 Adam

휴! 그것은 많은 이론이었습니다. Calamari를 사용하여 광학 문자 인식을 구현하여 손을 더럽 히자.

Calamari github 페이지에서 시작하기 https://github.com/Calamari-OCR/calamari 쉬운 작업이며 설치 과정에서 문제가 없었습니다. 저는 uw3-modern-english 데이터 세트에서 훈련 된 모델을 사용하기로 결정했습니다. 그림 9는 네트워크에 공급되는 입력을 보여주고 그림 10은 해당 출력을 보여줍니다.

Calamari는 10 %의 신뢰도로 생산량을 산출했습니다 (그림 97). 대부분의 경우 매우 잘 작동하며 특정 사용 사례에 맞게 쉽게 미세 조정할 수 있습니다.
알림: Calamari는 한 번에 한 줄의 텍스트에 대해 OCR을 수행합니다. 전체 문서에 대해 OCR을 수행하려면 이미지를 Calamari에 공급하기 전에 일부 전처리 (레이아웃 분석, 선 분할 등)가 필요합니다.
위에서 언급 한 무료 오픈 소스 OCR 도구 외에도 Google 클라우드 비전, Microsoft Computer Vision API 및 Amazon Textract와 같은 여러 유료 도구가 있습니다.

다음 섹션에서는 OCR을 사용하여 다양한 산업 및 조직의 실제 문제를 해결하는 방법에 대해 설명합니다.

데이터 추출 요구 사항이 있습니까? 에 머리 나노 넷 PDF, 영수증, 송장, 양식 등과 같은 문서에서 데이터 추출을 자동화하는 방법을 확인하십시오.

섹션 5 : OCR을 사용한 데이터 추출의 실제 사용 사례 :

FlowChart3에 표시된 일반적인 OCR 파이프 라인을 사용하여 OCR을 사용하여 해결할 수있는 몇 가지 문제가 아래에 설명되어 있습니다.

의료 부문을위한 OCR 기반 데이터 추출 기술

문제 : 어렸을 때부터 병원을 방문 할 때마다 다음과 같은 일련의 단계를 수행했습니다. 접수 원은 먼저 내 ID 번호를 물어볼 것입니다. 그런 다음 그녀는 어떤 방식으로 정렬 된 거대한 일기 더미에 뛰어 들었습니다. 일반적으로 장기간 검색하면 일기와 토큰 번호를 얻습니다. 의사는 내 병의 원인을 조사하고 내 일기에 처방전을 적었습니다. 처방전을 약국에 넘겨 주면 필요한 약을 받게됩니다. 나는 이것이 국내 대부분의 지역 병원에서 따르는 일과라고 생각합니다.

해결 방법 : OCR 파이프 라인을 사용하면 모든 정보를 디지털화하여 데이터베이스에 저장할 수 있습니다. 이를 구현하는 간단한 방법은 스캔하여 OCR 파이프 라인으로 공급되는 각 환자에게 양식을 넘겨주는 것입니다. 이렇게하면 여러 가지 이점이 있습니다.

환자의 병력은 의사가 원하는대로 액세스 할 수있는 공통 데이터베이스에 저장할 수 있습니다. 이 정보는 의사가 질병을 진단하는 데 도움이 될 수 있습니다.
병원은 데이터를 분석하고 그에 따라 자원을 할당 할 수 있습니다. 예 : 데이터에 산부인과 섹션에 최대 환자 수가 있다고 표시되는 경우 병원은이 섹션에 더 많은 의사와 간호사를 고용하도록 선택할 수 있습니다.

잠재적 인 함정 :

짐작 하셨겠지만 OCR을 사용하여 의사의 처방전을 해독하는 것은 결코 쉬운 일이 아닙니다. 그러나 후 처리 단계에서 일부 도메인 별 정보 (잘 알려진 의약품 이름)와 함께 양질의 훈련 데이터를 사용하면 대부분의 오류에 대해 솔루션을 강력하게 만들 수 있습니다.

정부에 도움이되는 자동화 된 데이터 추출 서비스

문제 : 지난 19 년 동안 COVID-XNUMX 대유행으로 인해 여러 문제가 발생했습니다. 수동 데이터 입력이 그 중 하나라는 사실에 상당히 놀랐습니다. 전염병이 절정에 이르렀을 때 매일 수많은 테스트가 수행되었으며 모든 결과를 데이터베이스에 수동으로 입력해야했습니다.

해결 방법 : 이 시나리오에서는 OCR을 쉽게 사용할 수있었습니다. 랩 보고서의 스캔 된 사본을 OCR 파이프 라인에 공급할 수 있습니다. 예를 들어, 그림 11은 파이프 라인에 입력으로 공급되는 테스트 보고서를 보여 주며 그림 12는 해당 결과입니다.

중요한 분야에 집중하고 나머지는 무시함으로써 문제를 더욱 단순화 할 수 있습니다. 이 경우 개인의 이름과 검사 결과를 안정적으로 추출해야합니다. 테스트 결과는 이진법, 즉 음수 또는 양수이므로 정규 표현식을 사용하여 일치시킬 수 있습니다. 마찬가지로 신뢰할 수있는 문자 인식을 보장하기 위해 이름 필드를 고유 한 식별 번호로 바꿀 수 있습니다.

송장 자동화를위한 OCR 기반 데이터 추출 소프트웨어

문제 : 모든 조직의 계정 섹션에는 송장의 데이터를 회사 데이터베이스에 수동으로 입력하는 일을하는 사람들이 있습니다. 이것은 OCR 파이프 라인 덕분에 자동화 할 수있는 매우 반복적이고 일상적인 작업입니다.

해결책: 지정된 송장에 대해 OCR을 수행하면 수동 데이터 입력 작업을 자동화 할 수 있습니다. 이 영역에서 이미 많은 작업이 수행되었으며 강력한 솔루션 개발은 주로 송장에서 정확하게 테이블과 금액을 안정적으로 추출하는 데 달려 있습니다.

다음 블로그 게시물 https://nanonets.com/blog/table-extraction-deep-learning/ 과 https://nanonets.com/blog/extract-structured-data-from-invoice/ 이에 대한 포괄적 인 설명을 제공합니다.

섹션 6 : 최신 연구 :

ScrabbleGAN : 반 감독 된 다양한 길이의 필기 텍스트 생성(https://arxiv.org/abs/2003.10557) (CVPR-2020) :

이 문서는 필기 텍스트 인식 (HTR) 문제를 다룹니다. 최첨단 OCR 도구는 인쇄 된 텍스트에서 잘 작동하지만 필기 텍스트 인식은 여전히 개발중인 분야입니다. 저자는이 격차를 훈련 데이터의 부족, 즉 주석이 달린 필기 텍스트의 부족에 기인합니다. 저자는 다양한 스타일의 손글씨 이미지를 생성 할 수있는 DNN을 제안합니다.

그림 13. ScrabbleGAN의 아키텍처를 보여줍니다. 생성기는 판별 기 외에 인식기에 공급되는 합성 이미지를 생성합니다. 판별 기는 생성기가 실제처럼 보이는 이미지를 생성하도록 강제하는 반면 인식기는 생성기가 의미있는 단어를 생성하도록합니다.

네트워크는 반 감독 방식으로 훈련되며, 두 가지 메트릭 즉, 단어 오류율 (WER)과 정규화 된 편집 거리 (NED)가 평가에 사용됩니다.

2. OrigamiNet : OrigamiNet : 약하게 감독되고, 세분화가 필요없는, 한 단계, 전체 페이지 텍스트 인식 (https://arxiv.org/abs/2006.07491)(CVPR-2020) :

최초의 OCR 아키텍처는 입력 이미지에서 각 문자를 분할하고 분할 된 각 문자를 분류하려고했습니다. 이것은 전체 단어가 세분화되고 분류되는 세분화없는 접근 방식으로 발전했습니다. 오늘날 대부분의 최첨단 접근 방식은 전체 텍스트 줄에서 작동합니다.

이 백서에서 저자는 네트워크를 통한 단일 포워드 패스로 전체 페이지에서 OCR을 수행 할 수있는 간단한 작업 집합을 제안합니다. 전체 페이지에서 OCR을 수행하는 데있어 가장 큰 제약은 CTC 손실 함수가 입력이 1D 여야한다는 것입니다. 이것은 손실 계산 단계 전에 입력이 다운 샘플링되고 15D로 변환되는 그림 1에 명확하게 설명되어 있습니다.

CNN은 이미지에서 이미지로의 변환과 같은 작업에서 잘 수행되기 때문에 작성자는 CNN을 사용하여 2D에서 1D로 변환을 학습합니다. 일반 완전 컨벌루션 신경망의 기능 맵은 풀링 작업이 수행되기 전에 두 개의 연속 단계에서 수직으로 업 샘플링되고 수평으로 다운 샘플링됩니다.

마지막 긴 피쳐 맵에는 입력 이미지의 모든 텍스트 행이 포함됩니다. 저자는 모델에 충분한 공간 용량을 제공하면 필요한 2D에서 1D 로의 변환을 쉽게 배울 수 있다고 주장합니다.
저자는 ResNet, VGG 및 GTR과 같은 표준 CNN을 사용하여 작업을 평가합니다.

결론:

이 글에서는 데이터 추출에 대해 자세히 살펴보고 광학 문자 인식을 사용하여이 문제를 해결하는 방법을 살펴 보았습니다. 섹션 1에는 데이터 추출 문제에 대한 간략한 소개가 포함되어 있습니다. 섹션 2에서는 몇 가지 데이터 추출 도구와 기술을 살펴 보았습니다. 섹션 3에서는 OCR 문제에 대한 개요와이를 해결하는 데 사용되는 몇 가지 전통적인 방법을 설명했습니다. 섹션 4에서는 OCR을 수행하는 데 사용되는 몇 가지 인기있는 오픈 소스 도구를 살펴보고 CTC 손실 기능을 이해했습니다. 섹션 5에는 OCR을 사용하여 데이터 추출 문제를 해결할 수있는 몇 가지 실제 사용 사례가 포함되어 있습니다. 마지막으로 OCR 분야의 최신 기술 연구를 살펴 보았습니다.

자동화를 위해 Nanonets 사용 시작

오늘 모델을 시험해 보거나 데모를 요청하십시오!

지금 시작하세요!