제퍼넷 로고

PDF에서 JSON으로 변환

시간


PDF 및 JSON 형식

PDF는 비즈니스 문서에 가장 많이 사용되는 데이터 형식 중 하나입니다. 많은 기업과 조직이 다양한 도구를 사용하여 이러한 PDF 문서를 만들고 읽습니다. 그러나 때때로 이러한 PDF에서 특정 / 중요한 정보에 액세스하기가 어렵습니다.

여기에서 JSON (Javascript Object Notation)이 등장하며 정보 교환에 사용되는 가장 사랑받는 데이터 형식 중 하나입니다. 특히 웹 애플리케이션의 경우 대부분의 데이터는 API 및 DB 쿼리를 통해이 JSON 형식을 사용하여 전달됩니다.

PDF에서 JSON으로
PDF에서 JSON으로

이 블로그 게시물에서는 PDF를 JSON 데이터로 내보내는 다양한 기술을 살펴볼 것입니다. 또한 표 및 특정 텍스트와 같은 PDF의 복잡한 부분을 추출하는 방법도 배웁니다. 마지막으로 OCR 및 기계 학습을 사용하여 PDF를 JSON으로 변환하는 프로세스를 자동화하는 데 도움이되는 몇 가지 사용자 지정 워크 플로를 살펴 보겠습니다. 아래에서 목차를 찾을 수 있습니다.


PDF에서 JSON으로 변환의 필요성

거의 모든 비즈니스는 정보 공유를 위해 문서에 의존합니다. 문서, 송장, 세금 신고, 영수증, 의료 보고서 등이 될 수 있습니다. 이러한 문서의 대부분은 PDF 형식으로 찾을 수 있습니다. 그러나 이러한 정보에서 중요한 정보를 검색하거나이 모든 정보를 분석하고 저장하는 데 도움이되는 슈퍼 대시 보드를 구축하려는 경우 PDF에서 데이터를 수집하는 것은 복잡한 작업이 될 수 있습니다.


PDF 문서에서 정보를 추출하여 JSON 형식으로 변환하고 싶으십니까? Nanonets 확인 PDF 문서의 모든 정보를 JSON 형식으로 자동 내보내기!


PDF가 전자적으로 생성 된 경우 정보를 데이터 소스에 복사하여 붙여 넣을 수 있습니다. 그렇지 않으면 OCR 및 기계 학습 기술을 사용하여 PDF에서 정보를 추출해야 할 수 있습니다. 이는 편집 할 수 없기 때문입니다. 또한 PDF의 데이터는 구성되지 않습니다. 모든 텍스트와 표는 간단하게 배치됩니다. 따라서 정보를 수동으로 검색해야 할 수도 있습니다. 그러나 JSON의 경우 모든 것이 키-값 쌍으로 구성됩니다. 다음은 PDF 송장의 예입니다.

모든 인보이스를 저장하고 비즈니스 실적을 확인하기 위해 웹 기반 대시 보드를 구축하려는 경우 PDF의 모든 정보를 데이터베이스에 수동으로 업로드해야 할 수 있습니다. PDF 내부의 데이터에 관해서는 정보를 추출하려고 할 때 대부분의 경우 구성되지 않은 것처럼 느껴질 수있는 여러 행과 열이있는 다양한 글꼴 크기, 표를 볼 수 있습니다. 그러나 JSON에서는 모든 것이 키-값 쌍으로 더 구성되어 있습니다. 따라서 정보를 검색 및 저장하고 확장하는 것이 기업에 더 쉬워 질 것입니다.

{ "company_name": "Company Name", "Invoice_date": "Date ", "Invoice_total":"$0.00", "Invoice_line_items: "", "Invoice_tax": ""
} 

위의 JSON 형식을 볼 수 있다면 데이터가 더 잘 정리되어 있고이 정보를 웹에서 더 편리하게 공유 할 수도 있습니다. 이것이 중요한 데이터를 PDF에서 JSON으로 내보내는 것이 많은 회사에 도움이되는 이유입니다.

JSON과 함께 제공되는 비즈니스 이점

JSON 데이터 형식은 기업용 PDF보다 많은 이점이 있습니다. 그 이유는 다음과 같습니다.

  1. JSON이 더 빠름: JSON 구문은 사용하기 쉽습니다. JSON 데이터를 구문 분석 할 때마다 PDF 및 기타 데이터 형식과 비교할 때 실행 속도가 훨씬 빠릅니다. 이는 구문이 가볍고 응답을 더 빠르게 실행하기 때문입니다.
  2. 더 읽기 쉬운: JSON 데이터가 더 읽기 쉽습니다. 우리는 키와 값이있는 간단한 데이터 매핑을 갖게 될 것입니다. 따라서 PDF에서 무언가를 검색하거나 데이터를 구성하는 경우 JSON이 더 편리합니다. 또한 JSON은 데이터 중첩을 지원하며이를 통해 테이블의 데이터를보다 효율적으로 저장할 수 있습니다.
  3. 편리한 스키마 : JSON은 대부분의 운영 체제 및 프로그래밍 언어에 보편적입니다. 따라서 비즈니스 자동화를위한 소프트웨어 또는 웹 애플리케이션을 구축하는 경우 JSON이 올바른 데이터 형식이어야합니다. 또한 대부분의 웹 브라우저는 JSON 형식을 지원합니다. 따라서 JSON 데이터를 읽기 위해 타사 소프트웨어를 사용하기 위해 추가 노력을 기울일 필요가 없습니다.
  4. 간편한 공유: JSON은 큰 테이블이나 텍스트 등 모든 크기의 데이터를 공유하는 데 가장 적합한 도구입니다. 이는 JSON이 배열에 데이터를 저장하기 때문에 데이터 전송이 더 쉽게 액세스 할 수 있기 때문입니다. 이러한 이유로 JSON은 웹 API 및 웹 개발을위한 우수한 파일 형식입니다.

이것이 문서의 중요한 정보를 저장하기 위해 PDF 대신 JSON을 선택해야하는 몇 가지 이유입니다. 그러나 JSON 데이터의 경우 웹 서비스와 통합 될 때 오류 호출이 발생하지 않으므로 JSON 데이터를보다 안전한 방식으로 저장해야합니다. 다음 섹션에서는 PDF를 JSON 형식으로 변환 할 때 직면 할 수있는 몇 가지 문제를 살펴 보겠습니다.


PDF 문서에서 정보를 추출하여 JSON 형식으로 변환하고 싶으십니까? Nanonets 확인 PDF 문서의 모든 정보를 JSON 형식으로 자동 내보내기!


PDF에서 JSON으로 변환시 문제점

앞서 언급했듯이 PDF의 모든 정보는보다 직관적 인 방식으로 구성됩니다. 다양한 글꼴 크기와 정렬로 텍스트를 볼 수 있습니다. 따라서 파서가 PDF를 읽고 JSON 형식으로 변환하는 것은 정말 복잡합니다. 또한 PDF를 JSON으로 내보내기 전에 이러한 PDF가 전자적으로 생성되었는지 여부를 확인해야합니다.

전자적으로 생성 된 PDF는 일반적으로 MS Word 또는 Google Docs와 같은 소프트웨어로 처음 만든 다음 PDF로 내 보낸 문서입니다. 이 경우 모든 알고리즘을 사용하거나 JSON 형식으로 붙여 넣기 데이터를 복사 할 수 있습니다. PDF가 전자적으로 만들어지지 않고 카메라를 통해 스캔 / 이미지 캡처를 통해 생성 된 경우 OCR과 같은 도구를 사용하여 데이터를 읽은 다음 데이터를 JSON 형식으로 내 보내야합니다. PDF에서 JSON으로 내보낼 때 발생하는 몇 가지 문제를 살펴 보겠습니다.

텍스트 추출 :

  1. 글꼴 감지: 사람들은 PDF 문서 내에서 다른 글꼴, 색상 및 정렬을 사용합니다. 따라서 파서가 이것을 읽는 것은 정말 어렵습니다. 또한 이것을 내보내는 동안 파서가 데이터를 추출한 후 모든 정보가 JSON 형식으로 올바르게 매핑되도록 특정 규칙을 정의해야합니다. 이러한 경우 정규식은 특정 텍스트를 선택한 다음 JSON 형식의 올바른 키로 내보내는 데 널리 사용됩니다.
  2. 스캔 한 문서에서 텍스트 감지 : 논의했듯이 PDF가 전자적으로 생성되지 않은 경우 OCR을 사용해야하며 OCR을 선택하는 것이 중요합니다. 많은 사용자가 tesseract와 같은 오픈 소스 도구를 사용하지만 고유 한 한계가 있습니다. 예를 들어, 캡처 할 때 텍스트가 잘못 캡처되거나 잘못 정렬 된 경우 tesseract가 작동하지 않을 수 있으며 다른 도구를 선택하는 데 많은 비용이들 수 있습니다.

테이블 추출 :

  1. 테이블 식별: 대부분의 비즈니스 문서에는 테이블 형식 정보가 포함되어 있으며 PDF 문서에서 이러한 테이블을 확인하고 JSON으로 변환하는 것은 어려운 작업입니다. 전자적으로 만들어진 PDF 문서에서 테이블을 추출하는 데 도움이되는 Python 및 Java 기반 라이브러리가 있습니다.
  2. 스캔 한 PDF에서 표 식별 : PDF를 스캔하면 대부분의 패키지가 작동하지 않습니다. 이 경우 tesseract와 같은 오픈 소스 OCR을 선택하면 텍스트를 추출 할 수 있지만 모든 테이블 서식이 손실 될 수 있습니다. 따라서 잘못된 형식으로 개요 항목을 선택하기가 어렵습니다. 이것이 우리가 머신 러닝과 딥 러닝 기반 알고리즘을 사용해야하는 곳입니다. 일부 인기있는 알고리즘은 CNN을 기반으로하며 거의 매일 이러한 알고리즘을 개선하기 위해 많은 연구가 진행되고 있습니다. 그러나 이러한 알고리즘을 사내에서 구축하려면 사용자 지정 파이프 라인을 훈련하고 사용하기 위해 많은 데이터가 필요할 수 있습니다. 다음 섹션에서 이러한 파이프 라인을 자세히 살펴 보겠습니다.

다음은 문서에서 테이블 추출 문제를 해결하는 몇 가지 연구 논문입니다.

다음 섹션에서는 PDF에서 데이터를 구문 분석하여 JSON 파일을 생성하는 방법을 살펴 보겠습니다.

PDF에서 데이터 구문 분석 및 JSON 파일 생성

개발자 경험이 있다면 PDF를 통한 구문 분석은 복잡한 작업이 아닙니다. 먼저, PDF 파일에 텍스트 데이터가 포함되어 있는지 또는 스캔 한 이미지로 구성되어 있는지 확인해야합니다. 텍스트 데이터를 추출 할 수 있는지 확인하고 텍스트가 반환되지 않으면 OCR 라이브러리를 통해 파일을 파이프해야합니다. 이것은 Python 라이브러리를 사용하거나 일부 Linux 명령 줄 유틸리티에 의존하여 달성 할 수 있습니다.

PDF 텍스트 전자적으로 만들어진 PDF를 분석하는 가장 인기있는 라이브러리 중 하나입니다. 이를 사용하여 모든 PDF 데이터를 텍스트 형식으로 변환 한 다음 JSON 형식으로 푸시 할 수 있습니다. 다음은 사용 방법에 대한 몇 가지 지침입니다. pdftotext Linux 시스템에서 PDF를 통해 구문 분석합니다.

먼저 명령 줄 도구를 설치합니다.

sudo apt-get install poppler-utils

다음으로 pdftotext 명령을 실행하고 PDF 파일의 소스 경로와 대상 텍스트 파일 위치를 추가합니다.

pdftotext {PDF-file} {text-file}

이를 통해 PDF 파일에서 읽을 수있는 모든 텍스트를 추출 할 수 있어야합니다.

JSON 파일을 생성하려면 텍스트를 구문 분석하고 관련 키-값 쌍으로 내보낼 수있는 데이터를 기반으로 한 스크립트에서 다시 작업해야합니다. 다음은 간단한 코드를 변환하는 Python으로 작성한 예제 스크립트입니다. .txt 파일을 JSON 형식으로.

import json filename = 'data.txt' dict1 = {} with open(filename) as fh: for line in fh: command, description = line.strip().split(None, 1) dict1[command] = description.strip() # creating json file
# the JSON file is named as test1
out_file = open("test1.json", "w")
json.dump(dict1, out_file, indent = 4, sort_keys = False)
out_file.close()

텍스트 파일 내부의 데이터는 다음과 같습니다.

invoice_id #234
invoice_name Invoice from AWS
invoice_total $345

여기에서 먼저 내장 된 JSON 라이브러리를 가져 왔습니다. 이제 텍스트 파일의 모든 키-값 쌍을 저장할 사전 데이터 유형을 만듭니다. 다음으로, 파일의 모든 줄을 반복하고 명령, 설명으로 분리하고 생성 된 사전에 보관합니다. 마지막으로 새 JSON 파일을 만들고 json.dump 정렬 및 들여 쓰기를 포함하는 특정 구성을 사용하여 사전을 JSON 파일로 덤프하는 메소드입니다.

그러나 PDF의 데이터는 예제에 제공된 것처럼 구성되지 않습니다. 따라서 복잡한 텍스트 서식을 적용하려면 사용자 지정 파이프 라인과 스크립트를 사용해야 할 수 있습니다. 이러한 경우 다음과 같은 도구가 나노 넷 다음 섹션에서는 Nanonets가이 문제를 훨씬 더 쉽게 해결하는 방법을 살펴볼 것입니다.

그 전에 node.js를 사용하여 PDF를 JSON으로 변환하는 라이브러리를 하나 더 살펴 보겠습니다.

pdf2json 하는 node.js PDF를 바이너리에서 JSON 형식으로 구문 분석하고 변환하는 모듈; 그것은 pdf.js 브라우저 외부에서 구문 분석하는 대화 형 양식 요소 및 텍스트 콘텐츠로 확장합니다.

다음은이 모듈을 사용하여 JSON 파일을 구문 분석하는 예입니다.

먼저 npm 다음 명령을 사용하여 모듈을 설치하고 설치하십시오.

npm install pdf2json

다음으로 노드 서버에서 다음 스 니펫을 사용하여 pdf2json pdf를 JSON으로 내 보냅니다.

let fs = require('fs'), PDFParser = require("pdf2json"); let pdfParser = new PDFParser(); pdfParser.on("pdfParser_dataError", errData => console.error(errData.parserError) ); pdfParser.on("pdfParser_dataReady", pdfData => { fs.writeFile("./pdf2json/test/F1040EZ.json", JSON.stringify(pdfData)); }); pdfParser.loadPDF("./pdf2json/test/pdf/fd/form/F1040EZ.pdf");

위의 코드 스 니펫은 모듈의 예제 JSON 파일을 사용하고이를 JSON 파일로 내 보냅니다. ./test/target/ 프로젝트의 폴더. 아래에서 모듈이 JSON 파일을 내보내는 방법에 대한 스크린 샷을 찾을 수 있습니다.

테이블의 PDF를 구문 분석하는 경우 이러한 라이브러리가 작동하지 않을 수 있습니다. OCR을 사용하여 JSON 형식으로 넣거나 OCR 및 기계 학습 알고리즘을 가져 와서 표 형식 데이터를 JSON으로 추출해야합니다. 다음은 Nanonets OCR이 JSON 데이터를 반환하는 방법에 대한 스크린 샷입니다.

보시다시피 Nanonets OCR 엔진은 업로드 된 PDF에서 모든 테이블을 식별 할 수 있으며 한 번의 클릭으로 데이터를 CSV 또는 JSON 형식으로 다운로드 할 수 있습니다. 또한 다음 섹션에서 다른 도구와 그 성능에 대해서도 살펴 보겠습니다.


PDF 문서에서 정보를 추출하여 JSON 형식으로 변환하고 싶으십니까? Nanonets 확인 PDF 문서의 모든 정보를 JSON 형식으로 자동 내보내기!


PDF에서 JSON으로 맞춤형 데이터 변환

때때로 비즈니스 문서에서 데이터를 추출하는 동안 사용자 정의가 필요할 수 있습니다. 예를 들어 특정 페이지 나 표만 원하는 경우 직접 수행 할 수 없다고 가정 해보십시오. 이 경우 파서에 추가 규칙을 제공해야 할 수 있으며 이는 다시 시간 소모적입니다. 그러나 대부분의 사람들이 필요로하는 사용자 지정 및 작업을 수행하는 방법을 살펴 보겠습니다.

다음은 PDF에서 JSON으로 변환하는 사용자 지정에 필요한 몇 가지 작업입니다.

  • PDF에서 특정 텍스트 또는 페이지 만 추출
  • PDF 문서에서 모든 테이블 추출
  • PDF의 특정 테이블에서 특정 열 추출
  • PDF를 JSON으로 내보내기 전에 텍스트 필터링
  • PDF에서 추출 된 데이터를 기반으로 중첩 된 JSON 생성
  • 데이터를 기반으로 JSON 구조 형식 지정
  • 추출 후 JSON의 특정 필드 값 생성, 삭제, 업데이트

이는 다양한 방식으로 데이터를 저장하거나 애플리케이션 용 API를 구축하고 있는지 여부를 나타내는 데 자주 필요한 작업입니다. 이를 어떻게 달성 할 수 있는지 살펴 보겠습니다.

특정 텍스트 추출: PDF에서 정규 표현식을 사용하여 특정 텍스트를 추출 할 수 있습니다. 예를 들어 정규식을 사용하여 모든 이메일과 전화 번호를 원하는 경우 선택할 수 있습니다. PDF가 스캔 된 형식 인 경우 PDF의 레이아웃을 이해하고 훈련 데이터에 적용된 좌표 및 주석을 기반으로 필드를 추출 할 수있는 딥 러닝 알고리즘으로 훈련해야합니다. 문서 레이아웃을 이해하고 텍스트를 추출하기위한 가장 인기있는 오픈 소스 리포지토리 중 하나는 LayoutML이며 사용자 지정 텍스트 추출을 위해 BERT 모델을 학습합니다. 그러나 텍스트 추출의 정확도를 높이려면 충분한 데이터가 있어야합니다.

테이블 사용자 지정 : 논의 된 바와 같이 테이블은 Camelot 및 Tabula-py와 같은 라이브러리를 사용하거나 OCR 및 딥 러닝 기반 알고리즘을 사용하여 추출 할 수 있습니다. 그러나 커스터마이징을 위해서는 pandas와 같은 라이브러리를 사용해야합니다. 이를 통해 테이블에서 데이터를 생성, 업데이트 및 직렬화 할 수 있습니다. 테이블 데이터를 조작하고 사용자 정의하는 데 널리 사용되는 데이터 프레임이라는 사용자 정의 데이터 유형을 사용합니다. Pandas 사용의 다른 장점으로는 추출 프로세스 중에 특정 수학 연산을 수행 할 수있는 사용자 지정 함수를 작성하는 것입니다.

JSON 데이터 형식화: PDF를 JSON으로 내 보낸 후에는 키-값 쌍인보다 사용자 정의 가능한 데이터 유형이 있으므로 서식을 지정하는 것은 간단한 작업입니다. 간단한 스크립트를 개발하거나 온라인 도구를 사용하여 이러한 키-값 쌍을 검색하고 형식을 지정할 수 있습니다. 서식 지정을위한 가장 일반적인 매개 변수에는 들여 쓰기, 구분 기호, 정렬 키, 순환 검사, 데이터 검사가 있습니다. JSON이 API로 사용되는 경우 Postman 또는 브라우저 확장을 사용하여 데이터 형식을 지정하고 API와 상호 작용할 수 있습니다.

자동화 된 PDF to JSON 변환기

일부 기업은 문서를 통해 보고서를 생성하거나 데이터를 추출하기위한 자동화 된 솔루션이 필요합니다. 이러한 사용 사례의 경우 특정 작업을 수행하는 사용자 지정 워크 플로 또는 API를 구축해야합니다. 예를 들어, PDF 형식의 의료 보고서 세트를 살펴보고 제공된 환자 세부 정보 및 치료를 추출하려는 경우 워크 플로는 다음과 같습니다.

  1. PDF를 읽고 프로그래밍 라이브러리 또는 OCR을 사용하여 텍스트를 선택해야합니다.
  2. 다음으로 텍스트를 필터링하고 다음과 같이 선택한 정보를 추출해야합니다. Patient_id or 환자 이름. 이러한 PDF를 스캔하면 DL 알고리즘을 사용하여 이미지에서 이러한 텍스트를 추출 할 수있는 프로그램을 구축해야 할 수 있습니다.
  3. 테이블을 파싱하고 테이블에서 중요한 정보를 선택해야합니다.
  4. 모든 데이터를 원하는 형식 (예 : 데이터베이스 또는 엑셀 시트)으로 내 보내야합니다.

이러한 워크 플로의 대부분은 웹 애플리케이션으로 구축됩니다. 이를 통해 기업은 모든 문서를 클라우드에 저장하고 신속하게 처리 할 수 ​​있습니다. 기밀 데이터가 관련된 경우 모든 서비스를 자체 호스팅하거나 지능형 알고리즘으로 오프라인 소프트웨어를 구축합니다. 때로는 API 및 RPA 솔루션을 활용하여 로봇을 개발하고 이러한 워크 플로를 자동화합니다. 이제 API와 Webhook이 이러한 자동화 솔루션을 구축하여 PDF를 JSON으로 변환하는 방법을 살펴 보겠습니다.

이러한 각 지점이 서로 통신하도록하기 위해 API 또는 웹훅을 사용할 수 있습니다.

웹훅 : 웹훅은 어떤 일이 발생했을 때 앱에서 보내는 자동화 된 응답입니다. 메시지 (또는 페이로드)가 있고 고유 한 URL로 전송되며 본질적으로 워크 플로에서 작업을 연결하는 데 사용됩니다. 예를 들어 두 개의 작업이 있다고 가정 해 보겠습니다. 첫 번째 작업에서는 PDF에서 텍스트를 추출해야하고 두 번째 작업에서는 테이블을 추출해야합니다. 일반적으로 작업 XNUMX에서 작업 XNUMX까지 수동으로 트리거해야하지만 웹훅을 사용하면 PDF에서 텍스트가 추출되는 즉시 웹훅이 자동으로 PDF를 가져와 테이블을 내 보냅니다. 웹훅 사용에 대한 자세한 내용은 다음을 확인하십시오. 안내.

API: API는 웹에서 정보를 전달하는 익숙한 방법 중 하나입니다. PDF를 JSON으로 변환하는 것과 같은 작업의 경우 API 빌드는 이러한 작업을 수행하는 가장 쉬운 방법 중 하나입니다. API 서버를 생성하려면 먼저 웹 프레임 워크를 선택해야합니다. 우리는 OCR과 딥 러닝 알고리즘의 교차점을 다루고 있기 때문에 파이썬은 첫 번째 언어입니다. Django, Flask 및 FastAPI와 같은 Python에는 훨씬 더 쉽게 작업을 수행 할 수있는 멋진 프레임 워크가 있습니다.

그러나 잘 구성된 API 서버를 구축하려면 모든 데이터 스키마를 잘 구성해야합니다. 이렇게하면 워크 플로를 훨씬 더 원활하게 관리 할 수 ​​있습니다. 또한 데이터를 Nanonets와 같은 타사 API에 연결하여 추출 작업을 수행 할 수 있습니다. 예를 들어 이메일, 직접 업로드 및 다른 소프트웨어의 모든 PDF를 저장하는 로직이있는 워크 플로가 있다고 가정 해 보겠습니다. Nanonets API를 사용하여 모든 PDF 데이터를 필수 JSON 형식으로 변환 할 수 있습니다.


PDF 문서에서 정보를 추출하여 JSON 형식으로 변환하고 싶으십니까? Nanonets 확인 PDF 문서의 모든 정보를 JSON 형식으로 자동 내보내기!


PDF를 JSON으로 내보내는 동안 발생하는 일반적인 문제

  1. 모듈 구성: PDF가 전자적으로 생성 된 경우 대부분의 개발자는 다양한 프로그래밍 언어의 서로 다른 모듈 또는 프레임 워크를 사용하여 이러한 PDF에서 텍스트를 추출하고 JSON 형식으로 추출합니다. 그러나 이들은 서로 다른 환경에서 설정하는 동안 몇 가지 문제에 직면합니다.
  2. 여러 프레임 워크 구성: 작업을위한 사용자 지정 워크 플로를 구축하려면 다양한 라이브러리를 사용해야합니다. pdftotext PDF 데이터를 추출하려면 tabula 테이블을 추출하려면 pandas 테이블을 처리하고 마지막으로 'json'을 사용하여 데이터를 JSON으로 내 보냅니다. 이것은 Python을 사용하는 간단한 시나리오입니다. 그러나 JavaScript로 작업 할 때 테이블 추출과 관련된 프레임 워크를 찾지 못할 수 있습니다. 또한 이러한 모듈은 제한되어 있으며 일부는 PDF의 메타 데이터 만 반환합니다.
  3. 언어 및 특수 문자: PDF에서 텍스트 추출 작업을하는 동안 인기있는 라이브러리에서도 특수 문자 나 특정 언어를 읽을 수없는 경우가 있습니다. 대부분의 모듈은 영어를 지원합니다. 그러나 OCR과 같은 도구를 사용하면 30 개 이상의 언어로 작업 할 수 있습니다.

PDF에서 JSON으로 변환하는 Nanonets ™의 장점

이 섹션에서는 Nanonet이 PDF에서 JSON으로의 추출을보다 사용자 정의하고 쉽게 만드는 데 어떻게 도움이되는지 살펴 봅니다.

나노 넷 AI를 사용하여 수동 데이터 입력을 자동화하는 데 도움이 될 수있는 클라우드 기반 OCR입니다. 자체 데이터를 기반으로 OCR 모델을 구축 / 학습하고 JSON / CSV 또는 원하는 형식으로 내보낼 수있는 대시 보드가 있습니다. 다음은 PDF를 JSON으로 변환하기 위해 Nanonets를 사용하는 몇 가지 장점입니다.  

  1. 사용자 정의 규칙: 문서에서 추출 할 특정 필드를 선택할 수있는 사용자 지정 규칙을 추가하는 옵션이 있습니다. 예를 들어, 비즈니스 문서에 100 개의 필드가 있고 30 개 정도의 필드를 추출하려는 경우 Nanonets ™는 모델에서 필요한 필드를 선택하기 만하면됩니다. 이것은 모든 문서에 적용됩니다.
  2. 전처리: Nanonets ™에서는 추출 후 데이터를 후 처리 할 수도 있습니다. 예를 들어 추출 된 데이터에 오류가있는 경우 일부 스크립트를 작성하여 추출 된 데이터를 정리하고 원하는 형식으로 내보낼 수 있습니다.
  3. 사기 수표: 문서에 재무 또는 기밀 데이터가있는 경우 Nanonets ™ 모델은 사기 검사를 수행 할 수도 있습니다. 기본적으로 스캔 한 문서에서 편집 / 흐린 텍스트를 찾아 관리자에게 알립니다. 이러한 모델을 통해 중복 문서 또는 정보를 식별 할 수도 있습니다.
  4. 테이블 추출: Nanonets ™를 PDF to JSON 변환기로 사용할 때의 결정적인 이점 중 하나는 가장 높은 정확도로 테이블을 선택하고 복잡한 테이블에서도 데이터를 중첩 된 JSON으로 내보낼 수 있다는 것입니다. 따라서 키-값 쌍 추출과 테이블 추출을 별도로 작업 할 필요가 없습니다. 모든 것이 한 번에 완료됩니다.
  5. 잘못 스캔 된 이미지에서 추출: Nanonets ™ 모델은 이미지가 저해상도이거나 강력한 딥 러닝 기술을 사용하여 약간의 각도로 향하더라도 스캔 된 PDF에서 텍스트를 추출 할 수 있습니다.

코인 스마트. 유로파 최고의 비트 코인-보르 스
출처 : https://nanonets.com/blog/pdf-to-json/

spot_img

최신 인텔리전스

spot_img