제퍼넷 로고

Amazon Textract를 사용하는 일반 문서 세분화 도구로 신문 디지털화 효율성 향상

시간

우리는 디지털 시대에 살고 있습니다. 인쇄물로 유포되던 정보는 디지털 형식을 통해 예상치 못한 속도로 유포됩니다. 새로운 유형의 미디어 발명과 병행하여 점점 더 많은 수의 아카이브와 라이브러리가 새로운 기술로 디지털 저장소를 만들려고 노력하고 있습니다. 디지털화는 액세스 가능한 대리자를 생성하여 보존을 허용하는 동시에 더 쉬운 저장, 인덱싱 및 더 빠른 검색을 가능하게합니다.

이 게시물에서는 다음을 사용하여 신문 기사를 효율적으로 디지털화하는 방법을 보여줍니다. 아마존 텍사스 문서 분할 모듈을 사용합니다. Amazon Textract는 스캔 한 문서에서 텍스트와 데이터를 자동으로 추출하는 완전 관리 형 기계 학습 (ML) 서비스입니다. 이 사용 사례에서는 사용자 지정 세분화 도구가 Amazon Textract를 더욱 강화하여 낮은 이미지 품질에도 불구하고 작고 오래된 독일어 글꼴을 인식하는 방법을 보여줍니다. 제안 된 솔루션은 다음과 같은 방식으로 Amazon Textract의 기능을 확장합니다.

  • Amazon Textract가 복잡한 구조와 스타일의 문서를 처리 할 수 ​​있도록 추가 지원을 제공합니다 (예 : 다양한 너비의 열 텍스트, 이미지 주위에 떠있는 텍스트 블록, 이미지와 테이블 내에 중첩 된 텍스트, 다양한 크기와 스타일의 글꼴).
  • 대용량 문서에 대한 Amazon Textract의 10MB 이미지 (예 : JPEG 및 PNG 형식) 크기 제한 극복

일반 문서 분할 모듈은 레이아웃을 인식하여 문서를 지능적으로 분할합니다. 대형 이미지 파일을 레이아웃과 일치하는 작은 조각으로자를 수 있습니다. 그러면 각각의 작은 이미지는 10MB 제한 미만이며 최적의 OCR 결과를 위해 원래 해상도가 유지됩니다. 이 세분화 도구의 또 다른 이점은 감지 된 세그먼트에서 추출 된 텍스트가 사람의 읽기 습관에 따라 올바르게 정렬되고 그룹화된다는 것입니다. 신문 이미지의 원시 Amazon Textract OCR 결과는 각 단어가 속한 세그먼트 (또는 기사)를 모른 채 의미있는 문장으로 자동 그룹화 될 수 없습니다. 사실, 페이지를 서로 다른 컨텍스트를 사용하여 여러 지역으로 분할하는 것은 기존 문서 디지털화 파이프 라인의 일반적인 관행입니다.

다음 섹션에서는 FCN (Fully Convolutional Network) 기반 문서 분할 엔진을 개발하는 프로세스를 보여줍니다. 아마존 세이지 메이커아마존 세이지 메이커 그라운드 진실. 테스트 신문 이미지에 세분화 모델을 적용한 후 배경, 그림, 헤드 라인 및 다른 기사를 구분할 수있었습니다. 단어 회수를위한 프록시로 단어 수를 기본 Amazon Textract와 비교했습니다. 특정 사용 사례 (복잡한 레이아웃에 작고 오래된 스타일의 글꼴이있는 오래된 저품질 신문 이미지)의 경우, 솔루션은 이미지를 자르고 세그먼트를 Amazon Textract 대신 Amazon Textract로 보낸 후 일관되게 더 많은 단어를 선택할 수있었습니다. 전체 페이지.

이 엔드 투 엔드 워크 플로를 모든 문서 레이아웃 분석에 쉽게 적용하고 Amazon Textract를 사용하여 다양한 상황 인식 텍스트 추출 작업을 처리 할 수 ​​있습니다.

솔루션 파이프 라인

다음 그림에는 종단 간 파이프 라인이 나와 있습니다. 핵심 아이디어는 세분화 단계를 추가하여 신문을 레이아웃에 따라 더 작은 세그먼트로 분할하고 각 세그먼트를 Amazon Textract에 공급하여 고품질 텍스트 OCR 결과를 얻기 위해 이미지 파일 크기와 이미지 해상도 임계 값을 모두 충족하는 것입니다. 각 세그먼트. 그런 다음 모든 세그먼트의 결과를 적절한 읽기 순서로 연결합니다. 세분화 모델은 Amazon SageMaker로 훈련됩니다.

BBZ 신문 데이터 세트

우리는 역사적인 Berliner Borsen-Zeitung (BBZ) 신문 모음을 기반으로 세분화 모델을 훈련했습니다. BBZ는 1855 ~ 1944 년에 발행 된 독일 신문입니다. 그 레이아웃은 텍스트, 이미지, 구분선, 장식 테두리 및 다양한 복잡한 다중 열 표를 포함하는 비교적 복잡했습니다. 이 사용 사례에서는 약 200 개의 신문 이미지를 사용했습니다.

Amazon SageMaker Ground Truth를 사용하여 세그먼트 레이블 생성

Amazon SageMaker Ground Truth를 사용하여 교육용 세그먼트 레이블을 생성했습니다. Ground Truth는 ML에 대한 매우 정확한 교육 데이터 세트를 쉽게 구축 할 수 있도록하는 완전 관리 형 데이터 레이블 지정 서비스입니다. Ground Truth에는 객체 감지, 이미지 분류, 텍스트 분류 및 의미 체계 분할을 포함하여 몇 가지 기본 제공 레이블링 워크 플로가 있습니다.

우리의 목표는 세분화 모델을 훈련하는 것이었기 때문에 데이터 세트를 탐색 한 후 기사, 이미지, 광고, 테이블 및 제목의 XNUMX 개 클래스로 의미 론적 세분화 레이블 지정 작업을 만들었습니다. 다음 이미지는 세그먼트 레이블이있는 신문 이미지의 예를 보여줍니다. 이 레이블은 JSON 형식으로 저장되었습니다. 아마존 단순 스토리지 서비스 (Amazon S3) 이후에 모델 데이터 로더에 공급하도록 처리되었습니다.

시맨틱 분할 레이블 작성에 대한 자세한 정보는 다음을 참조하십시오. 이미지 시맨틱 분할Amazon SageMaker Ground Truth – 매우 정확한 데이터 세트를 구축하고 라벨링 비용을 최대 70 %까지 절감.

라벨링 진행 상황 추적

약 200 개의 이미지 만 사용했기 때문에이 라벨링 작업을 위해 XNUMX 명의 개인 라벨링 인력을 만들었습니다. 자체 개인 팀을 사용하여 데이터 레이블 지정을 수행 할 때 레이블 작업을 균등하게 분할하고 각 작업자의 처리량과 효율성을 추적 할 수 있습니다. Ground Truth는 이제 작업자 이벤트 (예 : 라벨러가 작업을 시작하고 제출할 때)를 아마존 클라우드 워치. 또한 CloudWatch의 기본 제공 지표 기능을 사용하여 작업 팀 또는 개별 작업자의 처리량을 측정하고 추적 할 수 있습니다. 예를 들어, 다음 대시 보드에 표시된대로 각 개인의 진행 상황 (레이블이 지정된 이미지 및 소요 시간)을 추적 할 수 있습니다.

자세한 내용은 다음 링크를 참조하세요 Amazon SageMaker Ground Truth를 통해 프라이빗 라벨링 팀의 처리량 추적.

신문을위한 맞춤형 시맨틱 분할

영감을받은 이전 연구 문서의 시각적 모양을 기반으로 한 시맨틱 분할 접근 방식을 보여주는, 우리는 사용 사례에 대한 맞춤형 FCN 시맨틱 분할 모델을 개발했습니다. 무작위 가중치 초기화로 모델을 처음부터 훈련 시켰습니다. 완전 컨벌루션 신경망에는 다음 구성 요소가 포함됩니다.

  • 특징 추출 다운 샘플링 컨볼 루션
  • 디컨 볼 루션 업 스케일링
  • 정제 회선
  • 픽셀을 클래스로 분류하는 분류 레이어

자세한 네트워크 아키텍처는 다음 그림에 나와 있습니다 (크기 제한이 주어지면 구체화 블록이 표시되지 않음). 훈련 작업을 단순화하기 위해 모든 콘텐츠 블록 (기사, 이미지, 광고, 표 및 제목)을 전경으로 그룹화하고 다른 영역을 배경으로 유지했습니다. 특징 추출의 일부로 이미지의 정보를 컨볼 루션 및 최대 풀링을 통해 캡처하고 인코딩 할 수 있습니다. 그런 다음 deconvolution 네트워크는 축소 된 이미지를 디코딩하고 원래 크기로 다시 확대합니다. 마지막으로 시그 모이 드 함수를 적용하여 확률이있는 픽셀 수준 분류를 수행했습니다.

모델을 미세 조정하기 위해 먼저 FCN 모델을 학습하는 데 필요한 레이블이 지정된 세그먼트의 Ground Truth 경계 상자에서 마스크를 생성했습니다. 이미지와 해당 마스크는 512 x 512로 크기가 조정되었으며 8 개 샘플의 배치로 무작위로 결합되어 신경망에 공급되었습니다. 모델이 전경과 배경의 불균형에 의해 영향을받지 않도록하기 위해 가중치 손실이 적용되었습니다. FCN 모델은 ml.p3.8xlarge 노트북 인스턴스를 사용하여 SageMaker에서 학습되었습니다. 100 epoch를 훈련 한 후이 의미 론적 분할 모델의 픽셀 수준 정확도는 전경 픽셀에서 0.90이고 테스트 데이터에서 배경 픽셀에서 0.82였습니다.

마스크를 경계 상자로 변환

FCN의 출력은 각 픽셀에 대한 이진 변수이기 때문에 각 세그먼트의 경계는 직사각형이 아니며 신문을 자르는 데 쉽게 사용할 수 없습니다. 우리는 다음 그림과 같이 마스크를 영역으로 변환하는 형태 기반 알고리즘을 개발했습니다.

알고리즘의 단계는 다음과 같습니다.

  1. 실험적으로 얻은 임계 값을 기반으로 마스크를 이진화합니다.
  2. 이진화 된 이미지에 형태 학적 연산 (예 : 팽창 및 침식)을 적용합니다.
  3. 연결된 구성 요소를 만들기 위해 플러드 채우기 알고리즘을 적용합니다.
  4. 최소 및 최대 x 및 y 좌표를 찾아 연결된 각 구성 요소에 대한 경계 상자를 가져옵니다.

이전 단계 중 형태 학적 작업은 모양을 기반으로 이미지를 처리하는 광범위한 이미지 처리 작업입니다. 이러한 작업은 초기 이미지에 구조 요소를 적용한 후 동일한 크기의 수정 된 이미지를 만듭니다. 구조 요소의 가중치가 고정되어 있다는 점을 제외하면 컨볼 루션 신경망의 컨볼 루션과 유사하게 작동합니다. 특히, 출력의 각 픽셀의 값은 선택한 구조 요소의 가중치에 의해 결정된 인접 픽셀의 특정 형태의 합산 또는 기울기에서 파생됩니다. 이러한 작업의 목적은 관심있는 기능을 향상 시키거나 약화시키는 것입니다. 예를 들어, 형태 학적 확장의 효과는 물체를 더 잘 보이게 만들고 물체의 작은 구멍을 채우고 침식의 효과는 고립 된 작은 영역을 제거하는 것입니다.

경계 상자 후 처리

마스크 변환에서 얻은 결과 경계 상자에는 다음과 같은 결함이 있습니다.

  • 겹치는 경계 상자
  • 경계 상자 사이의 간격과 불완전한 열 방향 정렬
  • 지나치게 조각난 세그먼트 (작은 세그먼트가 너무 많음)

이러한 결함을 완화하기 위해 추가 후 처리 단계를 개발했습니다. 다음과 같은 이유로 영역 경계 상자의 품질을 개선해야했습니다.

  • 각 세그먼트에서 Amazon Textract API 호출이 발생하므로 Amazon Textract API 사용을 최소화하여 컴퓨팅 비용을 줄이려면
  • 동일한 영역이 반복적으로 처리되어 중복 텍스트가 발생하지 않도록 방지
  • 단어를 자르거나 세그먼트 경계에서 단어를 완전히 누락하지 않으려면

겹치는 경계 상자를 제거하기 위해 IoU (Simple Intersection Over Union) 임계 값을 적용했습니다. 즉, 두 경계 상자가 서로 교차하는 경우 둘 사이의 IoU 비율 (겹치는 영역 또는 결합 영역)을 계산합니다. 실험을 통해 IoU 임계 값을 80 %로 선택했습니다. 즉, IoU가 80 %를 초과하면 둘 중 더 작은 경계 상자를 제거했습니다.

세그먼트의 경계를 자세히 살펴보면 원시 경계 상자 사이에 여전히 존재하는 간격이 발견되었으며 경계 상자가 완벽하게 정렬되지 않았습니다. 그 지역에는 종종 우리가 잃고 싶지 않은 텍스트가있었습니다.

경계 상자 사이의 간격을 제거하고 경계를 더 잘 정렬하기 위해 각 경계 상자 중심의 유클리드 거리를 기반으로 원시 경계 상자를 그룹으로 묶고 클러스터의 모서리 꼭지점 만 유지했습니다. 이렇게하면 중심이 가까운 모든 작은 경계 상자가 하나의 정렬 된 경계와 함께 결합되었습니다.

경계 상자를 병합하기위한 추가 단계를 통합했습니다. 예를 들어 경계 상자가 동일한 열 세그먼트에서 세로로 정렬 된 경우 인접한 세로로 정렬 된 경계 상자를 병합했습니다.

마지막으로, 사람이 읽는 순서에 따라 위에서 아래로, 왼쪽에서 오른쪽으로 좌표별로 경계 상자를 정렬했습니다. 다음 이미지는 사후 처리 전후의 예를 보여줍니다.

추가 세분화 단계의 이점 정량화

신문의 텍스트에 대한 근거가 없다는 점을 감안할 때 단어 수를 단어 회상 메트릭의 대용 물로 사용하여 세분화 단계를 추가하여 정보 이득을 평가했습니다.

다음 그림에서 각 점은 하나의 테스트 샘플 이미지를 나타냅니다. X 축은 세분화없이 Amazon Textract에서 추출한 단어 수를 나타내고 Y 축은 세분화가있는 연결된 아티클의 단어 수입니다. 일반적으로 Amazon Textract가 인식하는 단어의 수는 신문의 일부를 확대하면 증가하는 것으로 나타났습니다. 평균적으로 단어 수는 97 % 증가했습니다.

단어 수 증가는 "Kurszettel der Berliner Börsen-Zeitung"(영어로 된 Berlin Stock-Newspaper의 재고 목록) 페이지에서 가장 중요합니다. 다음 이미지는 이러한 비교를 보여줍니다. Amazon Textract에서 인식 한 단어는 작은 경계 상자로 강조 표시됩니다. 왼쪽 이미지는 전체 페이지를 사용하여 Amazon Textract에서 인식 한 단어를 보여줍니다. 오른쪽 이미지는 잘린 부분을 Amazon Textract에 공급하여 인식 된 단어를 보여줍니다. 이 구체적인 예에서는 단어 수가 100 개에서 2,945 개로 증가했습니다.

요약

Amazon SageMaker에서 사용자 지정 신경망 기반 문서 세분화 엔진을 개발했습니다. Amazon Textract와 함께 신문에 최적의 텍스트 추출 솔루션을 제공합니다. 사전 처리 단계로 사용한 세분화 모듈은 신문과 같이 복잡한 레이아웃이있는 문서를 더 잘 처리 할 수 ​​있도록 Amazon Textract를 강화했습니다. 추가 세분화 단계는 문서의 각 세그먼트를 확대하여 글꼴 크기가 작고 해상도가 낮은 텍스트의 추출 품질을 향상시키는데도 도움이되었습니다.

제품 및 서비스에서 ML 사용을 가속화하는 데 도움이 필요한 경우 Amazon ML Solutions Lab 프로그램. Amazon ML Solutions Lab은 팀과 ML 전문가를 연결하여 조직의 가장 높은 투자 수익률 ML 기회를 해결하기위한 ML 솔루션을 식별하고 구축 할 수 있도록 지원합니다. 발견 워크숍 및 아이디어 세션을 통해 ML Solutions Lab은 비즈니스 문제에서 거꾸로 작업하여 우선 순위가 지정된 ML 사용 사례의 로드맵과이를 해결하기위한 구현 계획을 제공합니다.


저자에 관하여

양광 의 데이터 과학자입니다 Amazon ML 솔루션 실습 그는 다양한 업종의 고객과 협력하고 창의적인 문제 해결을 적용하여 최첨단 ML / AI 솔루션으로 고객 가치를 창출합니다.

주 웬젠 데이터 과학자입니다. Amazon ML 솔루션 실습 Amazon Web Services의 팀입니다. 그녀는 기계 학습과 딥 러닝을 활용하여 AWS 고객을위한 산업 전반의 다양한 문제를 해결합니다.

수치트라 사티아나라야나 의 매니저입니다 Amazon ML 솔루션 랩, 다양한 업종의 AWS 고객이 AI 및 클라우드 채택을 가속화하도록 지원합니다. 그녀는 싱가포르의 Nanyang Technological University에서 컴퓨터 비전 박사 학위를 받았습니다.

라지 비스와스 데이터 과학자입니다. 아마존 머신 러닝 솔루션 랩. 그는 AWS 고객이 가장 시급한 비즈니스 과제에 대해 다양한 산업 분야에서 기계 학습 기반 솔루션을 개발하도록 돕습니다. AWS에 합류하기 전에는 Columbia University의 데이터 과학 대학원생이었습니다.

장 톈위 Amazon ML Solutions Lab의 데이터 과학자입니다. 그는 ML 및 AI 기술을 적용하여 AWS 고객이 비즈니스 문제를 해결하도록 돕습니다. 가장 최근에는 조달 및 스포츠를위한 NLP 모델과 예측 모델을 구축했습니다.

코인 스마트. 유로파 최고의 비트 코인-보르 스
출처 : https://aws.amazon.com/blogs/machine-learning/improve-newspaper-digitalization-efficacy-with-a-generic-document-segmentation-tool-using-amazon-textract/

spot_img

최신 인텔리전스

spot_img