Làm cách nào để tự động trích xuất dữ liệu và số hóa các quy trình dựa trên tài liệu của bạn?

Làm thế nào để tự động hóa trích xuất dữ liệu và số hóa các quy trình dựa trên tài liệu của bạn?

Khai thác dữ liệu thủ công có còn là vấn đề vào năm 2021 không?

Khoảnh khắc tôi đọc tiêu đề của bài đăng trên blog, câu hỏi đầu tiên nảy ra trong đầu tôi là: 'Liệu Nhập dữ liệu thủ công có còn là vấn đề vào năm 2021 không?' Một chút nghiên cứu và tôi đã rất ngạc nhiên về quy mô của vấn đề. Nhiều tổ chức vẫn dựa vào việc nhập dữ liệu thủ công. Hầu hết trong số họ không đầu tư vào việc thiết lập một đường ống khai thác dữ liệu tự động vì nhập dữ liệu thủ công là cực kỳ rẻ và yêu cầu chuyên môn gần như bằng không. Tuy nhiên, theo Goldman Sachs 2018 báo cáo, chi phí trực tiếp và gián tiếp của việc nhập dữ liệu thủ công lên tới khoảng 2.7 nghìn tỷ đô la cho các doanh nghiệp toàn cầu.

Một trường hợp sử dụng tiềm năng cho đường ống khai thác dữ liệu tự động là trong đại dịch COVID-19. Rất nhiều dữ liệu như số người được kiểm tra, báo cáo kiểm tra của từng cá nhân, v.v. phải được nhập thủ công vào cơ sở dữ liệu. Tự động hóa quy trình sẽ tiết kiệm rất nhiều thời gian và nhân lực.

BẢN VẼ TRÍCH XUẤT DỮ LIỆU THỦ CÔNG:

Các lỗi: Khi thực hiện một công việc tẻ nhạt và lặp đi lặp lại như nhập dữ liệu thủ công, các lỗi chắc chắn sẽ xuất hiện. Việc xác định và sửa những lỗi này ở giai đoạn sau có thể là một việc tốn kém.
Quá trình chậm: Khi so sánh với trích xuất dữ liệu tự động, nhập dữ liệu thủ công là một quá trình cực kỳ chậm và có thể làm đình trệ toàn bộ quy trình sản xuất.
Bảo mật dữ liệu: Khi xử lý dữ liệu nhạy cảm, quy trình nhập dữ liệu thủ công có thể dẫn đến rò rỉ dữ liệu, từ đó có thể làm tổn hại hệ thống.

Bạn có đang gặp phải các vấn đề về Trích xuất dữ liệu thủ công không? Bạn muốn làm cho quá trình trích xuất dữ liệu của tổ chức của bạn hiệu quả? Đi qua Ống nano và tự mình tìm hiểu về cách có thể tự động trích xuất dữ liệu từ tài liệu.

PHẦN 1: DÒNG DỮ LIỆU

Để khắc phục những nhược điểm nêu trên, hầu hết tất cả các tổ chức lớn đều cần phải xây dựng một đường ống dẫn dữ liệu. Các thành phần chính của bất kỳ đường ống dữ liệu nào được mô tả một cách khéo léo bằng từ viết tắt ETL (Extract, Transform, Load). Data Extraction liên quan đến việc trích xuất dữ liệu từ nhiều nguồn khác nhau, giai đoạn chuyển đổi dữ liệu nhằm mục đích chuyển đổi dữ liệu này thành một định dạng cụ thể và tải dữ liệu đề cập đến quá trình lưu trữ dữ liệu này trong kho dữ liệu.

Làm thế nào để tự động hóa trích xuất dữ liệu và số hóa các quy trình dựa trên tài liệu của bạn? — Hình 1. Quy trình ETL

Là giai đoạn đầu tiên trong quy trình, việc trích xuất dữ liệu đóng một vai trò quan trọng trong bất kỳ tổ chức nào. Bài đăng này khám phá các phương pháp và công cụ khác nhau có thể được sử dụng để thực hiện trích xuất dữ liệu và cách Nhận dạng ký tự quang học (OCR) có thể được sử dụng cho nhiệm vụ này.

PHẦN 2: TỰ ĐỘNG TRÍCH XUẤT DỮ LIỆU:

Hầu như tất cả các phân tích dữ liệu ngày nay đều yêu cầu một lượng lớn dữ liệu để hoạt động tốt. Ví dụ: Bất kỳ tổ chức nào cũng muốn theo dõi hiệu suất của đối thủ cạnh tranh, xu hướng thị trường chung, đánh giá và phản ứng của khách hàng, v.v. Một cách để làm điều này là tận dụng công cụ trích xuất dữ liệu có thể quét web và truy xuất dữ liệu từ nhiều nguồn khác nhau. Phần sau đây nêu bật một số công cụ trích xuất dữ liệu giá phổ biến.

2.1: CÔNG CỤ TRÍCH XUẤT DỮ LIỆU
1) Trị liệu: Scrapy là một trình thu thập dữ liệu web mã nguồn mở được viết bằng python. Hãy xem qua một ví dụ đơn giản minh họa cách ngay cả một người mới hoàn thành cũng có thể quét web bằng Scrapy. Trong ví dụ sau, tôi đã sử dụng Scrapy để phân tích cú pháp tiêu đề của trang blog Nanonets.

Mặc dù tôi đã sử dụng Scrapy shell với mục đích phân tích cú pháp, nhưng hành vi tương tự có thể đạt được bằng cách sử dụng tập lệnh python.

Công cụ này cực kỳ trực quan và các phần tử từ bất kỳ trang HTML nào cũng có thể được phân tích cú pháp bằng CSS. Nhược điểm duy nhất của công cụ này theo quan điểm của người mới bắt đầu là việc phân tích cú pháp các trang web động khá khó khăn.

2) Octoparse, Outwit hub, Parsehub, v.v. là các công cụ mã nguồn mở khác cung cấp GUI trực quan để quét web.

Ngoài các công cụ mã nguồn mở này còn có các công ty chuyên thực hiện việc trích xuất dữ liệu. Các tổ chức nhỏ không có đủ nguồn lực để xây dựng các đường ống khai thác dữ liệu tùy chỉnh có thể thuê ngoài quy trình khai thác dữ liệu bằng cách sử dụng các dịch vụ khai thác dữ liệu này.

2.2: KỸ THUẬT TRÍCH XUẤT DỮ LIỆU

Lưu đồ dưới đây cung cấp giải thích ngắn gọn về một số kỹ thuật trích xuất dữ liệu.

Các phần sau khám phá việc sử dụng Nhận dạng ký tự quang học (OCR) để thực hiện tác vụ trích xuất dữ liệu.

Bạn có đang gặp phải các vấn đề về Trích xuất dữ liệu thủ công không? Bạn muốn làm cho quá trình trích xuất dữ liệu của tổ chức của bạn hiệu quả? Đi qua Ống nano và tự mình xem cách trích xuất dữ liệu từ tài liệu có thể được tự động hóa như thế nào.

PHẦN 3: TỰ ĐỘNG TRÍCH XUẤT DỮ LIỆU SỬ DỤNG OCR:

Nhận dạng ký tự quang học (OCR) là công nghệ nhận dạng các ký tự từ tài liệu in hoặc viết tay. Bằng cách thiết lập đường ống trích xuất dữ liệu sử dụng OCR, các tổ chức có thể tự động hóa quá trình trích xuất và lưu trữ dữ liệu.

TRÁI TIM CỦA BẤT KỲ HỆ THỐNG OCR nào:

Các công cụ OCR hiện đại đi kèm với một loạt các bước xử lý trước dữ liệu (loại bỏ nhiễu, mã hóa nhị phân, phân đoạn dòng) và các bước xử lý sau. Tuy nhiên, cốt lõi của bất kỳ hệ thống OCR nào nằm ở hai thành phần chính:

Một bộ chiết xuất tính năng và
Một bộ phân loại

Trình trích xuất tính năng trích xuất các tính năng tương ứng với mỗi lexeme (ký tự / từ). Các tính năng được trích xuất này được cung cấp làm đầu vào cho bộ phân loại để xác định xác suất của lexeme thuộc một lớp cụ thể.

CÁC CÁCH TIẾP CẬN TRUYỀN THỐNG ĐỂ GIẢI QUYẾT VẤN ĐỀ OCR:

Đối sánh Mẫu: Một tập hợp các mẫu (hình ảnh của từng ký tự trong bảng chữ cái) được thu thập và lưu trữ. Sau đó, mỗi ký tự của hình ảnh đầu vào được đối sánh với bộ sưu tập các mẫu này. Mỗi phép so sánh được liên kết với một phép đo độ tương đồng bằng cách sử dụng phép đo phù hợp nhất có thể được xác định.

Phương pháp dựa trên quy tắc: Khi còn nhỏ, chúng ta được dạy để nhận biết ký tự 'H' là hai đường thẳng đứng với một đường ngang nối chúng. Về mặt trực quan, đây là điều mà các phương pháp dựa trên quy tắc cố gắng đạt được. Một số đặc điểm cấu trúc nhất định được trích xuất từ các hình ảnh đầu vào và một hệ thống dựa trên quy tắc được sử dụng để phân loại chúng.

Ngoài các phương pháp được đề cập ở trên, nhiều phương pháp khác đã được phát triển để thực hiện OCR dựa trên thị giác máy tính truyền thống. Tuy nhiên, hầu như tất cả chúng đã được thay thế hoặc bổ sung bởi Deep Learning.
Bây giờ chúng ta đã có ý tưởng về OCR là gì và một số phương pháp tiếp cận truyền thống được sử dụng để thực hiện OCR, chúng ta hãy đi sâu hơn…

PHẦN 4: CÔNG CỤ OCR

Hãy cùng xem xét một số công cụ OCR hiện đại mã nguồn mở miễn phí:

Khối lập phương: Tesseract ban đầu được phát triển bởi HP và được phát hành dưới dạng phần mềm mã nguồn mở vào năm 2005. Kể từ đó, việc phát triển của nó đã được Google tiếp quản. Có rất nhiều hướng dẫn giải thích tất cả các chi tiết của tesseract OCR và cách nó có thể được sử dụng. Blog sau đây trên Nanonets cung cấp một đánh giá toàn diện về cùng một https://nanonets.com/blog/ocr-with-tesseract/#introduction
ocropus: OCRopus là một tập hợp các công cụ được sử dụng để thực hiện OCR trên hình ảnh. Đường ống chung của OCRopus chứa ba khối chính như trong hình bên dưới.

OCRopus là một công cụ GUI đầy đủ và có thể tùy chọn sử dụng tesseract trong phần phụ trợ để thực hiện OCR.

3. OCR mực: Calamari OCR là một phần mềm nhận dạng đường tương đối mới sử dụng mạng nơ-ron sâu được triển khai trong TensorFlow. Khi so sánh với Tesseract và OCRopus, Calamari OCR có ít giải thích chi tiết về kiến trúc mạng và hoạt động bên trong của nó. Đây có vẻ là một điểm tốt để chính thức hóa vấn đề OCR và xem xét nó qua con mắt của Calamari.

Giả sử rằng chúng ta muốn thực hiện nhận dạng Ký tự Quang học trên từ “Tốc độ” bằng cách sử dụng Mạng nơ ron sâu (DNN). Cũng giả sử rằng chúng ta đã tạo một DNN bằng cách sử dụng Nets thần kinh kết hợp (CNN) và bộ nhớ ngắn hạn dài (LSTM) để thực hiện tác vụ này. Mạng của chúng tôi dự đoán xác suất đầu ra liên quan đến từng lớp tại mọi thời điểm.

Ví dụ: Trong một kịch bản lý tưởng

Bảng dưới đây cho thấy các giá trị xác suất có thể có liên quan đến từng bước thời gian.

	T0	T1	T2	T3	T4
P (a)	0.001	0.002	0.01	0.01	0.001
P (b)	0.001	0.003	0.003	0.002	0.002
Máy tính)	0.005	0.005	0.002	0.001	0.001
P (d)	0.002	0.001	0.001	0.003	0.7
P (e)	0.001	0.002	0.7	0.8	0.002
. . .	. . .	. . .	. . .	. . .
P (p)	0.003	0.8	0.002	0.004	0.001
. . .	. . .	. . .	. . .	. . .
P (s)	0.7	0.008	0.002	0.001	0.007
. . .	. . .	. . .	. . .	. . .

Bảng 1. Xác suất liên quan đến mỗi lớp

Lấy xác suất tối đa dưới mỗi bước thời gian, chúng tôi nhận được đầu ra yêu cầu tức là TỐC ĐỘ. Điều gì có thể xảy ra với cách tiếp cận này? Hãy dành một chút thời gian để suy nghĩ về một giả định mà chúng ta đã đưa ra trong lý luận của mình, đó là sự liên kết của mỗi bước thời gian.
Chúng tôi giả định rằng mỗi bước thời gian xảy ra chính xác giữa các bảng chữ cái liên tiếp. Đầu ra sẽ rất khác nếu mạng nơ-ron quyết định căn chỉnh các bước thời gian như thể hiện trong hình 8.

Trong trường hợp này, mạng nơ-ron có thể dự đoán SSPPEEEEDD là đầu ra. Thứ hai, việc chuẩn bị dữ liệu huấn luyện cho mạng nơ-ron có thể cực kỳ tẻ nhạt. Chúng tôi sẽ cần chỉ định vị trí pixel chính xác mà tại đó mỗi bảng chữ cái bắt đầu và kết thúc.

Điều tưởng chừng như một nhiệm vụ đơn giản lại tỏ ra vô cùng bực bội. Vấn đề của các bước chấm công bị lệch và chú thích dữ liệu huấn luyện có thể được giải quyết bằng cách giới thiệu một hàm mất mát mới.

Phân loại theo thời gian kết nối (CTC)

CTC giúp chúng ta theo những cách sau:

Sử dụng mất CTC, chúng ta có thể huấn luyện mạng mà không cần phải chỉ định vị trí pixel của mỗi bảng chữ cái. Điều này đạt được bằng cách giới thiệu một nhân vật mới '-'. '-' được sử dụng để chỉ ra rằng không có ký tự nào được nhìn thấy tại một bước thời gian nhất định.
Sử dụng ký tự đặc biệt này '-', sự thật cơ bản có thể được sửa đổi để giải thích cho tất cả các vị trí có thể có từ "tốc độ" xuất hiện trong hình ảnh. Ví dụ: từ “speed” có thể được viết thành “—speed”, “–speed-”, “-speed–”, “speed—”. Tương tự, vì chúng tôi không biết mỗi bảng chữ cái có thể chiếm bao nhiêu dung lượng, chúng tôi thêm các ký tự lặp lại để giải thích cho các độ dài ký tự khác nhau, tức là “tốc độ” có thể được viết là “—sspeed”, “—ssspeed”, v.v.
Trong trường hợp các ký tự lặp lại thực tế trong sự thật cơ bản, chúng ta cần thêm dấu '-' giữa các ký tự được lặp lại. Do đó, từ “speed” có thể được mã hóa theo những cách sau: “—spe-ed”, “–spe-ed-”, “-spe-ed–”, “speech-ed–”, “–sspe-ed” , v.v ... Chúng tôi tính toán điểm số cho mỗi mã hóa có thể có và tổng của tất cả các điểm số riêng lẻ mang lại cho chúng tôi sự mất mát cho mỗi cặp (hình ảnh, sự thật cơ bản).
Sử dụng bộ giải mã CTC đơn giản hơn nhiều. Giả sử rằng bộ giải mã xuất ra “ssppe-eee-dd. Chúng ta có thể đơn giản loại bỏ các bản sao, tức là “ssppe-eee-dd” trở thành “Spe-ed”. Cuối cùng, chúng tôi loại bỏ các ký tự '-' để có được từ "tốc độ".

Tôi thấy các nguồn sau đây cực kỳ hữu ích khi tìm hiểu về sự mất CTC.https://distill.pub/2017/ctc/ https://dl.acm.org/doi/abs/10.1145/1143844.1143891

Việc triển khai mạng rất đơn giản. Theo bài báo (https://arxiv.org/pdf/1807.02004.pdf), mạng mặc định có các thông số kỹ thuật sau:

Kiến trúc: Lớp chuyển đổi -> Tổng hợp tối đa -> Lớp chuyển đổi -> Tổng hợp tối đa -> LSTM.

Thua: Mất CTC

Trình tối ưu hóa: Adam với tỷ lệ học tập là 0.001

Phù! Đó là rất nhiều lý thuyết. Hãy làm bẩn bàn tay của chúng ta bằng cách triển khai nhận dạng Ký tự Quang học bằng Calamari.

Bắt đầu từ trang github Calamari https://github.com/Calamari-OCR/calamari là một nhiệm vụ dễ dàng và tôi không gặp vấn đề gì trong quá trình cài đặt. Tôi quyết định sử dụng một mô hình được đào tạo trên tập dữ liệu uw3-hiện đại-tiếng Anh. Hình 9 cho thấy đầu vào được cấp cho mạng và Hình 10 cho thấy đầu ra tương ứng.

Calamari đã tạo ra sản lượng (Hình 10) với độ tin cậy là 97%. Nó hoạt động rất tốt trong hầu hết các trường hợp và có thể dễ dàng được tinh chỉnh để phù hợp với trường hợp sử dụng cụ thể của bạn.
LƯU Ý: Calamari thực hiện OCR trên một dòng văn bản tại một thời điểm. Nếu bạn muốn thực hiện OCR trên toàn bộ tài liệu, cần phải xử lý trước (phân tích bố cục, phân đoạn đường thẳng, v.v.) trước khi cung cấp hình ảnh cho Calamari.
Ngoài các công cụ OCR mã nguồn mở miễn phí nói trên, còn có một số công cụ trả phí như Google cloud vision, Microsoft Computer Vision API và Amazon Textract.

Phần tiếp theo nói về cách OCR có thể được sử dụng để giải quyết các vấn đề thực tế trong các ngành và tổ chức khác nhau.

Bạn có yêu cầu về trích xuất dữ liệu không? Đi tới Ống nano và xem cách bạn có thể tự động trích xuất dữ liệu từ các tài liệu như PDF, Biên lai, Hóa đơn, Biểu mẫu và hơn thế nữa.

PHẦN 5: CÁC TRƯỜNG HỢP SỬ DỤNG THỰC TIỄN CỦA VIỆC TRÍCH XUẤT DỮ LIỆU SỬ DỤNG OCR:

Bằng cách sử dụng đường ống OCR chung được hiển thị trong FlowChart3, một số vấn đề có thể được giải quyết bằng cách sử dụng OCR được làm sáng tỏ bên dưới.

Kỹ thuật trích xuất dữ liệu dựa trên OCR cho lĩnh vực chăm sóc sức khỏe

Vấn đề: Kể từ khi tôi còn là một cậu bé, trình tự các bước sau đây sẽ được thực hiện bất cứ khi nào tôi đến bệnh viện. Trước tiên, nhân viên lễ tân sẽ hỏi số ID của tôi. Sau đó, cô ấy sẽ đi sâu vào một chồng nhật ký khổng lồ được sắp xếp theo một cách nào đó. Thông thường, sau một thời gian dài tìm kiếm, tôi sẽ nhận được nhật ký và số token của mình. Bác sĩ sẽ xem xét nguyên nhân gây ra bệnh của tôi và ghi lại một đơn thuốc vào nhật ký của tôi. Sau khi giao đơn thuốc cho nhà thuốc, tôi sẽ nhận được các loại thuốc theo yêu cầu. Tôi cho rằng đây là thói quen được áp dụng ở hầu hết các bệnh viện địa phương trong cả nước.

Giải pháp: Sử dụng đường ống OCR của chúng tôi, tất cả thông tin có thể được số hóa và lưu trữ trong cơ sở dữ liệu. Một cách đơn giản để thực hiện điều này là giao các biểu mẫu cho từng bệnh nhân được quét và đưa vào đường ống OCR. Những lợi thế của việc này là gấp nhiều lần:

Bệnh sử của bệnh nhân có thể được lưu trữ trong một cơ sở dữ liệu chung mà các bác sĩ có thể truy cập theo ý muốn của họ. Thông tin này có thể giúp bác sĩ chẩn đoán bệnh.
Bệnh viện có thể phân tích dữ liệu và phân bổ nguồn lực của mình cho phù hợp. Ví dụ: Nếu dữ liệu chỉ ra rằng phần phụ khoa có số lượng bệnh nhân tối đa, bệnh viện có thể chọn tuyển dụng thêm bác sĩ và y tá trong phần này.

Cạm bẫy tiềm ẩn:

Như bạn có thể đoán, giải mã đơn thuốc của bác sĩ bằng OCR là một thách thức không nhỏ. Tuy nhiên, bằng cách sử dụng dữ liệu đào tạo chất lượng tốt cùng với một số thông tin theo miền cụ thể (tên các loại thuốc nổi tiếng) trong bước xử lý sau, giải pháp có thể được thực hiện mạnh mẽ đối với hầu hết các lỗi.

Dịch vụ trích xuất dữ liệu tự động có thể mang lại lợi ích cho Chính phủ

Vấn đề: Trong năm qua, đại dịch COVID-19 đã kéo theo hàng loạt vấn đề. Tôi khá ngạc nhiên khi biết rằng nhập dữ liệu thủ công là một trong số đó. Khi đại dịch lên đến đỉnh điểm, hàng nghìn cuộc kiểm tra được tiến hành mỗi ngày và tất cả kết quả phải được nhập thủ công vào cơ sở dữ liệu.

Giải pháp: OCR có thể dễ dàng được sử dụng trong trường hợp này. Bản sao quét của báo cáo phòng thí nghiệm có thể được đưa vào đường ống OCR. Ví dụ, Hình 11 cho thấy báo cáo thử nghiệm được cung cấp như một đầu vào cho đường ống và Hình 12 là kết quả tương ứng.

Vấn đề có thể được đơn giản hóa hơn nữa bằng cách tập trung vào các lĩnh vực quan trọng và bỏ qua các lĩnh vực còn lại. Trong trường hợp này, tên của cá nhân và kết quả của bài kiểm tra phải được trích xuất một cách đáng tin cậy. Vì kết quả của bài kiểm tra là nhị phân, tức là âm hoặc dương, chúng có thể được đối sánh bằng cách sử dụng biểu thức chính quy. Tương tự, trường tên có thể được thay thế bằng một số nhận dạng duy nhất để đảm bảo nhận dạng ký tự đáng tin cậy.

Phần mềm trích xuất dữ liệu dựa trên OCR để tự động hóa hóa đơn

VẤN ĐỀ: Sâu bên trong phần tài khoản của bất kỳ tổ chức nào là một nhóm người có công việc là nhập dữ liệu từ hóa đơn vào cơ sở dữ liệu của công ty theo cách thủ công. Đây là một công việc thường xuyên và lặp đi lặp lại có thể được tự động hóa nhờ hệ thống OCR của chúng tôi.

GIẢI PHÁP: Thực hiện OCR trên hóa đơn đã cho có thể tự động hóa nhiệm vụ nhập dữ liệu thủ công. Rất nhiều công việc đã được thực hiện trong lĩnh vực này và việc phát triển một giải pháp mạnh mẽ chủ yếu dựa vào việc trích xuất các bảng và số tiền một cách chính xác từ hóa đơn một cách đáng tin cậy.

Các bài đăng blog sau https://nanonets.com/blog/table-extraction-deep-learning/ và https://nanonets.com/blog/extract-structured-data-from-invoice/ cung cấp các giải thích toàn diện về giống nhau.

PHẦN 6: NGHIÊN CỨU MỚI NHẤT:

ScrabbleGAN: Độ dài thay đổi bán giám sát Tạo văn bản viết tay(https://arxiv.org/abs/2003.10557) (CVPR-2020):

Bài báo này đề cập đến vấn đề nhận dạng văn bản viết tay (HTR). Mặc dù các công cụ OCR hiện đại hoạt động tốt trên văn bản in, nhưng nhận dạng văn bản viết tay vẫn là một lĩnh vực đang phát triển. Các tác giả cho rằng lỗ hổng này là do thiếu dữ liệu đào tạo, tức là thiếu văn bản viết tay có chú thích. Các tác giả đề xuất một DNN có thể tạo ra các hình ảnh viết tay với nhiều kiểu khác nhau.

Hình 13. Minh họa kiến trúc của ScrabbleGAN. Bộ tạo tạo ra các hình ảnh tổng hợp được đưa đến bộ nhận dạng ngoài bộ phân biệt. Bộ phân biệt buộc trình tạo tạo ra các hình ảnh giống như thật trong khi trình nhận dạng đảm bảo rằng các từ có nghĩa được tạo bởi trình tạo.

Mạng được đào tạo theo cách bán giám sát và hai số liệu cụ thể là Tỷ lệ lỗi từ (WER) và khoảng cách chỉnh sửa chuẩn hóa (NED) được sử dụng để đánh giá.

2. OrigamiNet: OrigamiNet: Được giám sát yếu, không phân đoạn, nhận dạng văn bản một bước, toàn trang bằng cách học cách mở ra (https://arxiv.org/abs/2006.07491) (CVPR-2020):

Các kiến trúc OCR đầu tiên đã cố gắng phân đoạn từng ký tự từ hình ảnh đầu vào và phân loại từng ký tự được phân đoạn. Điều này tiến tới các phương pháp tiếp cận không phân đoạn trong đó toàn bộ từ được phân đoạn và phân loại. Ngày nay, hầu hết các phương pháp tiếp cận hiện đại đều hoạt động trên toàn bộ một dòng văn bản.

Trong bài báo này, các tác giả đề xuất một tập hợp các thao tác đơn giản cho phép OCR được thực hiện trên toàn bộ trang trong một lần chuyển tiếp qua mạng. Hạn chế chính trong việc thực hiện OCR trên toàn bộ trang là hàm mất CTC yêu cầu đầu vào là 1D. Điều này được minh họa rõ ràng trong Hình 15, trong đó đầu vào được lấy mẫu và chuyển đổi thành 1D trước giai đoạn tính toán tổn thất.

Vì CNN thực hiện tốt các nhiệm vụ như dịch hình ảnh sang hình ảnh, các tác giả sử dụng CNN để học chuyển đổi 2D sang 1D. Sơ đồ đối tượng từ mạng nơ-ron tích tụ đầy đủ chung được lấy mẫu theo chiều dọc và lấy mẫu theo chiều ngang theo chiều ngang trong hai giai đoạn liên tiếp trước khi thực hiện thao tác gộp.

Bản đồ đối tượng địa lý cao cuối cùng chứa tất cả các dòng văn bản từ hình ảnh đầu vào. Các tác giả cho rằng việc cung cấp cho mô hình đủ dung lượng không gian cho phép nó dễ dàng học được phép chuyển đổi 2D sang 1D cần thiết.
Các tác giả đánh giá công việc của họ bằng cách sử dụng các CNN tiêu chuẩn như ResNet, VGG và GTR

Kết luận:

Trong bài đăng này, chúng tôi đã xem xét chi tiết việc trích xuất dữ liệu và cách nhận dạng ký tự Quang học có thể được sử dụng để giải quyết vấn đề này. Phần 1 chứa một giới thiệu ngắn gọn về vấn đề trích xuất dữ liệu. Trong Phần 2, chúng ta đã xem xét một số công cụ và kỹ thuật trích xuất dữ liệu. Phần 3 đã giới thiệu tổng quan về vấn đề OCR và một số phương pháp truyền thống được sử dụng để giải quyết nó. Trong Phần 4, chúng ta đã khám phá một số công cụ nguồn mở phổ biến được sử dụng để thực hiện OCR và hiểu chức năng mất CTC. Phần 5 bao gồm một số trường hợp sử dụng thực tế trong đó OCR có thể được sử dụng để giải quyết vấn đề trích xuất dữ liệu. Cuối cùng, chúng tôi đã xem xét hiện trạng của nghiên cứu nghệ thuật trong lĩnh vực OCR.

Bắt đầu sử dụng Nanonets để tự động hóa

Hãy thử mô hình hoặc yêu cầu một bản demo ngay hôm nay!

THỬ NGAY

Nguồn: https://nanonets.com/blog/automating-data-extraction-and-digitizing-document-based-processes/

Trí thông minh dữ liệu tạo

Làm thế nào để tự động hóa trích xuất dữ liệu và số hóa các quy trình dựa trên tài liệu của bạn?

Khai thác dữ liệu thủ công có còn là vấn đề vào năm 2021 không?

Những người ủng hộ Áo thách thức ChatGPT về dữ liệu có lỗi

SpaceNews bổ nhiệm Paige McCullough làm Chủ tịch, dẫn đầu các nỗ lực mở rộng toàn cầu

Tin tức mới nhất

SpaceNews bổ nhiệm Paige McCullough làm Chủ tịch, dẫn đầu các nỗ lực mở rộng toàn cầu

SpaceNews bổ nhiệm Paige McCullough làm Chủ tịch, dẫn đầu các nỗ lực mở rộng toàn cầu

CEO Binance bị kết án tù: Người sáng lập sàn giao dịch tiền điện tử lớn nhất thế giới bị bỏ tù – CryptoInfoNet

Giá bitcoin tăng vọt, liệu phe bò có thể cứu được mức hỗ trợ quan trọng ở mức 60 nghìn đô la không?

Ấn Độ. 72.400 ha sa mạc và một vùng sazonal sazonal cho một dự án năng lượng khổng lồ cải tạo năng lượng mặt trời và điện tử 30 GW.

Ấn Độ. 72,400 ha sa mạc và đầm lầy muối theo mùa cho dự án năng lượng tái tạo năng lượng mặt trời và gió khổng lồ 30 GW.