Logo Zephyrnet

Cách OCR một tệp PDF

Ngày:

OCR (Nhận dạng ký tự quang học) là một công cụ thay đổi cuộc chơi cho bất kỳ ai làm việc với tài liệu PDF. Các tệp PDF nổi tiếng là khó chỉnh sửa và tìm kiếm. Khi bạn OCR một tệp PDF, nó đảm bảo văn bản được quét và trích xuất, giúp văn bản đó hoàn toàn có thể tìm kiếm, chỉnh sửa và truy cập được. 

Trong hướng dẫn này, chúng tôi sẽ so sánh các phương pháp OCR-ing PDF khác nhau để giúp bạn chọn phương pháp tốt nhất phù hợp với yêu cầu của mình. Chúng ta sẽ thảo luận về Adobe Acrobat, các công cụ nguồn mở và các giải pháp hỗ trợ AI. Ngoài ra, chúng tôi sẽ trả lời các câu hỏi phổ biến như cách OCR PDF trên máy Mac, làm cho PDF OCR có thể tìm kiếm được và chia sẻ các mẹo về cải thiện độ chính xác của OCR.

Hãy làm theo để chuyển đổi quy trình làm việc PDF của bạn.

1. Sử dụng Adobe Acrobat Pro

Adobe Acrobat Pro được coi là tiêu chuẩn vàng cho các tệp PDF OCR-ing. Là công ty dẫn đầu ngành về phần mềm PDF, Adobe trang bị cho Acrobat Pro các khả năng OCR nâng cao giúp dễ dàng xử lý các tài liệu phức tạp.

Bạn có thể OCR tài liệu bằng Acrobat Pro theo hai cách:

Phương pháp 1

  1. Mở tệp PDF trong Adobe Acrobat Pro.
  2. Nhấp vào “Tất cả công cụ” trên thanh công cụ.
  3. Một menu sẽ xuất hiện, liệt kê tất cả các công cụ có sẵn. Nhấp vào “Chỉnh sửa PDF”.
  4. Acrobat sẽ tự động áp dụng OCR và chuyển đổi văn bản.
  5. Tài liệu bây giờ hoàn toàn có thể chỉnh sửa và tìm kiếm được. Thay đổi phông chữ hoặc thêm chú thích nếu cần. Bạn cũng có thể tìm kiếm tài liệu bằng công cụ Tìm.

Phương pháp 2

  1. Mở Adobe Acrobat Pro. 
  2. Nhấp vào “Tất cả công cụ” trên thanh công cụ.
  3. Một menu sẽ xuất hiện, liệt kê tất cả các công cụ có sẵn. Nhấp vào “Quét và OCR”.
  4. Trong công cụ Quét và OCR, chọn tệp PDF bạn muốn OCR hoặc quét tài liệu vật lý trực tiếp bằng máy quét được kết nối.
  5. Nhấp vào “Nâng cao” nếu hình ảnh cần được làm sạch. Điều này sẽ cải thiện độ chính xác của OCR. 
  6. Nhấp vào “Nhận dạng văn bản” để bắt đầu quá trình OCR. Sau khi hoàn tất, tệp PDF sẽ có thể tìm kiếm và chỉnh sửa được. Bây giờ bạn có thể chỉnh sửa văn bản.

Ưu điểm cơ bản của việc sử dụng Acrobat Pro là công cụ OCR tiên tiến, có thể xử lý các bố cục phức tạp, tài liệu nhiều cột, quét độ phân giải thấp và văn bản viết tay với độ chính xác cao. Nó có sẵn trên các thiết bị Windows, Mac và Android và bạn cũng có thể truy cập các tính năng này trực tuyến. Hơn nữa, nó được kết nối với ứng dụng Adobe Mobile Scan của bạn, cho phép bạn quét tài liệu khi đang di chuyển và đồng bộ hóa chúng với thư viện Acrobat của bạn.

Tuy nhiên, bạn phải là người đăng ký Acrobat Pro để truy cập các khả năng OCR. Việc đăng ký có giá ở mức US $ 19.99 / tháng. Ngoài ra, mặc dù nó cho phép bạn tải lên nhiều tệp nhưng bạn sẽ phải OCR từng tệp một cách thủ công. Vì vậy, nếu bạn có nhiều tệp cần xử lý, việc này có thể trở nên tẻ nhạt.

Các công cụ OCR nguồn mở như Tesseract cung cấp giải pháp thay thế miễn phí để chuyển đổi tệp PDF thành các tệp có thể tìm kiếm và chỉnh sửa. Mặc dù chúng có thể không có đầy đủ tính năng như các giải pháp thương mại như Adobe Acrobat, nhưng chúng cung cấp mức độ chính xác khá cao cho hầu hết các trường hợp sử dụng. 

Tesseract có sẵn cho Windows, Mac và Linux. Trước tiên, bạn cần cài đặt nó trên máy tính để sử dụng. Sau khi cài đặt, bạn có thể làm theo các bước sau để OCR PDF:

  1. Mở tệp PDF trong công cụ xem hoặc chỉnh sửa như PDFelement. 
  2. Chọn khu vực hoặc trang bạn muốn OCR và chụp ảnh màn hình. Cắt hình ảnh nếu cần thiết.
  3. Mở Terminal để truy cập Tesseract. Nếu không tìm thấy Tesseract trong Terminal, hãy chỉnh sửa đường dẫn biến môi trường để dẫn thẳng đến thư mục cài đặt Tesseract.
  4. Sao chép đường dẫn của tệp hình ảnh mà bạn muốn OCR. Ví dụ: “C:UsersJohnDoePicturesScreenshotsScreenshot 230844.png”
  5. Nhập lệnh sau trong Terminal: “C:UsersJohnDoePicturesScreenshots>tesseract Ảnh chụp màn hình 230844.png”. Thao tác này sẽ chạy OCR trên hình ảnh và chuyển đổi bất kỳ văn bản nào nó tìm thấy thành định dạng có thể chỉnh sửa. 
  6. Sau khi OCR hoàn tất, Tesseract sẽ tạo một tệp chứa tất cả văn bản được trích xuất.
  7. Mở tệp này trong bất kỳ trình soạn thảo văn bản nào để xem và chỉnh sửa nội dung OCR-ed. Bạn cũng có thể nhập lệnh `–help` để có danh sách đầy đủ các tùy chọn Tesseract nếu cần.

Ưu điểm quan trọng của Tesseract là nó hoàn toàn miễn phí và là nguồn mở, do đó bạn không cần phải trả bất kỳ khoản phí cấp phép nào. Nó hoạt động tốt trên các bản quét sạch và các tài liệu được đánh máy. 

Tuy nhiên, nó gặp khó khăn với văn bản viết tay, bố cục phức tạp, nền màu và bản quét có độ phân giải thấp. Nếu tài liệu của bạn rõ ràng và được đánh máy, Tesseract sẽ cung cấp giải pháp miễn phí cho các nhu cầu OCR cơ bản. 

Bạn có thể cải thiện độ chính xác của Tesseract bằng cách xử lý trước các bản quét trước khi chạy OCR — điều chỉnh độ sáng hoặc độ tương phản, áp dụng bộ lọc, nâng cấp hình ảnh, v.v.

3. Sử dụng PDF OCR của Nanonets

Nanonets là giải pháp xử lý tài liệu được hỗ trợ bởi AI cung cấp các khả năng OCR nâng cao. Không giống như Acrobat Pro hay Tesseract, Nanonets hoàn toàn trực tuyến và không cần cài đặt. Bạn chỉ cần tải các tệp PDF của mình lên nền tảng đám mây của họ và ngay lập tức bắt đầu xử lý chúng bằng các thuật toán OCR hiện đại. Nó thậm chí có thể xử lý toàn bộ thư mục và hàng trăm tệp PDF trong một lần.

Nanonet có thể xử lý mọi thứ, từ tài liệu được đánh máy đơn giản đến bố cục phức tạp với chú thích viết tay, nền màu, biểu đồ và bảng, sử dụng mô hình học sâu để đạt được độ chính xác cao trên tất cả các loại tài liệu.

Dưới đây là cách hoạt động:

  1. Truy cập Nanonets.com và tạo một tài khoản miễn phí.
  2. Chọn mô hình OCR từ nhiều mô hình được đào tạo trước của Nanonets dành cho hóa đơn, biên lai hoặc đơn đặt hàng. Bạn cũng có thể xây dựng một mô hình tùy chỉnh phù hợp với loại tài liệu cụ thể của mình.
  3. Tải lên các tài liệu thể hiện các bố cục và trường dữ liệu khác nhau mà bạn cần trích xuất. Nanonets sẽ phân tích các mẫu này để hiểu cấu trúc tài liệu của bạn.
  4. Xác định các trường chính bạn muốn nắm bắt, chẳng hạn như ngày, tổng số tiền và dữ liệu bảng. Bạn có thể thu thập dữ liệu ở hầu hết mọi định dạng, bao gồm bảng, văn bản, JSON hoặc XML. Nanonets sẽ tự động trích xuất dữ liệu từ các tệp PDF của bạn và xuất dữ liệu ở định dạng được yêu cầu.
  5. Sau khi được định cấu hình, hãy tải lên các tài liệu PDF cần được OCR-ed. Nanonets sẽ xử lý các tệp bằng thuật toán trích xuất dữ liệu thông minh và OCR tiên tiến để chuyển đổi chúng thành các định dạng có thể tìm kiếm, chỉnh sửa được với đầu ra dữ liệu có cấu trúc. 
  6. Dữ liệu được trích xuất được sắp xếp và cấu trúc gọn gàng để bạn có thể nhập trực tiếp vào các hệ thống kinh doanh khác mà không cần nỗ lực thủ công. Bạn có thể xuất nó dưới dạng JSON, XML hoặc định dạng tùy chỉnh.

Nanonets cung cấp phiên bản miễn phí với tối đa 500 trang xử lý để bạn có thể dùng thử miễn phí. Sau đó, tốn kém $ 0.3 trên mỗi trang cho OCR.

Không giống như các giải pháp khác, Nanonets có khả năng mở rộng cao. Nó có thể xử lý hàng nghìn trang mỗi giờ, đảm bảo rằng bất kể khối lượng, các tệp của bạn sẽ được xử lý gần như ngay lập tức.

Bạn có thể thiết lập webhooks để truyền dữ liệu đã xử lý đến các ứng dụng khác hoặc sử dụng API nhà phát triển của Nanonets để xây dựng các tiện ích tích hợp tùy chỉnh.

Cách cải thiện quy trình PDF OCR

Công nghệ OCR khi được triển khai hiệu quả có thể giúp bạn tiết kiệm thời gian và nguồn lực. Hãy tưởng tượng bạn có thể giảm thời gian nhập dữ liệu trên mỗi trường tăng 95%. Nhóm của bạn có thể tập trung vào những nhiệm vụ có ý nghĩa hơn việc nhập dữ liệu nhàm chán.

Hãy cùng khám phá các mẹo để cải thiện độ chính xác và hiệu quả của quy trình PDF OCR của bạn:

1. Quét sơ bộ trước OCR

Nếu bạn đang xử lý các tài liệu được quét, bạn có thể điều chỉnh độ sáng, độ tương phản và độ sắc nét, đồng thời áp dụng các bộ lọc hoặc kỹ thuật nâng cao hình ảnh để giảm nhiễu và cải thiện độ rõ nét. 

Điều này sẽ tăng cường đáng kể độ chính xác của OCR. Ứng dụng Scanner của Adobe đi kèm với các tính năng nâng cao hình ảnh tích hợp. Bạn cũng có thể sử dụng các công cụ như PaperScan và NAPS2 để dọn dẹp các bản quét. Sau những chỉnh sửa này, bạn có thể lưu hình ảnh đã chỉnh sửa dưới dạng PDF trước khi chạy OCR.

2. Thiết lập quy trình xác thực và phân cấp phê duyệt

Cải thiện chất lượng dữ liệu bằng cách thiết lập quy tắc xác thực cho dữ liệu được trích xuất. Ví dụ: nếu số thứ tự trong tài liệu không có năm chữ số, nó sẽ tự động bị từ chối hoặc gắn cờ để xem xét thủ công. Bằng cách này, bạn có thể phát hiện lỗi trích xuất và chỉ phê duyệt dữ liệu hợp lệ. Bạn cũng có thể tích hợp hệ thống OCR của mình với cơ sở dữ liệu để xác thực dữ liệu được trích xuất.

Bạn có thể thiết lập hệ thống phân cấp phê duyệt trong đó nhân viên cấp dưới xem xét dữ liệu trước, sau đó là nhân viên cấp cao để phê duyệt lần cuối. Với thông báo tự động và cập nhật trạng thái trực tiếp, bạn có thể duy trì tính minh bạch và tránh việc chạy theo phê duyệt, giúp xử lý tài liệu nhanh hơn.

3. Xây dựng quy trình làm việc tự động

Hãy tưởng tượng bạn đang điều hành một dịch vụ cho thuê ô tô và có thể tự động xuất dữ liệu giấy phép lái xe của khách hàng sang Salesforce hoặc gửi dữ liệu hóa đơn tới QuickBooks mà không cần bất kỳ thao tác thủ công nào. Nó không chỉ tối ưu hóa PDF OCR của bạn mà còn cả các hoạt động tiếp theo.

Việc tích hợp giải pháp OCR của bạn với các ứng dụng kinh doanh thông qua API giúp việc tự động hóa này trở nên khả thi. Ví dụ: với Nanonets, bạn chỉ cần thiết lập trình kích hoạt dựa trên các sự kiện như hoàn thành xử lý tài liệu, trích xuất dữ liệu hoặc tải tệp mới lên. Việc tích hợp sẽ tự động xuất dữ liệu có cấu trúc từ Nanonet sang các hệ thống kinh doanh mong muốn—bao gồm QuickBooks, Xero, Microsoft Dynamics, Zendesk và nhiều hệ thống khác—loại bỏ các nỗ lực thủ công và đảm bảo luồng dữ liệu liền mạch giữa các hệ thống.

4. Đầu tư vào OCR tiên tiến với khả năng AI/ML

Không giống như OCR dựa trên quy tắc, các mô hình AI có khả năng thích ứng - liên tục học hỏi từ những điều chỉnh của con người và cải thiện theo thời gian. Ví dụ: Nanonets cung cấp mô hình AI độc quyền được đào tạo trên hàng triệu tài liệu, cho phép nó xử lý các bố cục phức tạp và đầy thách thức một cách hiệu quả.

OCR được hỗ trợ bởi AI đảm bảo rằng bạn có thể trích xuất thông tin từ tài liệu mà không làm mất ngữ cảnh. Nó có thể xử lý các ngôn ngữ, đơn vị tiền tệ, pháp lý hoặc đo lường khác nhau. Mức độ thông minh này không thể thực hiện được bằng cách trích xuất dựa trên mẫu hoặc theo quy tắc dựa trên các vị trí trường chính xác.

5. Huấn luyện các mô hình AI-OCR

Mặc dù các giải pháp OCR được hỗ trợ bởi AI đi kèm với các mô hình được đào tạo trước, việc đào tạo chúng sâu hơn về các loại tài liệu và bố cục cụ thể của bạn có thể nâng cao độ chính xác hơn nữa. Ví dụ: Nanonets cho phép bạn tải lên một bộ tài liệu mẫu đại diện cho các mẫu, định dạng và trường khác nhau mà bạn muốn chụp.

Các mẫu này giúp mô hình hiểu cấu trúc tài liệu của bạn và tinh chỉnh quy trình PDF OCR. Bạn cũng có thể cung cấp phản hồi bằng cách sửa các lỗi trích xuất được xác định trong quá trình xác thực. Chương trình đào tạo con người trong vòng lặp này liên tục nâng cao hiệu suất của mô hình AI.

6. Xây dựng các mô hình OCR tùy chỉnh khi được yêu cầu

Đôi khi, các mô hình được đào tạo trước có thể không bao gồm tất cả sự phức tạp trong tài liệu của bạn. Ví dụ: bạn có thể có các tài liệu dành riêng cho ngành với các trường và định dạng duy nhất. Trong những trường hợp như vậy, bạn có thể làm việc với nhà cung cấp OCR của mình để xây dựng các mô hình AI tùy chỉnh được đào tạo cụ thể trên tài liệu của bạn. 

Với Nanonets, người dùng có thể tạo các mô hình tùy chỉnh dành riêng cho loại tài liệu và trường của họ để trích xuất. Họ có thể tải lên các tài liệu mẫu và chú thích chúng bằng nhãn mà họ muốn trích xuất. Sau đó, AI sẽ học từ những ví dụ này và được đào tạo để nhận biết và trích xuất thông tin được chỉ định. Hệ thống yêu cầu ít nhất mười mẫu cho mỗi nhãn để đạt được độ chính xác tối ưu và người dùng có thể theo dõi số lượng mẫu cho mỗi nhãn và bổ sung thêm nếu cần.

Cách bắt đầu với Nanonets PDF OCR

Nanonets giúp bạn dễ dàng bắt đầu với PDF OCR. Chỉ cần đăng ký một tài khoản miễn phí trên trang web Nanonets. Bạn không cần phải cung cấp thẻ tín dụng. 

Dưới đây là hướng dẫn để giúp bạn bắt đầu:

  1. đăng kí tài khoản miễn phí: Chuyến thăm Nanonets.com và đăng ký tài khoản miễn phí—không cần thẻ tín dụng.
  2. Tạo hoặc chọn một mô hình: Bạn có thể xây dựng mô hình OCR tùy chỉnh cho các loại tài liệu cụ thể của mình hoặc chọn từ các mô hình được đào tạo trước của Nanonets cho hóa đơn, biên lai, v.v.
  3. Thiết lập tự động nhập: Chuyển tiếp email hoặc kết nối bộ lưu trữ đám mây để nhập tệp PDF mới vào Nanonet để tự động xử lý OCR liên tục.
  4. Tải lên tài liệu mẫu: Tải lên ít nhất 10 tài liệu mẫu thể hiện nhiều mẫu, định dạng và trường dữ liệu khác nhau mà bạn muốn trích xuất. Điều này sẽ giúp đào tạo mô hình AI.
  5. Xác định các trường để trích xuất: Chỉ cần chỉ định tên cho các trường dữ liệu quan trọng mà bạn muốn trích xuất từ ​​tài liệu của mình, chẳng hạn như Ngày, Số tiền, Dữ liệu bảng, v.v.
  6. Thiết lập xác thực: Định cấu hình quy tắc để xác thực dữ liệu được trích xuất và gắn cờ mọi lỗi để sửa nhằm đảm bảo độ chính xác.
  7. Xử lý tập tin của bạn: Tải lên tài liệu PDF của bạn. Nanonets sẽ xử lý chúng ngay lập tức bằng OCR và trích xuất dữ liệu thông minh.
  8. Xem xét và phê duyệt dữ liệu: Kiểm tra dữ liệu được trích xuất và phê duyệt các mục nhập hợp lệ. Duy trì tính minh bạch với các cập nhật trạng thái.
  9. Xuất dữ liệu sang hệ thống kinh doanh: Sau khi được phê duyệt, hãy xuất dữ liệu có cấu trúc sang ERP, kế toán, CRM hoặc các hệ thống khác của bạn một cách liền mạch.
  10. Tự động hóa quy trình làm việc: Thiết lập trình kích hoạt để truyền dữ liệu đến ứng dụng khi tài liệu được xử lý hoặc trích xuất dữ liệu. Loại bỏ những nỗ lực thủ công.

Nhìn chung, Nanonets giúp việc bổ sung các khả năng OCR thông minh vào quy trình làm việc tài liệu của bạn trở nên nhanh chóng và dễ dàng. Công cụ AI tự học mang lại độ chính xác cao ngay từ đầu đồng thời cho phép tùy chỉnh để xử lý các tài liệu phức tạp. Tích hợp liền mạch với các hệ thống kinh doanh cho phép tự động hóa từ đầu đến cuối thực sự.

Kết thúc

OCR thông minh và trích xuất dữ liệu có thể giúp khai thác giá trị to lớn từ quy trình làm việc của tài liệu. Điều quan trọng là chọn một giải pháp như Nanonets cung cấp OCR được hỗ trợ bởi AI ngay từ đầu và cho phép tùy chỉnh cho các nhu cầu cụ thể. 

Với khả năng tự phục vụ để xây dựng các mô hình tùy chỉnh, độ chính xác và tự động hóa liên tục được cải thiện ngay cả khi tài liệu của bạn phát triển. Cuối cùng, điều này đảm bảo bạn có thể xử lý dữ liệu phi cấu trúc trên quy mô lớn để thúc đẩy năng suất và tăng trưởng.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img