Zephyrnet-Logo

So erstellen Sie eine OCR-Datei in einer PDF-Datei

Datum:

OCR (Optical Character Recognition) ist eine Revolution für jeden, der mit PDF-Dokumenten arbeitet. PDFs sind dafür bekannt, dass sie schwer zu bearbeiten und zu durchsuchen sind. Wenn Sie eine PDF-Datei mit OCR versehen, wird sichergestellt, dass der Text gescannt und extrahiert wird, sodass er vollständig durchsuchbar, bearbeitbar und zugänglich ist. 

In diesem Leitfaden vergleichen wir verschiedene Methoden zur OCR-Erstellung von PDFs, um Ihnen bei der Auswahl der für Ihre Anforderungen am besten geeigneten Methode zu helfen. Wir werden über Adobe Acrobat, Open-Source-Tools und KI-gestützte Lösungen diskutieren. Darüber hinaus beantworten wir häufige Fragen wie die OCR-Erkennung einer PDF-Datei auf einem Mac, machen eine PDF-OCR durchsuchbar und geben Tipps zur Verbesserung der OCR-Genauigkeit.

Folgen Sie uns, um Ihre PDF-Workflows zu transformieren.

1. Verwendung von Adobe Acrobat Pro

Adobe Acrobat Pro gilt als Goldstandard für die OCR-Erstellung von PDFs. Als Branchenführer im Bereich PDF-Software stattet Adobe Acrobat Pro mit erweiterten OCR-Funktionen aus, mit denen komplexe Dokumente problemlos verarbeitet werden können.

Sie können ein Dokument mit Acrobat Pro auf zwei Arten mit OCR versehen:

Methode 1

  1. Öffnen Sie die PDF-Datei in Adobe Acrobat Pro.
  2. Klicken Sie in der Symbolleiste auf „Alle Tools“.
  3. Es erscheint ein Menü, das alle verfügbaren Tools auflistet. Klicken Sie auf „PDF bearbeiten“.
  4. Acrobat wendet automatisch OCR an und konvertiert den Text.
  5. Das Dokument ist jetzt vollständig bearbeitbar und durchsuchbar. Ändern Sie die Schriftart oder fügen Sie nach Bedarf Anmerkungen hinzu. Sie können das Dokument auch mit dem Suchtool durchsuchen.

Methode 2

  1. Öffnen Sie Adobe Acrobat Pro. 
  2. Klicken Sie in der Symbolleiste auf „Alle Tools“.
  3. Es erscheint ein Menü, das alle verfügbaren Tools auflistet. Klicken Sie auf „Scannen und OCR“.
  4. Wählen Sie im Scan- und OCR-Tool die PDF-Datei aus, die Sie mit OCR versehen möchten, oder scannen Sie ein physisches Dokument direkt mit einem angeschlossenen Scanner.
  5. Klicken Sie auf „Verbessern“, wenn das Bild bereinigt werden muss. Dadurch wird die OCR-Genauigkeit verbessert. 
  6. Klicken Sie auf „Text erkennen“, um den OCR-Vorgang zu starten. Sobald die PDF-Datei fertig ist, kann sie durchsucht und bearbeitet werden. Sie können jetzt Text bearbeiten.

Der wesentliche Vorteil von Acrobat Pro ist die fortschrittliche OCR-Engine, die komplexe Layouts, mehrspaltige Dokumente, Scans mit niedriger Auflösung und handgeschriebenen Text mit hoher Genauigkeit verarbeiten kann. Es ist auf Windows-, Mac- und Android-Geräten verfügbar und Sie können auf diese Funktionen auch online zugreifen. Darüber hinaus ist es mit Ihrer Adobe Mobile Scan-App verbunden, sodass Sie Dokumente unterwegs scannen und mit Ihrer Acrobat-Bibliothek synchronisieren können.

Sie müssen jedoch ein Acrobat Pro-Abonnent sein, um auf die OCR-Funktionen zugreifen zu können. Der Preis für das Abonnement beträgt 19.99 US-Dollar/Monat. Darüber hinaus können Sie zwar mehrere Dateien hochladen, müssen jedoch jede Datei einzeln manuell mit OCR versehen. Wenn Sie also viele Dateien verarbeiten müssen, kann es mühsam werden.

Open-Source-OCR-Tools wie Tesseract bieten eine kostenlose Alternative zum Konvertieren von PDFs in durchsuchbare, bearbeitbare Dateien. Obwohl sie möglicherweise nicht so umfassend sind wie kommerzielle Lösungen wie Adobe Acrobat, bieten sie für die meisten Anwendungsfälle ein angemessenes Maß an Genauigkeit. 

Tesseract ist für Windows, Mac und Linux verfügbar. Sie müssen es zunächst auf Ihrem Computer installieren, um es verwenden zu können. Nach der Installation können Sie die folgenden Schritte zur OCR-Erkennung einer PDF-Datei ausführen:

  1. Öffnen Sie die PDF-Datei in einem Viewer oder Editor-Tool wie PDFelement. 
  2. Wählen Sie den Bereich oder die Seite aus, die Sie per OCR erfassen möchten, und machen Sie einen Screenshot. Beschneiden Sie das Bild bei Bedarf.
  3. Öffnen Sie das Terminal, um auf Tesseract zuzugreifen. Wenn Tesseract im Terminal nicht gefunden wird, bearbeiten Sie den Pfad der Umgebungsvariablen, um zum Tesseract-Installationsverzeichnis zu gelangen.
  4. Kopieren Sie den Pfad der Bilddatei, die Sie per OCR erfassen möchten. Zum Beispiel: „C:UsersJohnDoePicturesScreenshotsScreenshot 230844.png“
  5. Geben Sie im Terminal den folgenden Befehl ein: „C:UsersJohnDoePicturesScreenshots>tesseract Screenshot 230844.png“. Dadurch wird OCR für das Bild ausgeführt und der gefundene Text in ein bearbeitbares Format konvertiert. 
  6. Sobald die OCR abgeschlossen ist, generiert Tesseract eine Datei mit dem gesamten extrahierten Text.
  7. Öffnen Sie diese Datei in einem beliebigen Texteditor, um den OCR-erstellten Inhalt anzuzeigen und zu bearbeiten. Sie können bei Bedarf auch den Befehl „–help“ eingeben, um die vollständige Liste der Tesseract-Optionen abzurufen.

Der entscheidende Vorteil von Tesseract besteht darin, dass es völlig kostenlos und Open Source ist, sodass Sie keine Lizenzgebühren zahlen müssen. Es funktioniert gut bei sauberen Scans und getippten Dokumenten. 

Allerdings hat es Probleme mit handgeschriebenem Text, komplexen Layouts, farbigen Hintergründen und Scans mit niedriger Auflösung. Wenn Ihre Dokumente sauber und getippt sind, bietet Tesseract eine kostenlose Lösung für grundlegende OCR-Anforderungen. 

Sie können die Genauigkeit von Tesseract verbessern, indem Sie Scans vor der Ausführung der OCR vorverarbeiten – indem Sie Helligkeit oder Kontrast anpassen, Filter anwenden, Bilder hochskalieren und mehr.

3. Verwendung der PDF-OCR von Nanonets

Nanonets ist eine KI-gestützte Dokumentenverarbeitungslösung, die erweiterte OCR-Funktionen bietet. Im Gegensatz zu Acrobat Pro oder Tesseract ist Nanonets vollständig online und erfordert keine Installation. Sie laden Ihre PDFs einfach auf die Cloud-Plattform hoch und diese beginnt sofort mit der Verarbeitung mithilfe modernster OCR-Algorithmen. Es können sogar ganze Ordner und Hunderte von PDFs auf einmal verarbeitet werden.

Nanonets können alles verarbeiten, von einfachen getippten Dokumenten bis hin zu komplexen Layouts mit handschriftlichen Anmerkungen, farbigen Hintergründen, Grafiken und Tabellen, und nutzen dabei Deep-Learning-Modelle, um bei allen Dokumenttypen eine hohe Genauigkeit zu erreichen.

Hier ist, wie es funktioniert:

  1. Besuchen Sie Nanonets.com und erstellen Sie ein kostenloses Konto.
  2. Wählen Sie ein OCR-Modell aus der breiten Palette vorgefertigter Modelle von Nanonets für Rechnungen, Quittungen oder Bestellungen. Sie können auch ein benutzerdefiniertes Modell erstellen, das auf Ihre spezifischen Dokumenttypen zugeschnitten ist.
  3. Laden Sie Dokumente hoch, die die verschiedenen Layouts und Datenfelder darstellen, die Sie extrahieren müssen. Nanonets analysiert diese Proben, um die Struktur Ihrer Dokumente zu verstehen.
  4. Definieren Sie die Schlüsselfelder, die Sie erfassen möchten, z. B. Datum, Gesamtbetrag und Tabellendaten. Sie können Daten in nahezu jedem Format erfassen, einschließlich Tabellen, Text, JSON oder XML. Nanonets extrahiert die Daten automatisch aus Ihren PDFs und gibt sie im erforderlichen Format aus.
  5. Laden Sie nach der Konfiguration Ihre PDF-Dokumente hoch, die mit OCR bearbeitet werden müssen. Nanonets verarbeitet die Dateien mithilfe fortschrittlicher OCR- und intelligenter Datenextraktionsalgorithmen, um sie in durchsuchbare, bearbeitbare Formate mit strukturierter Datenausgabe umzuwandeln. 
  6. Die extrahierten Daten sind übersichtlich organisiert und strukturiert, sodass Sie sie ohne manuellen Aufwand direkt in andere Geschäftssysteme übernehmen können. Sie können es als JSON, XML oder in benutzerdefinierten Formaten exportieren.

Nanonets bietet eine kostenlose Version mit bis zu 500 Verarbeitungsseiten an, sodass Sie sie kostenlos testen können. Danach kostet es 0.3 US-Dollar pro Seite für OCR.

Im Gegensatz zu anderen Lösungen ist Nanonets hoch skalierbar. Es kann Tausende von Seiten pro Stunde verarbeiten und stellt so sicher, dass Ihre Dateien unabhängig von der Menge nahezu sofort verarbeitet werden.

Sie können Webhooks einrichten, um verarbeitete Daten an andere Apps zu streamen, oder die Entwickler-APIs von Nanonets verwenden, um benutzerdefinierte Integrationen zu erstellen.

So verbessern Sie den PDF-OCR-Prozess

Bei effektiver Implementierung der OCR-Technologie können Sie Zeit und Ressourcen sparen. Stellen Sie sich vor, Sie könnten reduzieren Dateneingabezeit pro Feld um 95 %. Ihr Team könnte sich auf sinnvollere Aufgaben als die alltägliche Dateneingabe konzentrieren.

Sehen wir uns Tipps zur Verbesserung der Genauigkeit und Effektivität Ihres PDF-OCR-Prozesses an:

1. Verarbeiten Sie Scans vor der OCR

Wenn Sie mit gescannten Dokumenten arbeiten, können Sie Helligkeit, Kontrast und Schärfe anpassen und Filter oder Bildverbesserungstechniken anwenden, um Rauschen zu reduzieren und die Klarheit zu verbessern. 

Dadurch wird die OCR-Genauigkeit deutlich erhöht. Die Scanner-App von Adobe verfügt über integrierte Bildverbesserungsfunktionen. Sie können auch Tools wie PaperScan und NAPS2 verwenden, um Scans zu bereinigen. Nach diesen Bearbeitungen können Sie die bearbeiteten Bilder als PDFs speichern, bevor Sie OCR ausführen.

2. Richten Sie Validierungsworkflows und Genehmigungshierarchien ein

Verbessern Sie die Datenqualität, indem Sie Validierungsregeln für extrahierte Daten einrichten. Wenn die Bestellnummer in einem Dokument beispielsweise nicht aus fünf Ziffern besteht, wird es automatisch abgelehnt oder zur manuellen Überprüfung markiert. Auf diese Weise können Sie Extraktionsfehler erkennen und nur gültige Daten genehmigen. Sie können Ihr OCR-System auch in Datenbanken integrieren, um extrahierte Daten zu validieren.

Sie können Genehmigungshierarchien einrichten, bei denen die Nachwuchskräfte zuerst die Daten prüfen und anschließend die leitenden Mitarbeiter die Daten abschließend genehmigen. Mit automatisierten Benachrichtigungen und Live-Statusaktualisierungen können Sie die Transparenz wahren und die Verfolgung von Genehmigungen vermeiden, was zu einer schnelleren Dokumentenverarbeitung führt.

3. Erstellen Sie automatisierte Arbeitsabläufe

Stellen Sie sich vor, Sie betreiben eine Autovermietung und könnten die Führerscheindaten der Kunden automatisch nach Salesforce exportieren oder Rechnungsdaten ohne manuelle Arbeit an QuickBooks senden. Es optimiert nicht nur Ihre PDF-OCR, sondern auch nachgelagerte Aktivitäten.

Die Integration Ihrer OCR-Lösung mit Geschäftsanwendungen über APIs macht diese Automatisierung möglich. Mit Nanonets richten Sie beispielsweise einfach Auslöser ein, die auf Ereignissen wie dem Abschluss der Dokumentenverarbeitung, der Datenextraktion oder dem Hochladen einer neuen Datei basieren. Die Integration exportiert automatisch strukturierte Daten von Nanonets in gewünschte Geschäftssysteme – einschließlich QuickBooks, Xero, Microsoft Dynamics, Zendesk und viele andere –, wodurch manueller Aufwand entfällt und ein nahtloser Datenfluss zwischen Systemen gewährleistet wird.

4. Investieren Sie in fortschrittliche OCR mit AI/ML-Funktionen

Im Gegensatz zur regelbasierten OCR sind KI-Modelle anpassungsfähig – sie lernen kontinuierlich aus menschlichen Korrekturen und verbessern sich im Laufe der Zeit. Nanonets bietet beispielsweise ein proprietäres KI-Modell an, das auf Millionen von Dokumenten trainiert wurde und es ermöglicht, komplexe und anspruchsvolle Layouts effizient zu verarbeiten.

KI-gestützte OCR stellt sicher, dass Sie Informationen aus Dokumenten extrahieren können, ohne den Kontext zu verlieren. Es kann verschiedene Sprachen, Geld-, Rechts- oder Maßeinheiten verarbeiten. Dieses Maß an Intelligenz ist mit einer vorlagenbasierten oder regelgesteuerten Extraktion, die auf genauen Feldpositionen basiert, nicht möglich.

5. Trainieren Sie die AI-OCR-Modelle

Während KI-gestützte OCR-Lösungen über vorab trainierte Modelle verfügen, kann eine weitere Schulung dieser Modelle auf Ihre spezifischen Dokumenttypen und Layouts die Genauigkeit noch weiter steigern. Mit Nanonets können Sie beispielsweise einen Beispielsatz von Dokumenten hochladen, die die verschiedenen Vorlagen, Formate und Felder darstellen, die Sie erfassen möchten.

Diese Beispiele helfen dem Modell, die Struktur Ihrer Dokumente zu verstehen und den PDF-OCR-Prozess zu optimieren. Sie können auch Feedback geben, indem Sie bei der Validierung festgestellte Extraktionsfehler korrigieren. Durch dieses Human-in-the-Loop-Training wird die Leistung des KI-Modells kontinuierlich verbessert.

6. Erstellen Sie bei Bedarf benutzerdefinierte OCR-Modelle

Manchmal decken vorab trainierte Modelle möglicherweise nicht alle Komplexitäten Ihrer Dokumente ab. Beispielsweise verfügen Sie möglicherweise über branchenspezifische Dokumente mit eindeutigen Feldern und Formaten. In solchen Fällen können Sie mit Ihrem OCR-Anbieter zusammenarbeiten, um benutzerdefinierte KI-Modelle zu erstellen, die speziell auf Ihre Dokumente abgestimmt sind. 

Mit Nanonets können Benutzer benutzerdefinierte Modelle erstellen, die speziell auf ihre Dokumenttypen und zu extrahierenden Felder zugeschnitten sind. Sie können Beispieldokumente hochladen und diese mit den Beschriftungen versehen, die sie extrahieren möchten. Die KI lernt dann aus diesen Beispielen und wird darauf trainiert, die vorgegebenen Informationen zu erkennen und zu extrahieren. Das System erfordert mindestens zehn Beispiele für jedes Etikett, um eine optimale Genauigkeit zu erreichen, und Benutzer können die Anzahl der Beispiele für jedes Etikett überwachen und bei Bedarf weitere hinzufügen.

So starten Sie mit Nanonets PDF OCR

Nanonets erleichtert den Einstieg in die PDF-OCR. Eröffnen Sie einfach ein kostenloses Konto auf der Nanonets-Website. Sie müssen keine Kreditkarte angeben. 

Hier ist ein Leitfaden, der Ihnen den Einstieg erleichtert:

  1. Melden Sie sich für ein kostenloses Konto:  Nanonets.com und eröffnen Sie ein kostenloses Konto – keine Kreditkarte erforderlich.
  2. Erstellen oder wählen Sie ein Modell: Sie können ein benutzerdefiniertes OCR-Modell für Ihre spezifischen Dokumenttypen erstellen oder aus den vorab trainierten Modellen von Nanonets für Rechnungen, Quittungen und mehr auswählen.
  3. Automatischen Import einrichten: Leiten Sie E-Mails weiter oder verbinden Sie einen Cloud-Speicher, um neue PDFs in Nanonets zu importieren und eine kontinuierliche OCR-Verarbeitung automatisch durchzuführen.
  4. Laden Sie Beispieldokumente hoch: Laden Sie mindestens 10 Beispieldokumente hoch, die verschiedene Vorlagen, Formate und Datenfelder darstellen, die Sie extrahieren möchten. Dies wird dazu beitragen, das KI-Modell zu trainieren.
  5. Definieren Sie die zu extrahierenden Felder: Geben Sie einfach Namen für die kritischen Datenfelder an, die Sie aus Ihren Dokumenten extrahieren möchten, z. B. Datum, Betrag, Tabellendaten usw.
  6. Richten Sie Validierungen ein: Konfigurieren Sie Regeln, um extrahierte Daten zu validieren und etwaige Fehler zur Korrektur zu kennzeichnen, um die Genauigkeit sicherzustellen.
  7. Verarbeiten Sie Ihre Dateien: Laden Sie Ihre PDF-Dokumente hoch. Nanonets verarbeitet sie sofort mit OCR und intelligenter Datenextraktion.
  8. Überprüfen und genehmigen Sie Daten: Extrahierte Daten prüfen und gültige Einträge genehmigen. Sorgen Sie mit Statusaktualisierungen für Transparenz.
  9. Exportieren Sie Daten in Geschäftssysteme: Nach der Genehmigung können Sie strukturierte Daten nahtlos in Ihr ERP-, Buchhaltungs-, CRM- oder andere Systeme exportieren.
  10. Workflows automatisieren: Richten Sie Trigger ein, um Daten an Apps zu streamen, wenn ein Dokument verarbeitet oder Daten extrahiert werden. Entfernen Sie den manuellen Aufwand.

Insgesamt ermöglicht Nanonets das schnelle und einfache Hinzufügen intelligenter OCR-Funktionen zu Ihren Dokumenten-Workflows. Die selbstlernende KI-Engine liefert von Anfang an eine hohe Genauigkeit und ermöglicht gleichzeitig eine individuelle Anpassung an die Verarbeitung komplexer Dokumente. Nahtlose Integrationen mit Geschäftssystemen ermöglichen eine echte End-to-End-Automatisierung.

Wrapping up

Intelligente OCR und Datenextraktion können dazu beitragen, einen enormen Mehrwert aus Dokumenten-Workflows zu erschließen. Der Schlüssel liegt in der Wahl einer Lösung wie Nanonets, die von Anfang an KI-gestützte OCR bietet und eine Anpassung an spezifische Anforderungen ermöglicht. 

Mit Self-Service-Funktionen zum Erstellen benutzerdefinierter Modelle verbessern sich Genauigkeit und Automatisierung kontinuierlich, auch wenn sich Ihre Dokumente weiterentwickeln. Letztendlich stellt dies sicher, dass Sie unstrukturierte Daten in großem Umfang verarbeiten können, um Produktivität und Wachstum zu steigern.

spot_img

Neueste Intelligenz

spot_img