Zephyrnet-logo

Hoe een PDF te OCRen

Datum:

OCR (Optical Character Recognition) is een gamechanger voor iedereen die met PDF-documenten werkt. PDF's staan ​​erom bekend dat ze moeilijk te bewerken en te doorzoeken zijn. Wanneer u een PDF OCR maakt, wordt de tekst gescand en geëxtraheerd, waardoor deze volledig doorzoekbaar, bewerkbaar en toegankelijk wordt. 

In deze handleiding vergelijken we verschillende methoden voor het OCR-en van PDF's, zodat u de beste kunt kiezen die bij uw vereisten past. We bespreken Adobe Acrobat, open-source tools en AI-aangedreven oplossingen. Daarnaast beantwoorden we veelgestelde vragen, zoals hoe u een PDF op een Mac kunt OCRen, hoe u een PDF OCR doorzoekbaar kunt maken en hoe u tips kunt delen over het verbeteren van de OCR-nauwkeurigheid.

Volg ons en transformeer uw PDF-workflows.

1. Adobe Acrobat Pro gebruiken

Adobe Acrobat Pro wordt beschouwd als de gouden standaard voor het OCR-en van PDF's. Als marktleider op het gebied van PDF-software levert Adobe Acrobat Pro met geavanceerde OCR-mogelijkheden waarmee complexe documenten gemakkelijk kunnen worden verwerkt.

U kunt op twee manieren een document OCR maken met Acrobat Pro:

Methode 1

  1. Open het PDF-bestand in Adobe Acrobat Pro.
  2. Klik op “Alle tools” in de werkbalk.
  3. Er verschijnt een menu met alle beschikbare tools. Klik op “PDF bewerken”.
  4. Acrobat past automatisch OCR toe en converteert de tekst.
  5. Het document is nu volledig bewerkbaar en doorzoekbaar. Wijzig het lettertype of voeg indien nodig annotaties toe. U kunt het document ook doorzoeken met de zoekfunctie.

Methode 2

  1. Open Adobe Acrobat Pro. 
  2. Klik op “Alle tools” in de werkbalk.
  3. Er verschijnt een menu met alle beschikbare tools. Klik op “Scannen en OCR”.
  4. Selecteer in de tool Scannen en OCR het PDF-bestand dat u wilt OCR-en of scan een fysiek document rechtstreeks met een aangesloten scanner.
  5. Klik op "Verbeteren" als de afbeelding moet worden opgeschoond. Dit verbetert de OCR-nauwkeurigheid. 
  6. Klik op “Tekst herkennen” om het OCR-proces te starten. Eenmaal voltooid, wordt de PDF doorzoekbaar en bewerkbaar. U kunt nu tekst bewerken.

Het essentiële voordeel van het gebruik van Acrobat Pro is de geavanceerde OCR-engine, die complexe lay-outs, documenten met meerdere kolommen, scans met lage resolutie en handgeschreven tekst met hoge nauwkeurigheid kan verwerken. Het is beschikbaar op Windows-, Mac- en Android-apparaten, en u hebt ook online toegang tot deze functies. Bovendien is het verbonden met uw Adobe Mobile Scan-app, zodat u onderweg documenten kunt scannen en deze kunt synchroniseren met uw Acrobat-bibliotheek.

U moet echter een Acrobat Pro-abonnee zijn om toegang te krijgen tot de OCR-mogelijkheden. Het abonnement kost € US$19.99/mnd. Hoewel u hiermee meerdere bestanden kunt uploaden, moet u bovendien elk bestand één voor één handmatig OCR-en. Als u dus veel bestanden moet verwerken, kan het vervelend worden.

Open-source OCR-tools zoals Tesseract bieden een gratis alternatief voor het converteren van PDF's naar doorzoekbare, bewerkbare bestanden. Hoewel ze misschien niet zo volledig uitgerust zijn als commerciële oplossingen zoals Adobe Acrobat, bieden ze voor de meeste gebruikssituaties een behoorlijk nauwkeurigheidsniveau. 

Tesseract is beschikbaar voor Windows, Mac en Linux. Om het te kunnen gebruiken, moet u het eerst op uw computer installeren. Eenmaal geïnstalleerd, kunt u deze stappen volgen om een ​​PDF te OCRen:

  1. Open het PDF-bestand in een viewer of editor zoals PDFelement. 
  2. Selecteer het gebied of de pagina die u wilt OCR-en en maak een screenshot. Snijd de afbeelding indien nodig bij.
  3. Open Terminal om toegang te krijgen tot Tesseract. Als Tesseract niet in Terminal wordt gevonden, bewerkt u het pad van de omgevingsvariabele zodat deze naar de Tesseract-installatiemap gaat.
  4. Kopieer het pad van het afbeeldingsbestand dat u wilt OCR-en. Bijvoorbeeld: "C:GebruikersJohnDoePicturesScreenshotsScreenshot 230844.png"
  5. Voer de volgende opdracht in Terminal in: "C:UsersJohnDoePicturesScreenshots>tesseract Screenshot 230844.png". Hierdoor wordt OCR op de afbeelding uitgevoerd en wordt alle gevonden tekst omgezet naar een bewerkbaar formaat. 
  6. Zodra de OCR is voltooid, genereert Tesseract een bestand met alle geëxtraheerde tekst.
  7. Open dit bestand in een willekeurige teksteditor om de OCR-inhoud te bekijken en te bewerken. U kunt indien nodig ook het commando `–help` invoeren om de volledige lijst met Tesseract-opties te krijgen.

Het cruciale voordeel van Tesseract is dat het volledig gratis en open source is, zodat u geen licentiekosten hoeft te betalen. Het werkt goed op schone scans en getypte documenten. 

Het heeft echter moeite met handgeschreven tekst, complexe lay-outs, gekleurde achtergronden en scans met een lage resolutie. Als uw documenten schoon en getypt zijn, biedt Tesseract een gratis oplossing voor basis-OCR-behoeften. 

U kunt de nauwkeurigheid van Tesseract verbeteren door scans voor te verwerken voordat u OCR uitvoert: door de helderheid of het contrast aan te passen, filters toe te passen, afbeeldingen op te schalen en meer.

3. PDF-OCR van Nanonets gebruiken

Nanonets is een AI-aangedreven documentverwerkingsoplossing die geavanceerde OCR-mogelijkheden biedt. In tegenstelling tot Acrobat Pro of Tesseract is Nanonets volledig online en vereist geen installatie. U uploadt eenvoudig uw PDF's naar hun cloudplatform en het begint ze onmiddellijk te verwerken met behulp van de modernste OCR-algoritmen. Het kan zelfs hele mappen en honderden PDF's in één keer verwerken.

Nanonetten kunnen alles aan, van eenvoudig getypte documenten tot complexe lay-outs met handgeschreven annotaties, gekleurde achtergronden, grafieken en tabellen, waarbij gebruik wordt gemaakt van deep learning-modellen om hoge nauwkeurigheid op alle documenttypen te bereiken.

Hier is hoe het werkt:

  1. Bezoek Nanonets.com en maak een gratis account aan.
  2. Selecteer een OCR-model uit het brede assortiment vooraf getrainde modellen van Nanonets voor facturen, kwitanties of inkooporders. U kunt ook een aangepast model bouwen dat is afgestemd op uw specifieke documenttypen.
  3. Upload documenten die de verschillende lay-outs en gegevensvelden vertegenwoordigen die u moet extraheren. Nanonetten analyseren deze monsters om de structuur van uw documenten te begrijpen.
  4. Definieer de belangrijkste velden die u wilt vastleggen, zoals datum, totaalbedrag en tabelgegevens. U kunt gegevens in vrijwel elk formaat vastleggen, inclusief tabellen, tekst, JSON of XML. Nanonets haalt de gegevens automatisch uit uw PDF's en voert deze uit in het gewenste formaat.
  5. Eenmaal geconfigureerd, uploadt u uw PDF-documenten die moeten worden OCR-ed. Nanonets zal de bestanden verwerken met behulp van geavanceerde OCR en intelligente algoritmen voor gegevensextractie om ze om te zetten in doorzoekbare, bewerkbare formaten met gestructureerde gegevensuitvoer. 
  6. De geëxtraheerde gegevens zijn netjes georganiseerd en gestructureerd, zodat u ze zonder handmatige inspanning rechtstreeks in andere bedrijfssystemen kunt opnemen. U kunt het exporteren als JSON-, XML- of aangepaste indelingen.

Nanonets biedt een gratis versie met maximaal 500 verwerkingspagina's, zodat u deze gratis kunt testen. Daarna kost het $ 0.3 per pagina voor OCR.

In tegenstelling tot andere oplossingen is Nanonets zeer schaalbaar. Het kan duizenden pagina's per uur verwerken, waardoor uw bestanden, ongeacht het volume, vrijwel onmiddellijk worden verwerkt.

U kunt webhooks instellen om verwerkte gegevens naar andere apps te streamen of de ontwikkelaars-API's van Nanonets gebruiken om aangepaste integraties te bouwen.

Hoe u het PDF OCR-proces kunt verbeteren

Als OCR-technologie effectief wordt geïmplementeerd, kan dit u tijd en middelen besparen. Stel je voor dat je kunt verminderen gegevensinvoertijd per veld met 95%. Uw team kan zich concentreren op zinvollere taken dan alledaagse gegevensinvoer.

Laten we tips bekijken om de nauwkeurigheid en effectiviteit van uw PDF OCR-proces te verbeteren:

1. Scans voorbereiden vóór OCR

Als u te maken heeft met gescande documenten, kunt u de helderheid, het contrast en de scherpte aanpassen en filters of beeldverbeteringstechnieken toepassen om ruis te verminderen en de helderheid te verbeteren. 

Dit zal de OCR-nauwkeurigheid aanzienlijk vergroten. De Scanner-app van Adobe wordt geleverd met ingebouwde functies voor beeldverbetering. U kunt ook tools zoals PaperScan en NAPS2 gebruiken om scans op te schonen. Na deze bewerkingen kunt u de bewerkte afbeeldingen opslaan als PDF's voordat u OCR uitvoert.

2. Stel validatieworkflows en goedkeuringshiërarchieën in

Verbeter de datakwaliteit door validatieregels in te stellen voor geëxtraheerde data. Als het ordernummer in een document bijvoorbeeld niet uit vijf cijfers bestaat, wordt het automatisch afgewezen of gemarkeerd voor handmatige beoordeling. Op deze manier kunt u extractiefouten opsporen en alleen geldige gegevens goedkeuren. U kunt uw OCR-systeem ook integreren met databases om de geëxtraheerde gegevens te valideren.

U kunt goedkeuringshiërarchieën instellen waarbij junior medewerkers eerst de gegevens beoordelen, gevolgd door senior medewerkers voor de definitieve aftekening. Met geautomatiseerde meldingen en live statusupdates kunt u de transparantie behouden en het najagen van goedkeuring vermijden, wat leidt tot een snellere documentverwerking.

3. Bouw geautomatiseerde workflows

Stel je voor dat je een autoverhuurbedrijf runt en de rijbewijsgegevens van klanten automatisch naar Salesforce kunt exporteren of factuurgegevens naar QuickBooks kunt sturen, zonder enig handmatig werk. Het optimaliseert niet alleen uw PDF OCR, maar ook uw downstream-activiteiten.

Het integreren van uw OCR-oplossing met zakelijke apps via API’s maakt deze automatisering mogelijk. Met Nanonets stelt u bijvoorbeeld eenvoudigweg triggers in op basis van gebeurtenissen zoals voltooiing van de documentverwerking, gegevensextractie of het uploaden van een nieuw bestand. De integratie exporteert automatisch gestructureerde gegevens van Nanonets naar gewenste bedrijfssystemen, waaronder QuickBooks, Xero, Microsoft Dynamics, Zendesk en vele andere, waardoor handmatige inspanningen worden weggenomen en een naadloze gegevensstroom tussen systemen wordt gegarandeerd.

4. Investeer in geavanceerde OCR met AI/ML-mogelijkheden

In tegenstelling tot op regels gebaseerde OCR zijn AI-modellen adaptief: ze leren voortdurend van menselijke correcties en verbeteren in de loop van de tijd. Nanonets biedt bijvoorbeeld een eigen AI-model dat is getraind op miljoenen documenten, waardoor het complexe en uitdagende lay-outs efficiënt kan verwerken.

AI-aangedreven OCR zorgt ervoor dat u informatie uit documenten kunt halen zonder de context te verliezen. Het kan verschillende talen, monetaire, juridische of meeteenheden verwerken. Dit niveau van intelligentie is niet mogelijk met op sjablonen gebaseerde of op regels gebaseerde extractie die afhankelijk is van exacte veldlocaties.

5. Train de AI-OCR-modellen

Hoewel AI-aangedreven OCR-oplossingen worden geleverd met vooraf getrainde modellen, kan het verder trainen van uw specifieke documenttypen en lay-outs de nauwkeurigheid nog verder vergroten. Met Nanonets kunt u bijvoorbeeld een voorbeeldset van documenten uploaden die de verschillende sjablonen, formaten en velden vertegenwoordigen die u wilt vastleggen.

Deze voorbeelden helpen het model de structuur van uw documenten te begrijpen en het PDF OCR-proces te verfijnen. U kunt ook feedback geven door extractiefouten te corrigeren die tijdens de validatie zijn geïdentificeerd. Deze human-in-the-loop-training verbetert voortdurend de prestaties van het AI-model.

6. Bouw indien nodig aangepaste OCR-modellen

Soms dekken vooraf getrainde modellen mogelijk niet alle complexiteiten in uw documenten. Het kan bijvoorbeeld zijn dat u branchespecifieke documenten heeft met unieke velden en formaten. In dergelijke gevallen kunt u samenwerken met uw OCR-leverancier om aangepaste AI-modellen te bouwen die specifiek op uw documenten zijn getraind. 

Met Nanonets kunnen gebruikers aangepaste modellen maken die specifiek zijn voor hun documenttypen en velden om uit te extraheren. Ze kunnen voorbeelddocumenten uploaden en deze annoteren met de labels die ze eruit willen halen. De AI leert vervolgens van deze voorbeelden en wordt getraind om de gespecificeerde informatie te herkennen en eruit te halen. Het systeem vereist ten minste tien voorbeelden voor elk label om optimale nauwkeurigheid te bereiken, en gebruikers kunnen het aantal voorbeelden voor elk label controleren en er indien nodig meer toevoegen.

Hoe u aan de slag kunt gaan met Nanonets PDF OCR

Nanonets maakt het gemakkelijk om aan de slag te gaan met PDF OCR. Meld u eenvoudig aan voor een gratis account op de Nanonets-website. U hoeft geen creditcard op te geven. 

Hier is een gids om u op weg te helpen:

  1. Meld je aan voor een gratis account: Bezoek Nanonets.com en meld u aan voor een gratis account - geen creditcard vereist.
  2. Maak of kies een model: U kunt een aangepast OCR-model bouwen voor uw specifieke documenttypen of kiezen uit de vooraf getrainde modellen van Nanonets voor facturen, kwitanties en meer.
  3. Stel automatisch importeren in: e-mails doorsturen of cloudopslag verbinden om nieuwe PDF's in Nanonets te importeren voor automatische continue OCR-verwerking.
  4. Voorbeelddocumenten uploaden: Upload minimaal 10 voorbeelddocumenten die verschillende sjablonen, formaten en gegevensvelden vertegenwoordigen die u wilt extraheren. Dit zal helpen het AI-model te trainen.
  5. Definieer velden die u wilt extraheren: geef eenvoudig namen op voor de cruciale gegevensvelden die u uit uw documenten wilt halen, zoals Datum, Bedrag, Tabelgegevens, enz.
  6. Validaties instellen: Configureer regels om geëxtraheerde gegevens te valideren en eventuele fouten te markeren voor correctie om nauwkeurigheid te garanderen.
  7. Verwerk uw bestanden: Upload uw PDF-documenten. Nanonetten zullen ze onmiddellijk verwerken met OCR en intelligente gegevensextractie.
  8. Gegevens controleren en goedkeuren: Controleer de geëxtraheerde gegevens en keur geldige invoer goed. Behoud transparantie met statusupdates.
  9. Gegevens exporteren naar bedrijfssystemen: Eenmaal goedgekeurd, exporteert u gestructureerde gegevens naadloos naar uw ERP-, boekhoud-, CRM- of andere systemen.
  10. Automatiseer workflows: triggers instellen om gegevens naar apps te streamen wanneer een document wordt verwerkt of gegevens worden geëxtraheerd. Verwijder handmatige inspanningen.

Over het geheel genomen maakt Nanonets het toevoegen van intelligente OCR-mogelijkheden aan uw documentworkflows snel en eenvoudig. De zelflerende AI-engine levert vanaf het begin een hoge nauwkeurigheid en maakt maatwerk mogelijk om complexe documenten te verwerken. Naadloze integraties met bedrijfssystemen maken echte end-to-end automatisering mogelijk.

Afsluiten

Intelligente OCR en gegevensextractie kunnen enorme waarde uit documentworkflows helpen halen. De sleutel is het kiezen van een oplossing zoals Nanonets die vanaf het begin AI-aangedreven OCR biedt en maatwerk voor specifieke behoeften mogelijk maakt. 

Met zelfbedieningsmogelijkheden om aangepaste modellen te bouwen, worden de nauwkeurigheid en automatisering voortdurend verbeterd, zelfs naarmate uw documenten evolueren. Uiteindelijk zorgt dit ervoor dat u ongestructureerde gegevens op schaal kunt verwerken om de productiviteit en groei te stimuleren.

spot_img

VC Café

VC Café

Laatste intelligentie

spot_img