Tekst extraheren uit afbeeldings- en pdf-bestanden

Gegevens vastgelegd met Google Vision OCR

Met de gratis online OCR-service (optische tekenherkenning) van Nanonets kunt u tekst nauwkeurig, op schaal en in meerdere talen uit afbeeldingen en documenten extraheren. De meeste OCR-API's doen tegenwoordig gewoon een blinde gegevensdump van de ongestructureerde gegevens in afbeeldingen en documenten; en er gaat veel tijd zitten in het opschonen van de geëxtraheerde tekst en gegevens. Nanonets is de enige OCR voor tekstherkenning die geëxtraheerde tekst en gegevens presenteert in netjes gestructureerde en georganiseerde formaten die volledig aanpasbaar zijn. Opgenomen gegevens kunnen worden weergegeven als tabellen, regelitems of een andere indeling.

Wilt u tekst extraheren uit afbeeldingen en pdf's? Een gratis online OCR nodig voor PDF-tekstherkenning of PDF-gegevensextractie? Uitchecken Nanonetten online. OCR-API in actie en begin met het bouwen van maatwerk OCR modellen gratis!

Hier zijn drie manieren waarop u Nanonets OCR kunt gebruiken om tekst uit afbeeldingen te detecteren en te extraheren, of extraheer gegevens uit PDFs en andere documenttypes.

Inhoudsopgave

Tekst extraheren uit afbeeldingen en pdf's met behulp van vooraf getrainde OCR-modellen van Nanonets

Nanonets heeft vooraf getrainde OCR-modellen voor de specifieke documenttypen die hieronder worden vermeld. Elk vooraf getraind OCR-model is getraind om tekst in het afbeelding- / documenttype nauwkeurig te relateren aan een geschikt veld zoals naam, adres, datum, vervaldatum enz.

Facturen
Ontvangsten
Rijbewijs (VS)
Paspoorten
Menukaarten
CV
Kenteken plaat
Meterstanden
Scheepscontainers

Nanonetten online OCR & OCR API hebben veel interessante use cases.

Stap 1: Selecteer een geschikt OCR-model

Inloggen naar Nanonets en selecteer een OCR-model dat geschikt is voor het bestand of document waaruit u digitaal tekst en gegevens wilt extraheren. Als geen van de vooraf getrainde OCR-modellen aan uw eisen voldoet, kunt u doorgaan om erachter te komen hoe u uw eigen OCR-model kunt maken.

Nanonets voorgetraind OCR-model — Nanonets voorgetrainde OCR-modellen

Stap 2: bestanden toevoegen

Voeg de bestanden / afbeeldingen / documenten toe waaruit u tekst wilt extraheren. U kunt zoveel bestanden toevoegen als u wilt.

Stap 3: Test

Geef het model een paar seconden de tijd om de tekst / gegevens uit de afbeelding / document te extraheren.

Tekstherkenning en extractie wordt uitgevoerd

Stap 4: Verifieer

Verifieer snel de gegevens die uit elk bestand zijn geëxtraheerd door de tabelweergave aan de rechterkant te controleren. U kunt eenvoudig dubbel controleren of de tekst correct is herkend en overeenkomt met een geschikt veld of tag.

Controleer de geëxtraheerde tekst die aanwezig is in een tabelweergave

U kunt er in dit stadium zelfs voor kiezen om de veldwaarden en labels te bewerken / corrigeren. Nanonets is niet gebonden aan de sjabloon van het document.

Bewerk de geëxtraheerde tekst of gegevens

De geëxtraheerde gegevens kunnen worden weergegeven in een "List View" of "JSON" -formaat.

Lijstweergave van de geëxtraheerde tekst

JSON-weergave van de geëxtraheerde tekst

U kunt het selectievakje naast elke waarde of elk veld dat u verifieert, aanvinken of op "Gegevens verifiëren" klikken om direct verder te gaan.

Stap 5: Export

Zodra alle bestanden zijn geverifieerd. U kunt de netjes georganiseerde gegevens exporteren als een xml-, xlsx- of csv-bestand.

Merk op hoe de geëxtraheerde gegevens zijn georganiseerd en gepresenteerd in een indeling die netjes, gemakkelijk en begrijpelijk is.

Geëxporteerde gegevens netjes gepresenteerd

Tekst extraheren uit afbeeldingen en pdf's door een aangepast Nanonets OCR-model te bouwen

Het bouwen van een aangepast OCR-model met Nanonets is eenvoudig. U kunt doorgaans een model bouwen, trainen en implementeren voor elk documenttype, in elke taal, alles in minder dan 25 minuten (afhankelijk van het aantal bestanden dat wordt gebruikt om het model te trainen). Bekijk de onderstaande video om de eerste 4 stappen in deze methode te volgen:

Hoe u uw eigen OCR-model kunt trainen met Nanonets

Stap 1: Maak uw eigen OCR-model

Inloggen naar Nanonets en klik op "Maak uw eigen OCR-model".

Stap 2: Upload trainingsbestanden / afbeeldingen

Upload voorbeeldbestanden die zullen worden gebruikt om de OCR-modellen te trainen. De nauwkeurigheid van het OCR-model dat u maakt, hangt grotendeels af van de kwaliteit en kwantiteit van de bestanden / afbeeldingen die in dit stadium worden geüpload

Stap 3: annoteer tekst op de bestanden / afbeeldingen

Annoteer nu elk stuk tekst of gegevens met een geschikt veld of label. Deze cruciale stap leert uw OCR-model om de juiste tekst uit afbeeldingen te extraheren en deze te koppelen aan aangepaste velden die relevant zijn voor uw behoeften.

U kunt ook een nieuw label toevoegen om de tekst of gegevens te annoteren. Onthoud dat Nanonets niet gebonden is aan de sjabloon van het document.

Stap 4: Train het aangepaste OCR-model

Zodra de annotatie voor alle trainingsbestanden / afbeeldingen is voltooid, klikt u op "Train Model". De training duurt gewoonlijk tussen de 20 en 2 uur, afhankelijk van het aantal bestanden en modellen in de wachtrij voor training. Jij kan upgrade naar een betaald plan om in dit stadium snellere resultaten te krijgen (meestal minder dan 20 minuten).

Nanonets maakt gebruik van deep learning om verschillende OCR-modellen te bouwen en deze op nauwkeurigheid tegen elkaar te testen. Nanonets kiest vervolgens het beste OCR-model (op basis van uw invoer en nauwkeurigheidsniveaus). Het tabblad "Model Metrics" toont de verschillende metingen en vergelijkende analyses waarmee Nanonets het beste OCR-model kon kiezen uit alle modellen. U kunt het model opnieuw trainen (door een breder scala aan trainingsbeelden en betere annotaties te bieden) om een hogere nauwkeurigheid te bereiken.

Of, als u tevreden bent met de nauwkeurigheid, klikt u op "Test" om te testen en te verifiëren of dit aangepaste OCR-model presteert zoals verwacht op een steekproef van afbeeldingen of bestanden waaruit tekst / gegevens moeten worden geëxtraheerd.

Stap 5: Test en verifieer gegevens

Voeg een aantal voorbeeldafbeeldingen toe om het aangepaste OCR-model te testen en te verifiëren.

Controleer de juistheid van de geëxtraheerde tekst

Als de tekst is herkend, geëxtraheerd en op de juiste manier is gepresenteerd, exporteert u het bestand. Zoals u hieronder kunt zien, zijn de geëxtraheerde gegevens georganiseerd en gepresenteerd in een nette indeling.

Geëxporteerde gegevens netjes weergegeven

Gefeliciteerd, u heeft nu uw eigen online OCR-tool gebouwd en getraind!

Hoe u uw eigen modellen kunt trainen voor een OCR-software of OCR-toepassing met behulp van de NanoNets API

Als u een OCR-software of -toepassing heeft, vindt u hier een gedetailleerde gids om uw eigen OCR-modellen te trainen met behulp van de Nanonets API.

Stap 1: Kloon de opslagplaats

git clone https://github.com/NanoNets/nanonets-ocr-sample-python
cd nanonets-ocr-sample-python
sudo pip install requests
sudo pip install tqdm

Stap 2: Ontvang uw gratis API-sleutel

Haal uw gratis API-sleutel op https://app.nanonets.com/#/keys

Stap 3: Stel de API-sleutel in als omgevingsvariabele

export NANONETS_API_KEY=YOUR_API_KEY_GOES_HERE

Stap 4: maak een nieuw model

python ./code/create-model.py

Opmerking: dit genereert een MODEL_ID die u nodig heeft voor de volgende stap

Stap 5: Model-ID toevoegen als omgevingsvariabele

export NANONETS_MODEL_ID=YOUR_MODEL_ID

Stap 6: Upload de trainingsgegevens

Verzamel een dataset met trainingsafbeeldingen of documenten waaruit u tekst wilt herkennen en extraheren. Zodra u de dataset klaar heeft in de map images (afbeeldingsbestanden), start met het uploaden van de dataset.

python ./code/upload-training.py

Stap 7: Train Model

Zodra de afbeeldingen zijn geüpload, begint u met het trainen van het model

python ./code/train-model.py

Stap 8: Verkrijg de modelstatus

Het model heeft ongeveer 30 minuten nodig om te trainen. U ontvangt een e-mail zodra het model is getraind. In de tussentijd kunt u de staat van het model bekijken

watch -n 100 python ./code/model-state.py

Stap 9: Maak een voorspelling

Zodra het model is opgeleid. Met het model kun je voorspellingen doen

python ./code/prediction.py PATH_TO_YOUR_IMAGE.jpg

7 redenen waarom Nanonets OCR API beter is dan andere OCR API's

De voordelen van het gebruik van Nanonets ten opzichte van andere OCR-API's gaan verder dan alleen een betere nauwkeurigheid met betrekking tot het extraheren van tekst uit afbeeldingen. Hier zijn 7 redenen waarom u zou moeten overwegen om de Nanonets OCR API te gebruiken voor tekstherkenning in plaats van andere OCR API's.

Werken met aangepaste gegevens - De meeste OCR-API's zijn nogal rigide wat betreft het type gegevens waarmee ze kunnen werken. Het trainen van een OCR-model voor een use case vereist een grote mate van flexibiliteit met betrekking tot de vereisten en specificaties; een OCR voor factuurverwerking zal enorm verschillen van een OCR voor paspoorten! Nanonets is niet gebonden aan dergelijke rigide beperkingen. Nanonets gebruikt uw eigen gegevens om OCR-modellen te trainen die het meest geschikt zijn voor de specifieke behoeften van uw bedrijf.
Werken met niet-Engelse of meerdere talen - Omdat Nanonets zich richt op training met aangepaste gegevens, is het uniek geplaatst om een enkel OCR-model te bouwen dat tekst uit documenten in elke taal of meerdere talen tegelijk kan extraheren.
Vereist bijna geen nabewerking - Tekst die is geëxtraheerd met behulp van OCR-modellen moet intelligent worden gestructureerd en gepresenteerd in een begrijpelijk formaat; anders wordt er veel tijd en middelen besteed aan het reorganiseren van de gegevens in zinvolle informatie. Hoewel de meeste OCR-API's eenvoudig gegevens uit afbeeldingen en documenten halen en dumpen, extraheert Nanonets alleen de relevante gegevens en sorteert deze automatisch in intelligent gestructureerde velden, waardoor ze gemakkelijker te bekijken en te begrijpen zijn.
Leert continu - Bedrijven hebben vaak te maken met dynamisch veranderende eisen en behoeften. Om mogelijke obstakels te overwinnen, kunt u met de OCR-API van Nanonets uw modellen eenvoudig opnieuw trainen met nieuwe gegevens. Hierdoor kan uw OCR-model zich aanpassen aan onvoorziene veranderingen.
Verwerkt gemakkelijk veelvoorkomende gegevensbeperkingen - Nanonets OCR API maakt gebruik van technieken voor diep leren en objectdetectie om algemene gegevensbeperkingen te overwinnen die grote invloed hebben op tekstherkenning en -extractie. Nanonets OCR kan handgeschreven tekst herkennen en verwerken, afbeeldingen van tekst in meerdere talen tegelijk, afbeeldingen met een lage resolutie, afbeeldingen met nieuwe of cursieve lettertypen en verschillende formaten, afbeeldingen met schimmige tekst, gekantelde tekst, willekeurige ongestructureerde tekst, beeldruis, wazige afbeeldingen en meer. Traditionele OCR-API's zijn gewoon niet uitgerust om onder dergelijke beperkingen te presteren; ze hebben gegevens nodig met een zeer hoge betrouwbaarheid, wat in praktijkscenario's niet de norm is.
Vereist geen intern team van ontwikkelaars - U hoeft zich geen zorgen te maken over het inhuren van ontwikkelaars en het werven van talent om de Nanonets API aan te passen aan uw zakelijke vereisten. Nanonets is gebouwd voor probleemloze integratie. U kunt Nanonets ook eenvoudig integreren met de meeste CRM-, ERP- of RPA-software.
Aanpassen, aanpassen, aanpassen - U kunt zoveel tekst- / gegevensvelden vastleggen als u wilt met Nanonets OCR. U kunt zelfs aangepaste validatieregels maken die werken voor uw specifieke vereisten voor tekstherkenning en tekstextractie. Nanonets is helemaal niet gebonden aan de sjabloon van uw document. U kunt gegevens vastleggen in tabellen of regelitems of elk ander formaat!

En hier zijn een paar succesverhalen waarin bedrijven met succes Nanonets hebben gebruikt om hun beoogde doelen te bereiken:

Nanonets OCR stelde een Fortune 500-bedrijf in de VS in staat om een geautomatiseerde oplossing voor factuurverwerking te bouwen voor meer dan 5 talen met een nauwkeurigheid van 95%, waarbij tot 80% van de handmatige gegevensinvoer werd geautomatiseerd, samen met lokale implementaties.
Nanonets API heeft ook een groot wervingsbureau in Europa uitgerust om 10 verschillende documenttypen te verwerken - onderwijscertificaten, immigratieformulieren, bankrekeningafschriften, identiteitskaarten enz. In verschillende sjablonen om het bedrijf 2x per jaar te laten groeien.

Heeft uw bedrijf te maken met tekstherkenning in digitale documenten, afbeeldingen of pdf's? Heeft u zich afgevraagd hoe u nauwkeurig tekst uit afbeeldingen kunt extraheren? Nanonets heeft veel gebruiksscenario's die uw bedrijfsprestaties kunnen optimaliseren, kosten kunnen besparen en groei kunnen stimuleren. Ontdek hoe de use-cases van Nanonets van toepassing kunnen zijn op uw product.

Of bekijk het Nanonetten OCR-API in actie en begin met het bouwen van maatwerk OCR modellen gratis!

Bron: https://nanonets.com/blog/how-extract-text-from-image-pdf-files/

Generatieve data-intelligentie