Zephyrnet-logo

Automatiseer de digitalisering van transactiedocumenten met menselijk toezicht met behulp van Amazon Textract en Amazon A2I

Datum:

In dit bericht presenteren we een oplossing voor het digitaliseren van transactiedocumenten met behulp van Amazon T-extract en neem een ​​menselijke beoordeling op met behulp van Amazon Augmented AI (A2I). U kunt de oplossingsbron vinden op onze GitHub repository.

Organisaties moeten vaak gescande transactiedocumenten met gestructureerde tekst verwerken, zodat ze handelingen kunnen uitvoeren zoals fraudedetectie of financiële goedkeuringen. Enkele veelvoorkomende voorbeelden van transactiedocumenten die tabelgegevens bevatten, zijn bankafschriften, facturen en stuklijsten. Het handmatig extraheren van gegevens uit dergelijke documenten is duur, tijdrovend en vereist vaak een aanzienlijke investering in het opleiden van gespecialiseerd personeel. Met de architectuur die in dit bericht wordt beschreven, kunt u tabelgegevens van zelfs gescande documenten van lage kwaliteit digitaliseren en een hoge mate van nauwkeurigheid bereiken.

Er zijn aanzienlijke vooruitgang geboekt met op machine learning (ML) gebaseerde algoritmen om de nauwkeurigheid en betrouwbaarheid te vergroten bij het verwerken van gescande tekstdocumenten. Deze algoritmen komen vaak overeen met de prestaties op menselijk niveau bij het herkennen van tekst en het extraheren van inhoud. Amazon Textract is een volledig beheerde service die automatisch gedrukte tekst, handschrift en andere gegevens uit gescande documenten haalt. Bovendien kan Amazon Textract automatisch formulieren en tabellen identificeren en extraheren uit gescande documenten.

Bedrijven die te maken hebben met complexe, variërende en gevoelige documenten hebben vaak menselijk toezicht nodig om de nauwkeurigheid, consistentie en naleving van de geëxtraheerde gegevens te garanderen. Terwijl menselijke beoordelaars input leveren, kunt u AI-modellen verfijnen om subtiele nuances van een bepaald bedrijfsproces vast te leggen. Amazon A2I is een ML-service die het gemakkelijk maakt om de workflows te bouwen die nodig zijn voor menselijke beoordeling. Amazon A2I neemt het ongedifferentieerde zware werk weg dat gepaard gaat met het bouwen van menselijke beoordelingssystemen of het beheren van een groot aantal menselijke beoordelaars, en biedt een uniforme en veilige ervaring voor uw personeel.

Het extraheren van transactiegegevens uit gescande documenten, zoals een lijst met pintransacties op een bankafschrift, vormt een unieke reeks uitdagingen. Het combineren van kunstmatige intelligentie met menselijke beoordeling biedt een praktische benadering om deze hindernissen te overwinnen. Een geïntegreerde oplossing die Amazon Textract en Amazon A2I combineert, is zo'n overtuigend voorbeeld.

Consumenten gebruiken hun smartphones routinematig om transactiedocumenten te scannen en te uploaden. Afhankelijk van de algehele scankwaliteit, inclusief lichtomstandigheden, scheef perspectief en minder dan voldoende beeldresolutie, is het niet ongebruikelijk om suboptimale nauwkeurigheid te zien wanneer deze documenten worden verwerkt met behulp van computer vision (CV)-technieken. Tegelijkertijd kan het verwerken van gescande documenten met handmatige arbeid leiden tot hogere verwerkingskosten en verwerkingstijd, en kan het uw vermogen om het volume documenten dat een pijplijn aankan, te vergroten, beperken.

Overzicht oplossingen

Het volgende diagram illustreert de workflow van onze oplossing:

Onze end-to-end workflow voert de volgende stappen uit:

  1. Extraheert tabellen uit gescande brondocumenten.
  2. Past aangepaste bedrijfsregels toe bij het extraheren van gegevens uit de tabellen.
  3. Escaleert selectief uitdagende documenten voor menselijke beoordeling.
  4. Voert nabewerking uit op de geëxtraheerde gegevens.
  5. Slaat de resultaten op.

Een aangepaste gebruikersinterface gebouwd met ReactJS wordt geleverd aan menselijke beoordelaars om intuïtief en efficiënt problemen in de documenten te beoordelen en te corrigeren wanneer Amazon Textract een extractiescore met lage betrouwbaarheid biedt, bijvoorbeeld wanneer tekst onduidelijk, vaag of anderszins onduidelijk is.

Onze referentieoplossing gebruikt een zeer veerkrachtige pijplijn, zoals beschreven in het volgende diagram, om de verschillende documentverwerkingsstadia te coördineren.

De oplossing omvat verschillende best practices op het gebied van architectuur:

  • Batchverwerking – Indien mogelijk moet de oplossing meerdere documenten verzamelen en batchbewerkingen uitvoeren, zodat we de doorvoer kunnen optimaliseren en middelen efficiënter kunnen gebruiken. U kunt bijvoorbeeld een aangepast AI-model aanroepen om één keer gevolgtrekking uit te voeren voor een groep documenten, in plaats van het model voor elk document afzonderlijk aan te roepen. Het ontwerp van onze oplossing moet batching mogelijk maken wanneer dat nodig is.
  • Prioriteitsaanpassing – Wanneer het volume aan documenten in de wachtrij toeneemt en de oplossing ze niet langer tijdig kan verwerken, hebben we een manier nodig om aan te geven dat bepaalde documenten een hogere prioriteit hebben en daarom vóór andere documenten in de wachtrij moeten worden verwerkt .
  • Automatisch schalen – De oplossing moet dynamisch kunnen op- en afschalen. Veel documentverwerkingsworkflows moeten de cyclische aard van de vraag ondersteunen. We moeten de oplossing zo ontwerpen dat deze naadloos kan opschalen om pieken in de belasting op te vangen en terug te schalen wanneer de belasting afneemt.
  • Zelfregulering – De oplossing moet in staat zijn om externe serviceonderbrekingen en tariefbeperkingen gracieus af te handelen.

Stappen voor documentverwerking

In dit gedeelte leiden we u door de details van elke fase in de documentverwerkingsworkflow:

  • Acquisitie
  • Camper ombouw
  • Afkomst
  • Omvorming
  • Bedrijfsactiviteiten op maat
  • toenemen
  • catalogiseren

Acquisitie

De eerste fase van de pijplijn verwerft inputdocumenten van Amazon eenvoudige opslagservice (Amazon S3). In deze fase slaan we de initiële documentinformatie op in een Amazon DynamoDB tafel na ontvangst van een S3-gebeurtenismelding via Amazon Simple Queue-service (Amazon SQS). We gebruiken dit tabelrecord om de voortgang van dit document over de hele pijplijn te volgen.

De prioriteitsvolgorde voor elk document wordt bepaald door het voorvoegsel van de alfanumerieke invoersleutel in het documentpad te sorteren. Bijvoorbeeld een document dat is opgeslagen met key acquire/p0/doc.pdf resulteert in prioriteit p0 en heeft voorrang op een ander document dat is opgeslagen met key acquire/p1/doc.pdf (resulterend in prioriteit p1). Documenten zonder prioriteitsaanduiding in de sleutel worden aan het einde verwerkt.

Camper ombouw

Documenten verkregen uit de vorige fase worden omgezet naar PDF-formaat, zodat we een consistent gegevensformaat kunnen bieden
voor de rest van de pijplijn. Hierdoor kunnen we meerdere pagina's van een gerelateerd document in batches verwerken.

Afkomst

PDF-documenten worden naar Amazon Textract gestuurd om optische tekenherkenning (OCR) uit te voeren. Resultaten van Amazon Textract worden als JSON opgeslagen in een map in Amazon S3.

Omvorming

Amazon Textract biedt gedetailleerde informatie uit het verwerkte document, inclusief onbewerkte tekst, sleutel-waardeparen en tabellen. Een aanzienlijke hoeveelheid aanvullende metadata identificeert de locatie en relatie tussen de gedetecteerde entiteitsblokken. De transactiegegevens worden in dit stadium geselecteerd voor verdere verwerking.

Bedrijfsactiviteiten op maat

Aangepaste bedrijfsregels worden toegepast op de hervormde uitvoer die informatie over tabellen in het document bevat. Aangepaste regels kunnen detectie van tabelindelingen omvatten (zoals detecteren dat een tabel controletransacties bevat) of kolomvalidatie (zoals verifiëren dat een kolom met productcodes alleen geldige codes bevat).

toenemen

Menselijke annotators gebruiken Amazon A2I om het document te beoordelen en aan te vullen met gemiste informatie. De beoordeling omvat het analyseren van elke tabel in het document op fouten zoals onjuiste tabeltypen, veldkoppen en afzonderlijke celtekst die onjuist was voorspeld. Betrouwbaarheidsscores die door de extractiefase worden geleverd, worden weergegeven in de gebruikersinterface om menselijke beoordelaars te helpen minder nauwkeurige voorspellingen gemakkelijk te vinden. De volgende schermafbeelding toont de aangepaste gebruikersinterface die voor dit doel wordt gebruikt.

Onze oplossing maakt gebruik van een persoonlijk personeelsbestand voor menselijke beoordelingen dat bestaat uit interne annotators. Dit is een ideale optie bij het omgaan met gevoelige documenten of documenten die zeer gespecialiseerde domeinkennis vereisen. Amazon A2I ondersteunt ook menselijke beoordelingsmedewerkers via: Amazon Mechanical Turk en Amazon's geautoriseerde data labeling partners.

catalogiseren

Documenten die door mensen worden beoordeeld, worden gecatalogiseerd in een Excel-werkmap, zodat uw bedrijfsteams ze gemakkelijk kunnen gebruiken. De werkmap bevat elke tabel die is gedetecteerd en verwerkt in het brondocument in hun respectieve blad, dat is gelabeld met tabeltype en paginanummer. Deze Excel-bestanden worden opgeslagen in een map in Amazon S3 voor gebruik door zakelijke toepassingen, bijvoorbeeld door fraudedetectie uit te voeren met behulp van ML-technieken.

Implementeer de oplossing

Deze referentieoplossing is beschikbaar op GitHub en u kunt deze implementeren met de AWS Cloud-ontwikkelingskit (AWS CDK). De AWS CDK gebruikt de vertrouwdheid en expressieve kracht van programmeertalen voor het modelleren van uw applicaties. Het biedt componenten op hoog niveau, genaamd constructies die cloudbronnen vooraf configureren met bewezen standaardwaarden, zodat u gemakkelijk cloudtoepassingen kunt bouwen.

Raadpleeg voor instructies over het implementeren van de cloudtoepassing het README-bestand in de GitHub rest.

Oplossingsdemonstratie:

De volgende video leidt u door een demonstratie van de oplossing.

Conclusie

Dit bericht liet zien hoe je een op maat gemaakte digitaliseringsoplossing kunt bouwen om transactiedocumenten te verwerken met Amazon Textract en Amazon A2I. We hebben invoermanifesten geautomatiseerd en aangevuld en aangepaste bedrijfsregels afgedwongen. We hebben ook een intuïtieve gebruikersinterface geboden voor menselijke arbeidskrachten om gegevens met lage betrouwbaarheidsscores te beoordelen, de nodige aanpassingen aan te brengen en feedback te gebruiken om de onderliggende ML-modellen te verbeteren. De mogelijkheid om een ​​op maat gemaakt frontend-framework zoals ReactJS te gebruiken, stelt ons in staat om moderne webapplicaties te maken die aan onze specifieke behoeften voldoen, met name bij het gebruik van openbare, particuliere of externe gegevenslabels.

Voor meer informatie over Amazon Textract en Amazon A2I, zie: Amazon Augmented AI gebruiken om menselijke beoordeling toe te voegen aan Amazon Textract-uitvoer. Voor videopresentaties, voorbeelden van Jupyter-notebooks of informatie over use-cases zoals documentverwerking, contentmoderatie, sentimentanalyse, tekstvertaling en meer, zie Amazon augmented AI-bronnen.

Over het team

Het Amazon ML Solutions Lab koppelt uw organisatie aan ML-experts om u te helpen bij het identificeren en bouwen van ML-oplossingen om de hoogste return-on-investment ML-mogelijkheden van uw organisatie aan te pakken. Door middel van ontdekkingsworkshops en ideeënsessies werkt het ML Solutions Lab "terug" vanuit uw bedrijfsproblemen om een ​​routekaart te leveren van geprioriteerde ML-gebruikscasussen met een implementatieplan om deze aan te pakken. Onze ML-wetenschappers ontwerpen en ontwikkelen geavanceerde ML-modellen op gebieden zoals computervisie, spraakverwerking en natuurlijke taalverwerking om de problemen van klanten op te lossen, inclusief oplossingen die menselijke beoordeling vereisen.


Over de auteurs

Pri Nonis is een Deep Learning Architect bij het Amazon ML Solutions Lab, waar hij samenwerkt met klanten in verschillende branches, en hen helpt hun cloudmigratietraject te versnellen en hun ML-problemen op te lossen met behulp van ultramoderne oplossingen en technologieën.

Dan Nobel is een Software Development Engineer bij Amazon, waar hij helpt bij het bouwen van heerlijke gebruikerservaringen. In zijn vrije tijd houdt hij van lezen, sporten en avonturen beleven met zijn gezin.

Jae Sung Jango is een Software Development Engineer. Zijn passie ligt bij het automatiseren van handmatige processen met behulp van AI-oplossingen en orkestratietechnologieën om de bedrijfsuitvoering te garanderen.

Jeremy Feltracco is Software Development Engineer bij het Amazon ML Solutions Lab bij Amazon Web Services. Hij gebruikt zijn achtergrond in computervisie, robotica en machine learning om AWS-klanten te helpen hun AI-acceptatie te versnellen.

David Dashari is manager bij de Amazon ML Solutions-lab, waar hij AWS-klanten helpt hun AI- en cloud-adoptie te versnellen in de Human-In-The-Loop-oplossingen in verschillende branches. Met ERP en betalingsdiensten als zijn achtergrond, was hij geobsedeerd door ML/AI en nam hij stappen om klanten te verrassen die hem naar dit veld dreven.

spot_img

Laatste intelligentie

spot_img