Zephyrnet-logo

2022H2 Samenvatting van de lancering van Amazon Textract

Datum:

Documenten zijn een primair hulpmiddel voor het bijhouden van gegevens, communicatie, samenwerking en transacties in vele sectoren, waaronder financiële, medische, juridische en onroerend goed. De miljoenen hypotheekaanvragen en honderden miljoenen W2-belastingformulieren die jaarlijks worden verwerkt, zijn slechts enkele voorbeelden van dergelijke documenten.

Kritieke bedrijfsgegevens blijven ontgrendeld in ongestructureerde documenten zoals gescande afbeeldingen en pdf's, en proberen mensen deze gegevens of zelfs verouderde gegevens te laten lezen OCR is vervelend, duur en foutgevoelig.

Daarom zijn we gelanceerd Amazon T-extract in 2019 om u te helpen bij het automatiseren van uw saaie documentverwerkingsworkflows, mogelijk gemaakt door AI. Amazon Textract extraheert automatisch afgedrukte tekst, handschrift en gegevens uit elk document.

Amazon Textract verbetert continu de service op basis van uw feedback.

In dit bericht delen we de functies en verbeteringen van de Amazon Textract-service die elk kwartaal wordt uitgebracht.

2022 – K4

Analyseer leningen om de verwerking van leningdocumenten te versnellen

De functie Analyseren van leningen in Amazon Textract is een beheerde API waarmee u de verwerking van hypotheekdocumenten kunt automatiseren om de bedrijfsefficiëntie te vergroten, kosten te verlagen en snel op te schalen. Analyse Lending automatiseert de classificatie en extractie van informatie uit leningpakketten volledig. U uploadt eenvoudig uw hypotheekleningdocumenten naar de Analyse Lending API, en de vooraf getrainde machine learning-modellen zullen automatisch classificeren en splitsen op documenttype, en kritieke informatievelden uit een hypotheekleningpakket halen. Lees meer over deze functie in het bericht Gegevens over hypotheekleningen classificeren en extraheren met Amazon Textract.

Mogelijkheid om handtekeningen op elk document te detecteren

Met deze functie biedt Amazon Textract de mogelijkheid om handgeschreven handtekeningen, e-handtekeningen en initialen te detecteren op documenten zoals aanvraagformulieren voor leningen, cheques, claimformulieren en meer. De Signatures-functie is beschikbaar als onderdeel van de AnalyzeDocument API. Het vermindert de behoefte aan menselijke reviewers en helpt u kosten te verlagen, tijd te besparen en schaalbare oplossingen voor documentverwerking te bouwen. AnalyzeDocument Handtekeningen biedt de locatie en de betrouwbaarheidsscores van de gedetecteerde handtekeningen. De functie kan standalone of in combinatie met andere AnalyseDocument-functies worden gebruikt. Signatures is vooraf getraind op een breed scala aan financiële, verzekerings- en belastingdocumenten. Lees meer over het gebruik van deze functie in onze documentatie voor de AnalyzeDocument API.

AnalyseDocument Forms verbeteringen voor boxed formulieren en E13B font

Amazon Textract heeft kwaliteitsverbeteringen aangebracht in de extractiefuncties voor tekst en formulieren die beschikbaar zijn als onderdeel van de AnalyzeDocument API.

Deze updates verbeteren de algehele nauwkeurigheid van het extraheren van sleutel-waardeparen en verbeteren specifiek de extractie van gegevens die zijn vastgelegd in formulieren met een enkel karakter die vaak worden aangetroffen in belasting-, immigratie- en andere formulieren. Amazon Textract kan nu zijn kennis van deze boxed-formulieren met één teken gebruiken om hogere nauwkeurigheid te bieden bij het extraheren van sleutel-waardeparen.

Daarnaast kondigen we met genoegen ondersteuning aan voor E13B-lettertypen die vaak worden aangetroffen bij stortingscontroles, nauwkeurigheidsverbeteringen voor het detecteren van internationale bankrekeningnummers (IBAN) in bankdocumenten en lange woorden (zoals e-mailadressen) via de AnalyzeDocument API. Bedrijven in verschillende sectoren, zoals verzekeringen, gezondheidszorg en banken, gebruiken deze documenten in hun bedrijfsprocessen en zien automatisch de voordelen van deze update wanneer ze de AnalyzeDocument API.

AnalyzeExpense API voegt nieuwe velden en OCR-uitvoer toe

De update van de AnalyzeExpense API verhoogt het aantal genormaliseerde velden tot meer dan 40. De nieuw ondersteunde genormaliseerde velden omvatten samenvattingsvelden zoals leveranciersadres en regelitemvelden zoals productcode. Met deze nieuwe mogelijkheid kunt u direct de gewenste informatie extraheren en tijd besparen bij het schrijven en onderhouden van complexe nabewerkingscode. Naast ondersteuning voor nieuwe velden hebben we de nauwkeurigheid verder verbeterd voor velden zoals leveranciersnaam en totaal die al in de vorige versie werden ondersteund.

Samen met genormaliseerde sleutel-waardeparen en reguliere sleutelwaardeparen, AnalyzeExpense biedt nu de volledige OCR-uitvoer in het API-antwoord. U kunt zowel sleutel-waardeparen als het onbewerkte OCR-extract verkrijgen via één API-verzoek. Meer informatie over de AnalyzeExpense API-in Analyseren van facturen en ontvangsten.

Analyseer ID-machineleesbare zonecode-ondersteuning en OCR-uitvoer

Analyseer ID voegt ondersteuning toe om de machineleesbare zonecode (MRZ) op Amerikaanse paspoorten te extraheren. Dit is een aanvulling op de andere velden die u op Amerikaanse paspoorten kunt extraheren, zoals documentnummer, geboortedatum en uitgiftedatum, voor een totaal van 10 velden. U kunt doorgaan met het extraheren van 19 velden uit Amerikaanse rijbewijzen, inclusief afgeleide velden zoals voornaam, achternaam en adres. Naast ondersteuning voor het nieuwe MRZ-codeveld hebben we de nauwkeurigheid verder verbeterd voor velden zoals vervaldatum en geboorteplaats die al in de vorige versie werden ondersteund.

Samen met genormaliseerde sleutel-waardeparen biedt Analyse-ID de volledige OCR-uitvoer in de API-respons met deze release. U kunt zowel sleutel-waardeparen als het onbewerkte OCR-extract verkrijgen via één API-verzoek. Lees meer over onze Analyse ID API in Identiteitsdocumenten analyseren.

2022 – K3

Nauwkeurigheidsverbeteringen voor tekstextractie (OCR).

De nieuwste modellen voor tekstextractie (OCR) die beschikbaar zijn via de DetectDocumentText API verbetert de nauwkeurigheid van woord- en regelextractie. Amazon Textract heeft ook ondersteuning toegevoegd voor E13B-lettertype-extractie, die vaak wordt aangetroffen in cheques, IBAN-nummers die in bankdocumenten worden aangetroffen, en verbeterde nauwkeurigheid voor langere woorden zoals e-mailadressen. Zie voor meer informatie over de lancering Amazon Textract kondigt updates aan voor de tekstextractiefunctie.

Nauwkeurigheidsverbeteringen voor het extraheren van formulieren

Amazon Textract biedt nu verbeterde nauwkeurigheid van het extraheren van sleutel-waardeparen voor gestandaardiseerde documenten met consistente lay-outs zoals geselecteerde CMS (Center for Medicare en Medicaid) gezondheidszorg, IRS-belasting en ACORD-verzekeringsformulieren. Deze documenten zijn van oudsher een uitdaging om informatie uit te halen vanwege hun dichte en complexe lay-outs. Amazon Textract kan nu zijn kennis van deze gestandaardiseerde formulieren gebruiken om hogere nauwkeurigheid te bieden bij het extraheren van sleutel-waardeparen. Bedrijven in verschillende sectoren, zoals verzekeringen, gezondheidszorg en banken, zien automatisch de voordelen van deze update wanneer ze de functie voor het extraheren van formulieren gebruiken. Voor meer informatie, zie Amazon Textract kondigt kwaliteitsupdate aan voor de Forms-extractiefunctie.

Integratie met AWS-servicequota's

U kunt nu proactief al uw Amazon Textract-servicequota beheren via de AWS-servicequota troosten. Met Service Quotas kunnen uw aanvragen voor quotaverhoging nu automatisch worden verwerkt, waardoor de goedkeuringstijd in de meeste gevallen wordt versneld. Naast het bekijken van standaard quotumwaarden, kunt u nu de toegepaste quotumwaarden voor uw accounts in een specifieke regio bekijken, de historische gebruiksstatistieken per quotum, en alarmen instellen om u te waarschuwen wanneer het gebruik van een bepaald quotum een ​​configureerbare drempel overschrijdt.

Ook kunt u nu gebruik maken van de Amazon Textract-quotacalculator om eenvoudig de quotumvereisten voor uw werklast in te schatten voordat u een quotumverhogingsverzoek rechtstreeks vanuit de AWS Service Quotas-console indient. Voor meer informatie, zie Introductie van selfservice quotabeheer en hogere standaard servicequota voor Amazon Textract.

Verhoogde standaard servicequota voor Amazon Textract

Amazon Textract heeft nu hogere standaardservicequota voor verschillende asynchrone en synchrone API-bewerkingen in meerdere grote AWS-regio's. Er zijn nu met name hogere standaardservicequota beschikbaar voor AnalyzeDocument en DetectDocumentText API asynchrone en synchrone bewerkingen in de regio's US East (Ohio), US East (N. Virginia), US West (Oregon), Asia Pacific (Mumbai) en Europa (Ierland). Voor meer details, zie Introductie van selfservice quotabeheer en hogere standaard servicequota voor Amazon Textract.

Verkorting van de verwerkingstijd van taken op asynchrone API's van Amazon Textract

Amazon Textract biedt synchroon APIs als DetecteerDocumentTekst, AnalyseDocument, AnalyserenUitgaven en Analyse-ID, die het daadwerkelijke documentantwoord retourneren, en asynchroon APIs als StartDocumentTextDetection, StartDocumentAnalyse en Start ExpenseAnalysis, waarmee u documenten met meerdere pagina's kunt indienen en een melding ontvangt wanneer de taakverwerking is voltooid.

In het verleden vertelden klanten ons dat ze vaak grote verschillen zagen in de verwerkingstijd van asynchrone taken, afhankelijk van hun gebruikssituatie. Op basis van uw feedback hebben we de ervaring zodanig verbeterd dat u strakkere grenzen kunt verwachten aan de verwerkingstijd van asynchrone taken met minder variabiliteit.

Samengevat

Amazon Textract verbetert voortdurend op basis van feedback van klanten en brengt regelmatig nieuwe functies en verbeteringen aan de service uit.

De nieuwe functies zijn beschikbaar in alle regio's, tenzij specifieke regio's worden genoemd voor een functie.

Ontdek Amazon Textract vandaag nog zelf op de Amazon Textract-console of gebruik de AWS-opdrachtregelinterface (AWS CLI) of de AWS-ontwikkelaarstools!


Over de auteur

Martin Schade is een Senior ML Product SA met het Amazon Textract-team. Hij heeft meer dan 20 jaar ervaring met internetgerelateerde technologieën, engineering- en architectenoplossingen en trad in 2014 in dienst bij AWS, waar hij eerst enkele van de grootste AWS-klanten begeleidde bij het meest efficiënte en schaalbare gebruik van AWS-services en zich later richtte op AI/ML met een focus op computervisie en is momenteel geobsedeerd door het extraheren van informatie uit documenten.

spot_img

Laatste intelligentie

spot_img