Zephyrnet Logosu

Amazon Textract'taki imzalar özelliğini kullanarak belgelerdeki veya resimlerdeki imzaları tespit edin

Tarih:

Amazon Metin Yazısı herhangi bir belge veya görüntüden metni, el yazısını ve verileri otomatik olarak çıkaran bir makine öğrenimi (ML) hizmetidir. AnalyzeDocument Signatures, herhangi bir belgedeki imzaları otomatik olarak algılama yeteneği sunan, Amazon Textract'ta bulunan bir özelliktir. Bu, insan incelemesi, özel kod veya makine öğrenimi deneyimi ihtiyacını azaltabilir.

Bu gönderide, AnalyzeDocument Signatures özelliğinin avantajlarını ve AnalyzeDocument Signatures API'sinin belgelerdeki imzaları algılamaya nasıl yardımcı olduğunu ele alıyoruz. Ayrıca özelliğin Amazon Textract konsolu aracılığıyla nasıl kullanılacağını inceliyor ve API'yi kullanmak ve yanıtı Amazon Textract yanıt ayrıştırıcı kitaplığıyla işlemek için kod örnekleri sağlıyoruz. Son olarak, bu özelliği kullanmak için bazı en iyi uygulamaları paylaşıyoruz.

İmzalar özelliğinin faydaları

Sigorta, ipotek, hukuk ve vergi sektörlerindeki müşterilerimiz, belgelerde imza gerektiren düzenleyici ve uyumluluk gerekliliklerine bağlı kalırken, büyük hacimli kağıt tabanlı belgeleri işleme zorluğuyla karşı karşıyadır. Başvuruyu işleme koymadan önce, son müşterileriniz tarafından gönderilen kredi başvuruları veya talepler gibi belirli formların imza içerdiğinden emin olmanız gerekebilir. Belirli belge işleme iş akışlarında, doğrulama amacıyla imzaları ayıklamak ve karşılaştırmak için bir adım daha ileri gitmeniz gerekebilir.

Tarihsel olarak, müşteriler genellikle imzaları algılaması için belgeleri bir insan gözden geçiren kişiye yönlendirir. İmzaları tespit etmek için insan gözden geçirenlerin kullanılması, önemli miktarda zaman ve kaynak gerektirme eğilimindedir. Ayrıca, belge işleme iş akışında verimsizliklere yol açarak daha uzun geri dönüş sürelerine ve zayıf bir son kullanıcı deneyimine neden olabilir.

Belge İmzalarını Analiz Et özelliği, belgelerdeki el yazısı imzaları, elektronik imzaları ve parafları otomatik olarak algılamanıza olanak tanır. Bu, maliyetli ve zaman alan manuel işlemeye daha az güvenerek otomatik ölçeklenebilir bir çözüm oluşturmanıza yardımcı olabilir. Bu özelliği belgenin imzalanıp imzalanmadığını doğrulamak için kullanmanın yanı sıra, algılanan imzaların konum ayrıntılarını kullanarak formdaki belirli bir alanın imzalanıp imzalanmadığını da doğrulayabilirsiniz. Bir belgedeki kişisel olarak tanımlanabilir bilgileri (PII) çıkarmak için konum bilgilerini de kullanabilirsiniz.

AnalyzeDocument Signatures, belgelerdeki imzaları nasıl algılar?

AnalyzeDocument API'sinin dört özellik türü vardır: Formlar, Tablolar, Sorgular ve İmzalar. Amazon Textract belgeleri işlediğinde, sonuçlar bir dizide döndürülür Engellemek nesneler. İmzalar özelliği, tek başına veya diğer özellik türleriyle birlikte kullanılabilir. Kendi başına kullanıldığında, İmzalar özellik türü, belgelerden algılanan imzaların ve ham metnin (sözcükler ve satırlar) konumunu ve güven puanlarını içeren bir JSON yanıtı sağlar. İmzalar özelliği, Formlar ve Tablolar gibi diğer özellik türleriyle birleştiğinde yararlı bilgiler elde etmenize yardımcı olabilir. Özelliğin Formlar ve Tablolar ile kullanıldığı durumlarda yanıt, imzayı anahtar değer çiftinin veya bir tablo hücresinin parçası olarak gösterir. Örneğin, aşağıdaki formun yanıtı şu anahtarı içerir: Borç Verenin İmzası ve değeri şu şekilde Block nesne.

Amazon Textract konsolunda İmzalar özelliği nasıl kullanılır?

API ve kod örneklerine başlamadan önce Amazon Textract konsolunu inceleyelim. Belgeyi Amazon Textract konsoluna yükledikten sonra İmza tespiti içinde Belgeyi yapılandır bölüm ve seç Yapılandırmayı uygula.

Aşağıdaki ekran görüntüsü, ödeme stubunun bir örneğini göstermektedir. İmzalar Amazon Textract konsolundaki Belgeyi Analiz Et API'si için sekme.

Özellik, imzayı algılar ve ilgili sayfa ve güven puanı ile birlikte sunar.

Kod örnekleri

Çekler, kredi başvuru formları, talep formları, maaş bordroları, ipotek belgeleri, banka ekstreleri, kira sözleşmeleri ve sözleşmeler gibi farklı belge türleri üzerindeki imzaları algılamak için İmzalar özelliğini kullanabilirsiniz. Bu bölümde, bu belgelerden bazılarını ele alacağız ve imzaları algılamak için AnalyzeDocument API'sini Signatures parametresiyle nasıl çalıştıracağımızı göstereceğiz.

Girdi belgesi ya bir bayt dizisi biçiminde olabilir ya da bir Amazon Basit Depolama Hizmeti (Amazon S3) paketi. Bayt dizisi biçimindeki belgeler için, görüntü baytlarını şu yöntemi kullanarak bir Amazon Textract API işlemine gönderebilirsiniz: bytes mülk. Bir özellik türü olarak imzalar, eşzamanlı belge işleme için AnalyzeDocument API ve belgelerin eşzamansız işlenmesi için StartDocumentAnalysis tarafından desteklenir.

Aşağıdaki örnekte, bir istihdam doğrulama mektubundaki imzaları tespit ediyoruz.

Aşağıdaki örnek Python kodunu kullanıyoruz:

import boto3
import json #create a Textract Client
textract = boto3.client('textract')
#Document
documentName = image_filename response = None
with open(image_filename, 'rb') as document: imageBytes = bytearray(document.read()) # Call Textract AnalyzeDocument by passing a document from local disk
response = textract.analyze_document( Document={'Bytes': imageBytes}, FeatureTypes=["FORMS",'SIGNATURES'] )

AnalyzeDocument API'sinden aldığımız yanıtı inceleyelim. Aşağıdaki yanıt, yalnızca ilgili bölümleri gösterecek şekilde kırpılmıştır. Yanıt bir BlockType of SIGNATURE güven puanını, bloğun kimliğini ve sınırlayıcı kutu ayrıntılarını gösterir:

'BlockType': 'SIGNATURE', 'Confidence': 38.468597412109375, 'Geometry': {'BoundingBox': {'Width': 0.15083004534244537, 'Height': 0.019236255437135696, 'Left': 0.11393339931964874, 'Top': 0.8885205388069153}, 'Polygon': [{'X': 0.11394496262073517, 'Y': 0.8885205388069153}, {'X': 0.2647634446620941, 'Y': 0.8887625932693481}, {'X': 0.264753133058548, 'Y': 0.9077568054199219}, {'X': 0.11393339931964874, 'Y': 0.907513439655304}]}, 'Id': '609f749c-5e79-4dd4-abcc-ad47c6ebf777'}]

Kimliği ve konumu tablo biçiminde yazdırmak için aşağıdaki kodu kullanıyoruz:

#print detected text
from tabulate import tabulate
d = []
for item in response["Blocks"]: if item["BlockType"] == "SIGNATURE": d.append([item["Id"],item["Geometry"]]) print(tabulate(d, headers=["Id", "Geometry"],tablefmt="grid",maxcolwidths=[None, 100]))

Aşağıdaki ekran görüntüsü sonuçlarımızı göstermektedir.

Daha fazla ayrıntı ve kodun tamamı şu adresteki not defterinde mevcuttur: GitHub repo.

Anahtar değer biçimlerinde okunaklı imzaları olan belgeler için, Textract yanıt çözümleyici anahtarı ve bu tuşlara karşılık gelen değeri arayarak yalnızca imza alanlarını çıkarmak için:

from trp import Document
doc = Document(response)
d = [] for page in doc.pages: # Search fields by key print("nSearch Fields:") key = "Signature" fields = page.form.searchFieldsByKey(key) for field in fields: d.append([field.key, field.value]) print(tabulate(d, headers=["Key", "Value"]))

Önceki kod aşağıdaki sonuçları döndürür:

Search Fields:
Key Value
------------------------- --------------
8. Signature of Applicant Paulo Santos
26. Signature of Employer Richard Roe
3. Signature of Lender Carlos Salazar

İmzaların bu şekilde yazıya dökülebilmesi için imzaların okunaklı olması gerektiğini unutmayın.

İmzalar özelliğini kullanmak için en iyi uygulamalar

Bu özelliği kullanırken aşağıdaki en iyi uygulamaları göz önünde bulundurun:

  • Gerçek zamanlı yanıtlar için AnalyzeDocument API'sinin senkronize işlemini kullanın. Toplu işleme gibi gerçek zamanlı yanıta ihtiyaç duymadığınız kullanım durumları için API'nin eşzamansız işlemini kullanmanızı öneririz.
  • İmzalar özelliği, bir sayfada en fazla üç imza olduğunda en iyi şekilde çalışır. Bir sayfada üçten fazla imza olduğunda, sayfayı bölümlere ayırmak ve bölümlerin her birini ayrı ayrı API'ye beslemek en iyisidir.
  • Puanlar gerekli eşiğinizi karşılamadığında belgeleri insan incelemesi için yönlendirmek üzere algılanan imzalarla sağlanan güven puanlarını kullanın. Güven puanı, bir doğruluk ölçüsü değil, modelin tahminine olan güveninin bir tahminidir. Kullanım durumunuz için en mantıklı olan bir güven puanı seçmelisiniz.

Özet

Bu gönderide, maaş bordroları, kiralama sözleşmeleri ve sözleşmeler gibi belgelerdeki imzaları otomatik olarak algılamak için Amazon Textract'ın İmzalar özelliğine genel bir bakış sağladık. AnalyzeDocument Signatures, insan gözden geçirenlere olan ihtiyacı azaltır ve maliyetleri düşürmenize, zamandan tasarruf etmenize ve belge işleme için ölçeklenebilir çözümler oluşturmanıza yardımcı olur.

Başlamak için özelliği denemek üzere Amazon Textract konsolunda oturum açın. Amazon Textract yetenekleri hakkında daha fazla bilgi edinmek için bkz. Amazon Metin Yazısı, Amazon Textract Geliştirici Kılavuzuya da Textract Kaynakları.


Yazarlar Hakkında

Maran Chandrasekaran Amazon Web Services'ta kurumsal müşterilerimizle birlikte çalışan bir Kıdemli Çözüm Mimarıdır. İş dışında, Texas Hill Country'de seyahat etmeyi ve motosikletini sürmeyi seviyor.

Şibin Michaelraj AWS Textract ekibinde Kıdemli Ürün Yöneticisidir. AWS müşterileri için AI/ML tabanlı ürünler oluşturmaya odaklanmıştır.

suprakash dutta Amazon Web Services'ta Kıdemli Çözüm Mimarıdır. Dijital dönüşüm stratejisi, uygulama modernizasyonu ve geçişi, veri analitiği ve makine öğrenimi konularına odaklanmaktadır. AWS'deki AI/ML topluluğunun bir parçasıdır ve akıllı belge işleme çözümleri tasarlar.

spot_img

En Son İstihbarat

spot_img