Zephyrnet Logosu

Veri Çıkarma ve Belge Bazlı Süreçlerinizi Nasıl Otomatikleştirebilirsiniz?

Tarih:

Veri Çıkarma ve Belge Bazlı Süreçlerinizi Nasıl Otomatikleştirebilirsiniz?

Manuel Veri Çıkarma 2021'de hala bir şey mi?

Blog gönderisinin başlığını okuduğum anda aklıma gelen ilk soru şuydu: 'Manuel Veri Girişi 2021'de hala bir şey mi?' Biraz araştırma yaptım ve sorunun boyutuna hoş bir şekilde şaşırdım. Birçok kuruluş hala manuel veri girişine güveniyor. Bunların çoğu, otomatik bir veri çıkarma hattı kurmaya yatırım yapmıyor çünkü manuel veri girişi son derece ucuz ve neredeyse sıfır uzmanlık gerektiriyor. Ancak, 2018 Goldman Sachs'a göre rapormanuel veri girişinin doğrudan ve dolaylı maliyetleri, küresel işletmeler için yaklaşık 2.7 trilyon ABD dolarıdır.

Otomatik bir veri çıkarma hattı için olası bir kullanım durumu, COVID-19 salgını sırasında yaşandı. Test edilen kişi sayısı, her bireyin test raporları vb. Gibi birçok verinin bir veritabanına manuel olarak girilmesi gerekiyordu. Süreci otomatikleştirmek çok zaman ve insan gücü tasarrufu sağlardı.

MANUEL VERİ ÇIKARMA ÇİZİMLERİ:

  1. Hatalar: Manuel veri girişi gibi sıkıcı ve tekrarlayan bir görevi yerine getirirken, hatalar ortaya çıkmaya mahkumdur. Bu hataları daha sonraki bir aşamada tanımlamak ve düzeltmek maliyetli bir mesele olabilir.
  2. Yavaş İşlem: Otomatik veri çıkarma ile karşılaştırıldığında, manuel veri girişi son derece yavaş bir süreçtir ve tüm üretim hattını durdurabilir.
  3. Veri güvenliği: Hassas verilerle uğraşırken, manuel bir veri girişi süreci veri sızıntılarına yol açabilir ve bu da sistemi tehlikeye atabilir.

Manuel Veri Çıkarma sorunları mı yaşıyorsunuz? Kuruluşunuzun veri çıkarma sürecini verimli hale getirmek mi istiyorsunuz? Başını aşmak Nanonetler ve Belgelerden Veri Ayıklamanın nasıl otomatikleştirilebileceğini kendiniz görün.


BÖLÜM 1: VERİ BORU HATTI

Yukarıda belirtilen dezavantajların üstesinden gelmek için neredeyse tüm büyük kuruluşların bir veri hattı oluşturması gerekir. Herhangi bir veri ardışık düzeninin ana bileşenleri, ETL (Çıkar, Dönüştür, Yükle) kısaltması ile uygun bir şekilde açıklanmıştır. Veri Çıkarma, çeşitli kaynaklardan verilerin çıkarılmasını içerir, veri dönüştürme aşaması bu verileri belirli bir formata dönüştürmeyi amaçlar ve veri yükleme, bu verilerin bir veri ambarında depolanması sürecini ifade eder.

Veri Çıkarma ve Belge Bazlı Süreçlerinizi Nasıl Otomatikleştirebilirsiniz?
Şekil 1. ETL Süreci

İşlem hattındaki ilk aşama olan veri çıkarma, herhangi bir kuruluşta çok önemli bir rol oynar. Bu gönderi, veri çıkarma işlemini gerçekleştirmek için kullanılabilecek çeşitli yöntemleri ve araçları ve bu görev için Optik Karakter Tanıma'nın (OCR) nasıl kullanılabileceğini araştırıyor.

BÖLÜM 2: OTOMATİK VERİ ÇIKARMA:

Günümüzün neredeyse tüm veri analitiği, iyi performans gösterebilmek için büyük miktarda veri gerektirir. Örneğin: Herhangi bir kuruluş, rakiplerinin performansını, genel pazar eğilimlerini, müşteri incelemelerini ve tepkilerini vb. Takip etmek isteyebilir. Bunu yapmanın bir yolu, veri çıkarma araçları Bu, web'i kazıyabilir ve çeşitli kaynaklardan veri alabilir. Aşağıdaki bölümde, raf dışı veri çıkarma araçlarının birkaç popüler özelliği vurgulanmaktadır.

2.1: VERİ ÇIKARMA ARAÇLARI
1) Hurda: Scrapy, python ile yazılmış açık kaynaklı bir web tarayıcısıdır. Tam bir aceminin bile Scrapy kullanarak web'i nasıl kazıyabileceğini gösteren basit bir örnek üzerinden geçelim. Aşağıdaki örnekte, Nanonets blog sayfasının başlığını ayrıştırmak için Scrapy'yi kullandım.

Veri Çıkarma ve Belge Bazlı Süreçlerinizi Nasıl Otomatikleştirebilirsiniz?
Şekil 2. Scrapy kullanılarak ayrıştırılan Nanonets blog sayfasının başlığı

Scrapy kabuğunu ayrıştırma amacıyla kullansam da, aynı davranış bir python betiği kullanılarak da elde edilebilirdi.

Veri Çıkarma ve Belge Bazlı Süreçlerinizi Nasıl Otomatikleştirebilirsiniz?
Şekil 3. Scrapy tarafından ayrıştırılan Nanonets blog sayfasının başlığı

Araç son derece sezgiseldir ve herhangi bir HTML sayfasındaki öğeler CSS kullanılarak ayrıştırılabilir. Yeni başlayanlar açısından aracın tek dezavantajı, dinamik web sayfalarını ayrıştırmanın oldukça zor olmasıydı.

2) Octoparse, Outwit hub, Parsehub vb. Web kazıma için sezgisel bir GUI sağlayan diğer açık kaynaklı araçlardır.

Bu açık kaynaklı araçların yanı sıra, kendilerini veri çıkarımı yapmaya adamış şirketler de var. Özel veri çıkarma boru hatları oluşturmak için kaynaklara sahip olmayan küçük kuruluşlar, bu veri çıkarma hizmetlerini kullanarak veri çıkarma sürecini dış kaynak olarak kullanabilirler.

2.2: VERİ ÇIKARMA TEKNİKLERİ

Aşağıda verilen akış şeması, birkaç veri çıkarma tekniği hakkında kısa bir açıklama sağlar.

Veri Çıkarma ve Belge Bazlı Süreçlerinizi Nasıl Otomatikleştirebilirsiniz?
Akış çizelgesi 1. Veri çıkarma teknikleri

Aşağıdaki bölümler, veri çıkarma görevini gerçekleştirmek için Optik Karakter Tanıma (OCR) kullanımını araştırmaktadır.


Manuel Veri Çıkarma sorunları mı yaşıyorsunuz? Kuruluşunuzun veri çıkarma sürecini verimli hale getirmek mi istiyorsunuz? Başını aşmak Nanonetler ve Belgelerden Veri Ayıklamanın nasıl otomatikleştirilebileceğini kendiniz görün.


BÖLÜM 3: OCR KULLANILARAK OTOMATİK VERİ ÇIKARMA:

Optik Karakter Tanıma (OCR), basılı veya el yazısı materyallerden karakterleri tanımlayan bir teknolojidir. OCR kullanarak bir veri çıkarma hattı kurarak, kuruluşlar veri çıkarma ve depolama sürecini otomatikleştirebilir.

HERHANGİ BİR OCR SİSTEMİNİN KALBİ:

Modern OCR araçları, bir dizi veri ön işleme (gürültü giderme, ikileme, çizgi bölümleme) ve son işleme adımlarıyla birlikte gelir. Bununla birlikte, herhangi bir OCR sisteminin merkezinde iki ana bileşen bulunur:

  1. Bir Özellik Ayıklayıcı ve
  2. Sınıflandırıcı
Veri Çıkarma ve Belge Bazlı Süreçlerinizi Nasıl Otomatikleştirebilirsiniz?
Şek 4

Özellik çıkarıcı, her sözcükbirimine (karakter / kelime) karşılık gelen özellikleri çıkarır. Çıkarılan bu özellikler, belirli bir sınıfa ait sözcük biriminin olasılığını belirleyen sınıflandırıcıya girdi olarak beslenir.

OCR PROBLEMİNİ ÇÖZMEK İÇİN GELENEKSEL YAKLAŞIMLAR:

  1. Şablon eşleme: Bir dizi şablon (alfabenin her karakterinin görüntüsü) toplanır ve saklanır. Giriş görüntüsünün her karakteri daha sonra bu şablon koleksiyonuyla eşleştirilir. Her karşılaştırma, mümkün olan en iyi eşleşmelerin tanımlandığı bir benzerlik ölçüsü ile ilişkilendirilir.
Veri Çıkarma ve Belge Bazlı Süreçlerinizi Nasıl Otomatikleştirebilirsiniz?
Şekil 5. İngilizce Alfabesi için şablonların listesi (Kaynak: https://www.google.com/url?sa=i&url=https%3A%2F%2Fwww.slideshare.net%2FVj84529%2Focr-color&psig=AOvVaw0u4z1m4DwYNIFQEFKlQLqH&ust=1613545352470000&source=images&cd=vfe&ved=0CAIQjRxqFwoTCKiG8Ijr7e4CFQAAAAAdAAAAABAD)

Kural Tabanlı Yöntemler: Çocukken 'H' karakterini, onları birbirine bağlayan yatay bir çizgi olan iki dikey çizgi olarak tanımamız öğretildi. Sezgisel olarak, kural tabanlı yöntemlerin başarmaya çalıştığı şey budur. Girdi görüntülerinden belirli yapısal özellikler çıkarılır ve bunları sınıflandırmak için kural tabanlı bir sistem kullanılır.

Yukarıda belirtilen yaklaşımların dışında, geleneksel bilgisayar görüşüne dayalı OCR gerçekleştirmek için çeşitli başka yöntemler geliştirilmiştir. Bununla birlikte, neredeyse tamamı Derin Öğrenme ile değiştirildi veya tamamlandı.
Artık OCR'nin ne olduğu ve OCR gerçekleştirmek için kullanılan bazı geleneksel yaklaşımlar hakkında bir fikrimiz olduğuna göre, daha derine inelim…

Veri Çıkarma ve Belge Bazlı Süreçlerinizi Nasıl Otomatikleştirebilirsiniz?
(Kaynak: https://memegenerator.net/instance/57413687/inception-di-caprio-we-need-to-go-deeper)

BÖLÜM 4: OCR ARAÇLARI

En son teknoloji ürünü açık kaynak kodlu OCR araçlarından bazılarına bakalım:

  1. Tesseract: Tesseract ilk olarak HP tarafından geliştirildi ve 2005 yılında açık kaynaklı bir yazılım olarak piyasaya sürüldü. O zamandan beri geliştirmesi Google tarafından devralındı. Tesseract OCR'nin tüm ayrıntılarını ve nasıl kullanılabileceğini açıklayan çok sayıda öğretici vardır. Nanonets hakkındaki aşağıdaki blog, aynı şeyin kapsamlı bir incelemesini sunmaktadır. https://nanonets.com/blog/ocr-with-tesseract/#introduction
  2. Okropus: OCRopus, görüntüler üzerinde OCR gerçekleştirmek için kullanılan bir araç koleksiyonudur. OCRopus'un genel boru hattı, aşağıdaki şekilde gösterildiği gibi üç ana blok içerir.
Veri Çıkarma ve Belge Bazlı Süreçlerinizi Nasıl Otomatikleştirebilirsiniz?
Akış çizelgesi2. OCRopus'un genel boru hattı

OCRopus tam bir GUI motorudur ve isteğe bağlı olarak OCR gerçekleştirmek için arka uçta tesseract kullanabilir.

3. Kalamar OCR: Calamari OCR, TensorFlow'da uygulanan derin sinir ağlarını kullanan nispeten yeni bir çizgi tanıma yazılımıdır. Tesseract ve OCRopus ile karşılaştırıldığında, Calamari OCR'nin ağ mimarisini ve iç işleyişini detaylandıran birkaç açıklaması vardır. Bu, OCR sorununu resmileştirmek ve ona Calamari'nin gözünden bakmak için iyi bir nokta gibi görünüyor.

Derin Sinir Ağı (DNN) kullanarak "Hız" kelimesi üzerinde Optik Karakter tanıma yapmak istediğimizi varsayalım. Ayrıca, bu görevi gerçekleştirmek için Evrişimli Sinir Ağları (CNN'ler) ve Uzun kısa süreli bellek (LSTM'ler) kullanarak bir DNN oluşturduğumuzu varsayalım. Ağımız, her zaman adımında her sınıfla ilişkili çıktı olasılıklarını tahmin eder.

Örneğin: İdeal bir senaryoda

Veri Çıkarma ve Belge Bazlı Süreçlerinizi Nasıl Otomatikleştirebilirsiniz?
Şekil 6. Sinir Ağına beslenen Giriş Görüntüsü

Veri Çıkarma ve Belge Bazlı Süreçlerinizi Nasıl Otomatikleştirebilirsiniz?
Şekil 7. Çıktı (her şey yolunda giderse)

Aşağıdaki tablo, her bir zaman adımıyla ilişkili olası olasılık değerlerini göstermektedir.

T0

T1

T2

T3

T4

P (a)

0.001

0.002

0.01

0.01

0.001

P (b)

0.001

0.003

0.003

0.002

0.002

P (c)

0.005

0.005

0.002

0.001

0.001

P (d)

0.002

0.001

0.001

0.003

0.7

P (e)

0.001

0.002

0.7

0.8

0.002

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

P (p)

0.003

0.8

0.002

0.004

0.001

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

P (ler)

0.7

0.008

0.002

0.001

0.007

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

   Tablo 1. Her sınıfla ilişkili olasılıklar

Her zaman adımı altındaki maksimum olasılığı alarak, gerekli çıktıyı, yani HIZI elde ederiz. Bu yaklaşımda ne ters gidebilir? Akıl yürütmemizde yaptığımız bir varsayımı, yani her zaman adımının hizalanmasını düşünmek için biraz zaman ayıralım.
Her zaman adımının tam olarak birbirini takip eden alfabeler arasında gerçekleştiğini varsaydık. Sinir ağı, zaman adımlarını şekil 8'de gösterildiği gibi hizalamaya karar verirse çıktı çok farklı olurdu.

Veri Çıkarma ve Belge Bazlı Süreçlerinizi Nasıl Otomatikleştirebilirsiniz?
Şekil 8. Yanlış hizalanmış zaman adımları

Bu senaryoda, sinir ağı SSPPEEEEDD'yi çıktı olarak tahmin edebilir. İkinci olarak, sinir ağı için eğitim verilerini hazırlamak son derece sıkıcı olabilir. Her alfabenin başladığı ve bittiği tam piksel konumunu belirtmemiz gerekir.

Basit bir görev gibi görünen şey son derece sinir bozucu olduğunu kanıtlıyor. Yanlış hizalanmış zaman dilimleri ve eğitim verileri ek açıklaması sorunu, yeni bir kayıp işlevi eklenerek çözülebilir.

Bağlantısal Zamansal Sınıflandırma (CTC)

Veri Çıkarma ve Belge Bazlı Süreçlerinizi Nasıl Otomatikleştirebilirsiniz?
(Source:https://www.google.com/search?q=memeanimals.com+i+must+go+my+people+need+me&tbm=isch&source=iu&ictx=1&fir=C8adpx9pd63_pM%252C6SVZE5KvuruZIM%252C_&vet=1&usg=AI4_-kR44ME7ZPnrJBaiK3LJUtr-hYlyWw&sa=X&ved=2ahUKEwiiiZ2XqonvAhUkmeYKHQpbCgcQ9QF6BAgMEAE#imgrc=C8adpx9pd63_pM)

CTC bize aşağıdaki şekillerde yardımcı olur:

  1. CTC kaybını kullanarak, her alfabenin piksel bazlı konumunu belirtmek zorunda kalmadan ağı eğitebiliriz. Bu, yeni bir karakter '-' eklenerek elde edilir. '-', belirli bir zaman adımında hiçbir karakterin görülmediğini belirtmek için kullanılır.
    Bu özel karakter '-' kullanılarak, temel gerçek, görüntüde "hız" kelimesinin geçtiği tüm olası konumları hesaba katacak şekilde değiştirilebilir. Örneğin, “hız” kelimesi “—speed”, “–speed-”, “-speed–”, “speed—” olarak yazılabilir. Benzer şekilde, her bir alfabenin ne kadar yer kaplayacağını bilmediğimizden, değişen karakter uzunluklarını hesaba katmak için karakter tekrarları ekliyoruz, yani "hız" "-speed", "-ssspeed", vb. Olarak yazılabilir.
    Temel gerçekte gerçek karakter tekrarları durumunda, tekrarlanan karakterler arasına bir '-' eklememiz gerekir. Bu nedenle, "hız" kelimesi şu şekillerde kodlanabilir: "—spe-ed", "–spe-ed-", "-spe-ed–", "spe-ed–", "–spe-ed" , vb. Olası her kodlama için puanı hesaplıyoruz ve tüm bireysel puanların toplamı bize her bir çift için (görüntü, kesin referans) kaybı veriyor.
  2. CTC kod çözücüyü kullanmak çok daha basittir. Diyelim ki kod çözücü “ssppe-eee-dd. Kopyaları basitçe atabiliriz, yani "ssppe-eee-dd" "spe-ed" olur. Son olarak, "hız" kelimesini elde etmek için "-" karakterlerini kaldırıyoruz.

CTC kaybını öğrenirken aşağıdaki kaynakları son derece yararlı buldum.https://distill.pub/2017/ctc/        https://dl.acm.org/doi/abs/10.1145/1143844.1143891

Ağı uygulamak basittir. Makaleye göre (https://arxiv.org/pdf/1807.02004.pdf), varsayılan ağ aşağıdaki özelliklere sahiptir:

Mimari: Dönş. Katmanı -> Maks-Havuzlama -> Dönş. Katmanı -> Maks. Havuzlama -> LSTM.  

Kayıp: CTC kaybı                                                                                                    

Optimize Edici: 0.001 öğrenme oranına sahip Adam

Vay be! Bu çok fazla teoriydi. Kalamar kullanarak Optik Karakter tanımayı uygulayarak ellerimizi kirletelim.

Calamari github sayfasından başlarken https://github.com/Calamari-OCR/calamari kolay bir iş ve kurulum sürecinde hiç sorun yaşamadım. Uw3-modern-english veri kümesi üzerinde eğitilmiş bir model kullanmaya karar verdim. Şekil 9, ağa beslenen girişi gösterir ve Şekil 10, karşılık gelen çıktıyı gösterir.

Veri Çıkarma ve Belge Bazlı Süreçlerinizi Nasıl Otomatikleştirebilirsiniz?
Şekil 9. Kalamar'a giriş görüntüsü
Veri Çıkarma ve Belge Bazlı Süreçlerinizi Nasıl Otomatikleştirebilirsiniz?
Şekil 10. Kalamar OCR'den çıktı

Kalamar, çıktıyı (Şekil 10)% 97'lik bir güvenle üretti. Çoğu durumda çok iyi performans gösterir ve özel kullanım durumunuza uyacak şekilde kolayca ince ayar yapılabilir.
NOT: Calamari, bir seferde tek bir metin satırı üzerinde OCR gerçekleştirir. Tüm bir belgede OCR gerçekleştirmek istiyorsanız, görüntüyü Kalamar'a beslemeden önce bir miktar ön işleme (yerleşim analizi, çizgi bölümleme vb.) Gerekir.
Yukarıda belirtilen ücretsiz açık kaynaklı OCR araçlarının yanı sıra, Google bulut vizyonu, Microsoft Computer Vision API ve Amazon Textract gibi çeşitli ücretli araçlar vardır.

Bir sonraki bölüm, OCR'nin çeşitli sektörlerde ve kuruluşlarda pratik sorunları çözmek için nasıl kullanılabileceğinden bahsediyor.


Veri Çıkarma gereksiniminiz var mı? Başını aşmak Nanonetler PDF'ler, Makbuzlar, Faturalar, Formlar ve Daha Fazlası gibi belgelerden Veri Ayıklamayı nasıl otomatikleştirebileceğinizi görün.


BÖLÜM 5: OCR KULLANILARAK VERİ ÇIKARILMASININ PRATİK KULLANIM DURUMLARI:

FlowChart3'te gösterilen genel OCR ardışık düzeni kullanılarak, OCR kullanılarak çözülebilecek bazı problemler aşağıda açıklanmıştır.

Veri Çıkarma ve Belge Bazlı Süreçlerinizi Nasıl Otomatikleştirebilirsiniz?
Akış çizelgesi 3. OCR Ardışık Düzeni

Sağlık Sektörü için OCR tabanlı Veri Çıkarma Teknikleri

Sorun: Küçüklüğümden beri, hastaneyi her ziyaret ettiğimde aşağıdaki adımlar dizisi uygulanacaktı. Resepsiyonist önce kimlik numaramı soracaktı. Daha sonra, bir şekilde sıralanan büyük bir günlük yığınına dalacaktı. Genellikle, uzun bir arama döneminden sonra günlüğümü ve jeton numarasını alırdım. Doktor hastalığımın nedenini inceleyecek ve günlüğüme bir reçete yazacaktı. Reçeteyi eczaneye teslim ettiğimde gerekli ilaçları alıyordum. Ülkedeki çoğu yerel hastanede uygulanan rutin bu olduğunu varsayıyorum.

Çözüm: OCR ardışık düzenimizi kullanarak, tüm bilgiler dijital hale getirilebilir ve bir veritabanında saklanabilir. Bunu uygulamanın basit bir yolu, taranan ve OCR boru hattına beslenen formları her hastaya teslim etmektir. Bunu yapmanın avantajları çok yönlüdür:

  1. Hastaların tıbbi geçmişi, doktorların kendi istekleri doğrultusunda erişebilecekleri ortak bir veri tabanında saklanabilir. Bu bilgi, doktorun hastalığı teşhis etmesine yardımcı olabilir.
  2. Hastane verileri analiz edebilir ve kaynaklarını buna göre tahsis edebilir. Örneğin: Veriler jinekoloji bölümünün maksimum hasta sayısına sahip olduğunu gösteriyorsa, hastane bu bölümde daha fazla doktor ve hemşire istihdam etmeyi seçebilir.

Olası tuzaklar:

  1. Tahmin edebileceğiniz gibi, OCR kullanarak doktorların reçetelerini deşifre etmek küçük bir zorluk değil. Bununla birlikte, işleme sonrası adımda bazı alana özgü bilgilerin (iyi bilinen ilaçların adları) yanı sıra kaliteli eğitim verilerinin kullanılmasıyla, çözüm çoğu hataya karşı sağlam hale getirilebilir.

Devlete fayda sağlayabilecek Otomatik Veri Çıkarma Hizmetleri

Sorun:  Geçtiğimiz yıl, COVID-19 salgını beraberinde bir dizi sorunu da beraberinde getirdi. Manuel veri girişinin bunlardan biri olduğunu öğrenince oldukça şaşırdım. Pandemi zirveye ulaştığında, her gün yüzlerce test yapılıyordu ve tüm sonuçların bir veri tabanına manuel olarak girilmesi gerekiyordu.

Çözüm: OCR, bu senaryoda kolaylıkla kullanılabilirdi. Laboratuvar raporunun taranmış bir kopyası OCR ardışık düzenine beslenebilir. Örneğin, Şekil 11, boru hattına bir girdi olarak beslenen test raporunu gösterir ve Şekil 12, karşılık gelen sonuçtur.

Veri Çıkarma ve Belge Bazlı Süreçlerinizi Nasıl Otomatikleştirebilirsiniz?
Şekil 11. Bir COVID test raporunun taranmış kopyası (https://www.lalpathlabs.com/SampleReports/N228.pdf)
Veri Çıkarma ve Belge Bazlı Süreçlerinizi Nasıl Otomatikleştirebilirsiniz?
Şekil 12. COVID test raporundaki OCR sonucu

Sorun, önemli olan alanlara odaklanıp geri kalanını göz ardı ederek daha da basitleştirilebilir. Bu durumda, kişinin Adı ve testin sonucu güvenilir bir şekilde alınmalıdır. Testin sonuçları ikili, yani negatif veya pozitif olduğundan, normal ifadeler kullanılarak eşleştirilebilirler. Benzer şekilde, güvenilir karakter tanıma sağlamak için ad alanı benzersiz bir kimlik numarasıyla değiştirilebilir.

Fatura Otomasyonu için OCR Tabanlı Veri Çıkarma Yazılımı

SORUN: Herhangi bir organizasyonun hesaplar bölümünün derinliklerinde, işi faturalardan şirketin veritabanına manuel olarak veri girmek olan bir grup insan bulunur. Bu, OCR ardışık düzenimiz sayesinde otomatikleştirilebilen, oldukça tekrarlayan ve sıradan bir görevdir.

ÇÖZÜM: Verilen faturada OCR gerçekleştirmek, manuel veri girişi görevini otomatik hale getirebilir. Bu alanda halihazırda pek çok çalışma yapılmıştır ve sağlam bir çözüm geliştirmek, esas olarak faturadan doğru bir şekilde tablo ve tutarların çıkarılmasına bağlıdır.

Aşağıdaki blog gönderileri https://nanonets.com/blog/table-extraction-deep-learning/ ve https://nanonets.com/blog/extract-structured-data-from-invoice/ aynısının kapsamlı açıklamalarını sağlayın.

BÖLÜM 6: SON ARAŞTIRMA:

  1. ScrabbleGAN: Yarı Denetimli Değişken Uzunlukta El Yazısı Metin Üretimi(https://arxiv.org/abs/2003.10557) (CVPR-2020):

Bu makale, el yazısı metin tanıma (HTR) sorununu ele almaktadır. Son teknoloji OCR araçları basılı metin üzerinde iyi performans gösterse de, el yazısı metin tanıma hala gelişmekte olan bir alandır. Yazarlar, bu açığı eğitim verilerinin eksikliğine, yani el yazısı ile not eklenmiş metnin eksikliğine bağlamaktadır. Yazarlar, çeşitli stillerde el yazısı görüntüleri oluşturabilen bir DNN önermektedir.

Veri Çıkarma ve Belge Bazlı Süreçlerinizi Nasıl Otomatikleştirebilirsiniz?
Şekil 13. ScrabbleGAN'ın Mimarisi

Şekil 13. ScrabbleGAN'ın mimarisini gösterir. Jeneratör, ayırıcıya ek olarak bir tanıyıcıya beslenen sentetik görüntüler üretir. Ayırıcı, jeneratörü gerçek görünümlü görüntüler oluşturmaya zorlarken tanıyıcı, jeneratör tarafından anlamlı kelimelerin üretildiğinden emin olur.

Veri Çıkarma ve Belge Bazlı Süreçlerinizi Nasıl Otomatikleştirebilirsiniz?
Şekil 14. "supercalifragilisticexpialidocious" kelimesinin farklı stilleri

Ağ, yarı denetimli bir şekilde eğitilir ve değerlendirme için Sözcük Hata Oranı (WER) ve normalleştirilmiş düzenleme mesafesi (NED) olmak üzere iki ölçü kullanılır.

2. OrigamiNet: OrigamiNet: Zayıf Denetimli, Segmentasyonsuz, Tek Adımda, Açılmayı öğrenerek Tam Sayfa Metin Tanıma (https://arxiv.org/abs/2006.07491) (CVPR-2020):

İlk OCR mimarileri, her bir karakteri giriş görüntüsünden ayırmaya ve her bir parçalı karakteri sınıflandırmaya çalıştı. Bu, tüm bir kelimenin bölümlere ayrıldığı ve sınıflandırıldığı bölümleme içermeyen yaklaşımlara ilerledi. Günümüzde, en son teknolojiye sahip yaklaşımların çoğu, tüm bir metin satırı üzerinde işlemektedir.

Bu yazıda yazarlar, OCR'nin ağ üzerinden tek bir ileri geçişte tüm sayfada gerçekleştirilmesini sağlayan basit bir işlem seti önermektedir. Tüm sayfada OCR gerçekleştirmenin ana kısıtlaması, CTC kaybı fonksiyonunun girişin 1D olmasını gerektirmesidir. Bu, girişin aşağı örneklendiği ve kayıp hesaplama aşamasından önce 15D'ye dönüştürüldüğü Şekil 1'te açıkça gösterilmektedir.

Veri Çıkarma ve Belge Bazlı Süreçlerinizi Nasıl Otomatikleştirebilirsiniz?
Şekil 15. Tam evrişimli tek hat tanıyıcı

CNN'ler, resimden resme çeviri gibi görevlerde iyi performans gösterdiğinden, yazarlar 2D'den 1D'ye dönüşümü öğrenmek için bir CNN'den yararlanırlar. Genel tam evrişimli sinir ağından gelen özellik haritası, havuzlama işlemi gerçekleştirilmeden önce iki ardışık aşamada dikey olarak yukarı örneklenir ve yatay olarak alt örneklenir.

Veri Çıkarma ve Belge Bazlı Süreçlerinizi Nasıl Otomatikleştirebilirsiniz?
Şekil 16. Çok satırlı tanıma gerçekleştirmek için ek aşamalarla artırılmış tek bir metin satırında OCR gerçekleştirmek için kullanılan genel CNN

Son uzun unsur haritası, giriş görüntüsündeki tüm metin satırlarını içerir. Yazarlar, modele yeterli uzamsal kapasite sağlamanın, gerekli 2B'den 1B'ye dönüşümü kolayca öğrenmesine izin verdiğini savunuyorlar.
Yazarlar çalışmalarını ResNet, VGG ve GTR gibi standart CNN'leri kullanarak değerlendiriyorlar.

SONUÇ:

Bu yazıda, veri çıkarmaya ve Optik karakter tanımanın bu sorunu çözmek için nasıl kullanılabileceğine ayrıntılı olarak baktık. Bölüm 1, veri çıkarma probleminin kısa bir girişini içerir. Bölüm2'de bazı veri çıkarma araçlarına ve tekniklerine bir göz attık. Bölüm 3, OCR sorununa ve bu sorunu çözmek için kullanılan bazı geleneksel yöntemlere genel bir bakış sundu. 4. Bölümde, OCR gerçekleştirmek için kullanılan bazı popüler açık kaynaklı araçları araştırdık ve CTC kaybı işlevini anladık. Bölüm5, OCR'nin veri çıkarma problemini çözmek için kullanılabileceği birkaç pratik kullanım durumu içerir. Son olarak, OCR alanındaki son teknoloji araştırmalarına baktık.

Nanonets for Automation kullanmaya başlayın

Modeli deneyin veya bugün bir demo isteyin!

ŞİMDİ DENE

Veri Çıkarma ve Belge Bazlı Süreçlerinizi Nasıl Otomatikleştirebilirsiniz?

Kaynak: https://nanonets.com/blog/automating-data-extraction-and-digitizing-document-based-processes/

spot_img

En Son İstihbarat

spot_img

Bizimle sohbet

Merhaba! Size nasıl yardım edebilirim?