Zephyrnet Logosu

Amazon Titan Multimodal Yerleştirme Modelini kullanarak uygun maliyetli belge sınıflandırma | Amazon Web Hizmetleri

Tarih:

Farklı sektörlerdeki kuruluşlar, farklı formatlardaki yüksek hacimli belgeleri kategorilere ayırmak ve bu belgelerden içgörüler elde etmek istiyor. Bilgileri sınıflandırmak ve çıkarmak için bu belgelerin manuel olarak işlenmesi pahalı, hataya açık ve ölçeklendirilmesi zor olmaya devam ediyor. Gelişmeler üretken yapay zeka (AI) belge sınıflandırmasını otomatikleştirebilen ve çeşitli, yapılandırılmamış kurumsal belgeleri yönetebilen uygun maliyetli bir sınıflandırma katmanı oluşturabilen akıllı belge işleme (IDP) çözümlerinin ortaya çıkmasına neden oldu.

Belgelerin sınıflandırılması IDP sistemlerinde önemli bir ilk adımdır. Belgenin türüne bağlı olarak gerçekleştirilecek bir sonraki eylem grubunu belirlemenize yardımcı olur. Örneğin, hasar karar süreci sırasında, alacak hesapları ekibi faturayı alırken, hasar departmanı sözleşmeyi veya politika belgelerini yönetir. Geleneksel kural motorları veya ML tabanlı sınıflandırma, belgeleri sınıflandırabilir, ancak çoğu zaman belge formatı türleri ve yeni belge sınıflarının dinamik olarak eklenmesi desteği konusunda bir sınıra ulaşır. Daha fazla bilgi için bakınız Amazon Comprehend belge sınıflandırıcı, daha yüksek doğruluk için düzen desteği ekler.

Bu yazıda, belge sınıflandırmasını kullanarak tartışıyoruz. Amazon Titan Multimodal Gömme modeli Herhangi bir belge türünü eğitime ihtiyaç duymadan sınıflandırmak.

Amazon Titan Multimodal Gömmeler

Amazon yakın zamanda tanıtıldı Titan Multimodal Gömmeler in Amazon Ana Kayası. Bu model, görüntüler ve metinler için yerleştirmeler oluşturarak yeni belge sınıflandırma iş akışlarında kullanılacak belge yerleştirmelerinin oluşturulmasına olanak tanır.

Görüntü olarak taranan belgelerin optimize edilmiş vektör temsillerini oluşturur. Hem görsel hem de metinsel bileşenleri anlamsal anlamı kapsayan birleştirilmiş sayısal vektörler halinde kodlayarak, hızlı indeksleme, güçlü bağlamsal arama ve belgelerin doğru şekilde sınıflandırılmasını sağlar.

İş iş akışlarında yeni belge şablonları ve türleri ortaya çıktıkça, yalnızca Amazon Bedrock API'si belge sınıflandırma yeteneklerini hızla geliştirmek için bunları dinamik olarak vektörleştirmek ve IDP sistemlerine eklemek.

Çözüme genel bakış

Aşağıdaki belge sınıflandırma çözümünü Amazon Titan Multimodal Embeddings modeliyle inceleyelim. Optimum performans için çözümü özel kullanım durumunuza ve mevcut IDP işlem hattı kurulumunuza göre özelleştirmeniz gerekir.

Bu çözüm, bir giriş belgesini önceden dizine eklenmiş bir belge galerisiyle eşleştirerek vektör yerleştirme anlamsal aramasını kullanarak belgeleri sınıflandırır. Aşağıdaki temel bileşenleri kullanıyoruz:

  • kalıplamaların - kalıplamaların makine öğrenimi (ML) ve yapay zeka sistemlerinin insanlar gibi karmaşık bilgi alanlarını anlamak için kullandığı gerçek dünya nesnelerinin sayısal temsilleridir.
  • Vektör veritabanları - Vektör veritabanları yerleştirmeleri depolamak için kullanılır. Vektör veritabanları, yerleştirmeleri verimli bir şekilde indeksleyip organize ederek, Öklid mesafesi veya kosinüs benzerliği gibi mesafe ölçümlerine dayalı olarak benzer vektörlerin hızlı bir şekilde alınmasını sağlar.
  • Anlamsal arama – Anlamsal arama, giriş sorgusunun bağlamı ve anlamı ile aranan içerikle alakası dikkate alınarak çalışır. Vektör yerleştirmeler, metin ve görsellerin bağlamsal anlamını yakalamanın ve korumanın etkili bir yoludur. Bizim çözümümüzde, bir uygulama semantik arama yapmak istediğinde, arama dokümanı öncelikle bir yerleştirmeye dönüştürülür. İlgili içeriğe sahip vektör veritabanı daha sonra en benzer yerleştirmeleri bulmak için sorgulanır.

Etiketleme sürecinde faturalar, banka hesap özetleri veya reçeteler gibi örnek iş belgeleri Amazon Titan Multimodal Embeddings modeli kullanılarak yerleştirmelere dönüştürülür ve önceden tanımlanmış etiketlere göre bir vektör veritabanında depolanır. Amazon Titan Multimodal Gömme modeli, Euclidean L2 algoritması kullanılarak eğitilmiştir ve bu nedenle en iyi sonuçları elde etmek için kullanılan vektör veritabanının bu algoritmayı desteklemesi gerekir.

Aşağıdaki mimari şeması, Amazon Titan Multimodal Embeddings modelini belgelerle nasıl kullanabileceğinizi göstermektedir. Amazon Basit Depolama Hizmeti Resim galerisi oluşturmak için (Amazon S3) kovası.

İş akışı aşağıdaki adımlardan oluşur:

  1. Bir kullanıcı veya uygulama, sınıflandırma meta verilerini içeren örnek bir belge görüntüsünü bir belge görüntü galerisine yükler. Galeri görüntülerini sınıflandırmak için bir S3 öneki veya S3 nesne meta verileri kullanılabilir.
  2. Bir Amazon S3 nesne bildirimi olayı, yerleştirmeyi çağırır AWS Lambda fonksiyonu.
  3. Lambda işlevi belge görüntüsünü okur ve Amazon Bedrock'u çağırıp Amazon Titan Multimodal Embeddings modelini kullanarak görüntüyü yerleştirmelere dönüştürür.
  4. Görüntü yerleştirmeleri belge sınıflandırmasıyla birlikte vektör veritabanında saklanır.

Bu, Titan Multimodal Yerleştirmelerin, görüntü galerisi oluşturma ve sınıflandırma için bir Amazon Simple Storage Service (Amazon S3) klasöründeki belgelerle nasıl kullanılabileceğini gösteren mimari diyagramıdır.

Yeni bir belgenin sınıflandırılması gerektiğinde, sorgu belgesini bir yerleştirmeye dönüştürmek için aynı yerleştirme modeli kullanılır. Daha sonra sorgu yerleştirme kullanılarak vektör veri tabanında anlamsal benzerlik araması gerçekleştirilir. Üstteki yerleştirme eşleşmesine göre alınan etiket, sorgu belgesinin sınıflandırma etiketi olacaktır.

Aşağıdaki mimari şeması, Amazon Titan Multimodal Embeddings modelinin görüntü sınıflandırması için bir S3 klasöründeki belgelerle nasıl kullanılacağını göstermektedir.

İş akışı aşağıdaki adımlardan oluşur:

  1. Sınıflandırmayı gerektiren belgeler bir giriş S3 klasörüne yüklenir.
  2. Lambda sınıflandırma işlevi Amazon S3 nesne bildirimini alır.
  3. Lambda işlevi, Amazon Bedrock API'sini çağırarak görüntüyü bir yerleştirmeye dönüştürür.
  4. Vektör veritabanında anlamsal arama kullanılarak eşleşen bir belge aranır. Eşleşen belgenin sınıflandırılması, giriş belgesini sınıflandırmak için kullanılır.
  5. Giriş belgesi, vektör veritabanı aramasından alınan sınıflandırma kullanılarak hedef S3 dizinine veya önekine taşınır.

Bu, Titan Multimodal Yerleştirmelerin görüntü sınıflandırması için bir Amazon Simple Storage Service (Amazon S3) klasöründeki belgelerle nasıl kullanılabileceğini gösteren mimari şemasıdır.

Çözümü kendi belgelerinizle test etmenize yardımcı olmak için örnek bir Python Jupyter not defteri oluşturduk; GitHub.

Önkoşullar

Dizüstü bilgisayarı çalıştırmak için bir AWS hesabı uygun olarak AWS Kimlik ve Erişim Yönetimi (IAM) Amazon Bedrock'u aramak için izinler. Ek olarak, üzerinde Model erişimi Amazon Bedrock konsolunun sayfasında, Amazon Titan Multimodal Embeddings modeli için erişim izni verildiğinden emin olun.

Uygulama

Aşağıdaki adımlarda, her kullanıcı girişi yer tutucusunu kendi bilgilerinizle değiştirin:

  1. Vektör veritabanını oluşturun. Bu çözümde, bellek içi bir FAISS veritabanı kullanıyoruz, ancak siz alternatif bir vektör veritabanı kullanabilirsiniz. Amazon Titan'ın varsayılan boyut boyutu 1024'tür.
index = faiss.IndexFlatL2(1024)
indexIDMap = faiss.IndexIDMap(index)

  1. Vektör veritabanı oluşturulduktan sonra, örnek belgeler üzerinde numaralandırın, her birinin yerleştirmelerini oluşturun ve bunları vektör veritabanında saklayın
  1. Belgelerinizle test edin. Aşağıdaki koddaki klasörleri, bilinen belge türlerini içeren kendi klasörlerinizle değiştirin:
DOC_CLASSES: list[str] = ["Closing Disclosure", "Invoices", "Social Security Card", "W4", "Bank Statement"]

getDocumentsandIndex("sampleGallery/ClosingDisclosure", DOC_CLASSES.index("Closing Disclosure"))
getDocumentsandIndex("sampleGallery/Invoices", DOC_CLASSES.index("Invoices"))
getDocumentsandIndex("sampleGallery/SSCards", DOC_CLASSES.index("Social Security Card"))
getDocumentsandIndex("sampleGallery/W4", DOC_CLASSES.index("W4"))
getDocumentsandIndex("sampleGallery/BankStatements", DOC_CLASSES.index("Bank Statement"))

  1. Boto3 kitaplığını kullanarak Amazon Bedrock'u arayın. Değişken inputImageB64 belgenizi temsil eden base64 kodlu bir bayt dizisidir. Amazon Bedrock'tan gelen yanıt yerleştirmeleri içeriyor.
bedrock = boto3.client(
service_name='bedrock-runtime',
region_name='Region’
)

request_body = {}
request_body["inputText"] = None # not using any text
request_body["inputImage"] = inputImageB64
body = json.dumps(request_body)
response = bedrock.invoke_model(
body=body, 
modelId="amazon.titan-embed-image-v1", 
accept="application/json", 
contentType="application/json")
response_body = json.loads(response.get("body").read()) 

  1. Eklemeleri, bilinen bir belge türünü temsil eden bir sınıf kimliğiyle vektör veritabanına ekleyin:
indexIDMap.add_with_ids(embeddings, classID)

  1. Görsellerle doldurulmuş vektör veritabanı (galerimizi temsil eder) sayesinde yeni belgelerle benzerlikleri ortaya çıkarabilirsiniz. Örneğin, arama için kullanılan sözdizimi aşağıdadır. k=1, FAISS'a ilk 1 maçı geri vermesini söyler.
indexIDMap.search(embeddings, k=1)

Ayrıca eldeki görüntü ile bulunan görüntü arasındaki Öklid L2 mesafesi de döndürülür. Eğer görsel tam eşleşme ise bu değer 0 olacaktır. Bu değer ne kadar büyükse görseller arasındaki benzerlik de o kadar fazladır.

Ek hususlar

Bu bölümde çözümü etkili bir şekilde kullanmaya yönelik ek hususları tartışıyoruz. Buna veri gizliliği, güvenlik, mevcut sistemlerle entegrasyon ve maliyet tahminleri dahildir.

Veri gizliliği ve güvenliği

AWS paylaşılan sorumluluk modeli için geçerlidir veri koruma Amazon Bedrock'ta. Bu modelde açıklandığı gibi AWS, AWS Cloud'un tamamını çalıştıran küresel altyapının korunmasından sorumludur. Müşteriler, bu altyapıda barındırılan içeriklerin kontrolünü sürdürmekten sorumludur. Müşteri olarak kullandığınız AWS hizmetlerine ilişkin güvenlik yapılandırması ve yönetim görevlerinden siz sorumlusunuz.

Amazon Bedrock'ta veri koruması

Amazon Bedrock, AWS modellerini eğitmek veya bunları üçüncü taraflarla paylaşmak için müşteri istemlerini ve devamlarını kullanmaktan kaçınır. Amazon Bedrock müşteri verilerini hizmet günlüklerinde saklamaz veya kaydetmez. Model sağlayıcıların Amazon Bedrock günlüklerine veya müşteri istemlerine ve devamlarına erişimi yoktur. Sonuç olarak, Amazon Titan Multimodal Embeddings modeli aracılığıyla yerleştirmeler oluşturmak için kullanılan görüntüler, AWS modellerinin eğitiminde veya harici dağıtımda saklanmaz veya kullanılmaz. Ayrıca zaman damgaları ve kayıtlı hesap kimlikleri gibi diğer kullanım verileri de model eğitiminden hariç tutulur.

Mevcut sistemlerle entegrasyon

Amazon Titan Multimodal Embeddings modeli, Euclidean L2 algoritmasıyla eğitimden geçmiştir, dolayısıyla kullanılan vektör veritabanının bu algoritmayla uyumlu olması gerekir.

Maliyet tahmini

Bu yazıyı yazarken, şuna göre Amazon Bedrock Fiyatlandırması Amazon Titan Multimodal Yerleştirmeler modeli için bu çözüme yönelik isteğe bağlı fiyatlandırma kullanılarak tahmini maliyetler aşağıda verilmiştir:

  • Tek seferlik indeksleme maliyeti – 0.06 resim galerisi olduğu varsayılarak, tek bir indeksleme işlemi için 1,000 ABD doları
  • Sınıflandırma maliyeti – Aylık 6 giriş görüntüsü için 100,000 ABD doları

Temizlemek

Gelecekte ücret alınmasını önlemek için, oluşturduğunuz kaynakları silin. Amazon SageMaker dizüstü bilgisayar örneği, kullanmadığınızda.

Sonuç

Bu yazıda, IDP iş akışında belge sınıflandırmaya yönelik ucuz bir çözüm oluşturmak için Amazon Titan Multimodal Embeddings modelini nasıl kullanabileceğinizi araştırdık. Bilinen belgelerden oluşan bir resim galerisinin nasıl oluşturulacağını ve bunları sınıflandırmak için yeni belgelerle benzerlik aramalarının nasıl yapılacağını gösterdik. Ayrıca, çeşitli belge türlerini işleme yetenekleri, ölçeklenebilirlik ve düşük gecikme dahil olmak üzere, belge sınıflandırması için çok modlu görüntü yerleştirmeleri kullanmanın faydalarını da tartıştık.

İş iş akışlarında yeni belge şablonları ve türleri ortaya çıktıkça, geliştiriciler Amazon Bedrock API'sini kullanarak bunları dinamik olarak vektörleştirebilir ve belge sınıflandırma yeteneklerini hızla geliştirmek için IDP sistemlerine ekleyebilirler. Bu, en çeşitli, yapılandırılmamış kurumsal belgeleri bile işleyebilecek, ucuz, sonsuz ölçeklenebilir bir sınıflandırma katmanı oluşturur.

Genel olarak bu gönderi, Amazon Titan Multimodal Embeddings'i kullanarak IDP iş akışında belge sınıflandırmaya yönelik ucuz bir çözüm oluşturmaya yönelik bir yol haritası sunmaktadır.

Sonraki adımlarda şuraya göz atın: Amazon Ana Kayası Nedir? Hizmeti kullanmaya başlamak için. Ve takip et AWS Makine Öğrenimi Blogunda Amazon Bedrock Amazon Bedrock'a yönelik yeni yetenekler ve kullanım örnekleri hakkında güncel bilgilere sahip olmak için.


Yazarlar Hakkında

Sumit Bhati AWS'de Kıdemli Müşteri Çözümleri Yöneticisidir ve kurumsal müşteriler için bulut yolculuğunu hızlandırma konusunda uzmanlaşmıştır. Sumit, geçişlerin hızlandırılmasından iş yüklerinin modernleştirilmesine ve yenilikçi uygulamaların entegrasyonunu kolaylaştırmaya kadar, bulutu benimsemelerinin her aşamasında müşterilere yardımcı olmaya kendini adamıştır.

David Kız kurumsal sistemleri tasarlama, yönetme ve geliştirme konusunda 20 yılı aşkın deneyime sahip Kıdemli Yapay Zeka/Makine Öğrenimi Çözüm Mimarıdır. David, müşterilerin bu son derece yetenekli hizmetleri öğrenmesine, yenilik yapmasına ve kendi kullanım senaryolarına yönelik verileriyle birlikte kullanmasına yardımcı olmaya odaklanan uzman bir ekibin parçasıdır.

Ravi Avula AWS'de Kurumsal Mimariye odaklanan Kıdemli Çözüm Mimarıdır. Ravi'nin yazılım mühendisliğinde 20 yıllık deneyimi var ve ödemeler sektöründe yazılım mühendisliği ve yazılım mimarisinde çeşitli liderlik rolleri üstlendi.

George Belsian AWS'de Kıdemli Bulut Uygulama Mimarıdır. Müşterilerin modernizasyon ve bulutu benimseme yolculuklarını hızlandırmalarına yardımcı olma konusunda tutkulu. George, mevcut görevinde yenilikçi, ölçeklenebilir çözümler geliştirmek, strateji oluşturmak ve tasarlamak için müşteri ekipleriyle birlikte çalışıyor.

spot_img

En Son İstihbarat

spot_img