Zephyrnet Logosu

İş Uygulamaları için Derin Öğrenme Görüntü Altyazısı Teknolojisi

Tarih:

İş Uygulamaları İçin Derin Öğrenme Görüntü Altyazısı Teknolojisi
İllüstrasyon: © Herkes İçin IoT

Görüntüde gösterilen piksel dizisini Yapay Zeka ile kelimelere dönüştürmek için uygulanan teknolojiler, beş yıl veya daha fazla yıl önce olduğu kadar ham değil. Daha iyi performans, doğruluk ve güvenilirlik, sosyal medyadan e-ticarete kadar farklı alanlarda sorunsuz ve verimli resim yazısı oluşturmayı mümkün kılar. Etiketlerin otomatik olarak oluşturulması, indirilen bir fotoğrafa karşılık gelir. Bu teknoloji, kör insanların çevrelerindeki dünyayı keşfetmelerine yardımcı olabilir.

Bu makale, resim yazısı teknolojisinin kullanım durumlarını, temel yapısını, avantajlarını ve dezavantajlarını kapsar. Ayrıca, giriş görüntüsünde neyin görüntülendiğine dair anlamlı bir açıklama oluşturabilen bir model dağıtıyoruz.

Bir vizyon dili hedefi olarak, görüntü altyazısı bilgisayarla görü ve NLP yardımıyla çözülebilir. AI bölümü, hedefe ulaşmak için CNN'leri (evrişimli sinir ağları) ve RNN'leri (tekrarlayan sinir ağları) veya uygulanabilir herhangi bir modeli kullanır.

Teknik ayrıntılara geçmeden önce, resim yazısının nerede durduğunu öğrenelim.

Yapay Zeka Destekli Görüntü Etiketleme ve Açıklama Kullanım Örnekleri

"Resim yazısı, geniş bir hizmet yelpazesini mümkün kılan temel bilgisayar görme yeteneklerinden biridir" dedi. Xuedong Huang, bir Microsoft teknik görevlisi ve Redmond, Washington'daki Azure AI Cognitive Services'in CTO'su.

Resim yazısı teknolojisi için zaten geniş bir alan olduğu için haklı olduğu bir nokta var, yani: E-ticaret için resim etiketleme, fotoğraf paylaşım hizmetleri ve çevrimiçi kataloglar.

Bu durumda, fotoğrafa göre etiketlerin otomatik olarak oluşturulması gerçekleştirilir. Örneğin, çevrimiçi bir kataloğa resim yüklediklerinde kullanıcıların hayatını kolaylaştırabilir. Bu durumda, AI görüntüyü tanır ve nitelikler üretir – bunlar imzalar, kategoriler veya açıklamalar olabilir. Teknoloji ayrıca çevrimiçi mağazalar için ürünün türünü, malzemesini, rengini, desenini ve giysinin uyumunu da belirleyebilir.

Aynı zamanda, bir fotoğraf paylaşım hizmeti veya herhangi bir çevrimiçi katalog tarafından, SEO veya sınıflandırma amaçları için resmin otomatik olarak anlamlı bir açıklamasını oluşturmak için resim yazısı uygulanabilir. Ayrıca altyazılar, görselin yayınlanacağı platformun kurallarına uygun olup olmadığının kontrol edilmesini sağlar. Burada CNN kategorizasyonuna bir alternatif olarak hizmet eder ve trafiği ve geliri artırmaya yardımcı olur.

Not: Videolar için açıklamalar oluşturmak çok daha karmaşık bir iştir. Yine de, mevcut teknoloji durumu bunu zaten mümkün kılıyor.

Kör İnsanlar için Otomatik Görüntü Açıklamaları

Böyle bir çözüm geliştirmek için resmi metne ve ardından sese dönüştürmemiz gerekiyor. Bunlar, Derin Öğrenme teknolojisinin iyi bilinen iki uygulamasıdır.

Denilen bir uygulama AI görmek Microsoft tarafından geliştirilen, göz sorunu olan kişilerin akıllı telefonlar kullanarak çevrelerindeki dünyayı görmelerini sağlar. Program, kamera ona doğrultulduğunda metni okuyabilir ve sesli komutlar verir. Hem basılı hem de el yazısı metni tanıyabilir, ayrıca nesneleri ve insanları tanımlayabilir.

Google ayrıca, görüntü için bir metin açıklaması oluşturabilen ve kör kişilerin veya görme sorunu olanların görüntünün veya grafiğin bağlamını anlamalarına olanak tanıyan bir araç tanıttı. Bu makine öğrenimi aracı birkaç katmandan oluşur. İlk model, resimdeki metni ve elle yazılmış rakamları tanır. Sonra başka bir model, arabalar, ağaçlar, hayvanlar vb. gibi çevredeki dünyanın basit nesnelerini tanır. Üçüncü bir katman, tam metinsel açıklamadaki ana fikri bulabilen gelişmiş bir modeldir.

Sosyal Medya için AI Resim Altyazısı

AI tabanlı bir aracın yardımıyla oluşturulan resim yazısı Facebook ve Instagram için zaten mevcut. Ek olarak, model her zaman daha akıllı hale gelir, yeni nesneleri, eylemleri ve kalıpları tanımayı öğrenir.

Facebook, yaklaşık beş yıl önce Alt metin açıklamaları oluşturabilen bir sistem oluşturdu. Günümüzde, daha doğru hale geldi. Daha önce, genel kelimeler kullanarak bir görüntüyü tanımlıyordu, ancak şimdi bu sistem ayrıntılı bir açıklama üretebiliyor.

AI ile Logo Tanımlama

Resim yazısı teknolojisi, diğer AI teknolojileriyle birlikte kullanılmaktadır. Örneğin, DeepLogo, TensorFlow Nesne Algılama API'sine dayalı bir sinir ağıdır. Ve logotipleri tanıyabilir. Tanımlanan logo tipinin adı, resimde bir başlık olarak görünür. NS araştırma GAN'a dayalı logotipi sentez modelinde, GAN'ların nasıl çalıştığına ışık tutabilir.

Resim Altyazısı İçin Derin Öğrenme Modellerini Araştırma

Olası kullanım durumlarını göz önünde bulundurarak, resimler için anlamlı bir metin açıklaması oluşturan bir model uyguladık. Örneğin, resim yazısı, her görüntüdeki ana nesneler olan bir eylemi ve nesneleri açıklayabilir. Eğitim için Microsoft COCO 2014 veri setini kullandık.

COCO veri seti, büyük ölçekli nesne algılama, segmentasyon ve resim yazısı veri setidir. 1.5 kategoriye ayrılmış yaklaşık 80 milyon farklı nesne içerir. Her görüntü, insan tarafından oluşturulan beş resim yazısı ile açıklanmıştır.

Başvurduk Andrej Karpathy'nin eğitim, doğrulama ve test bölümleri Parçaları eğitmek, doğrulamak ve test etmek için veri kümelerini bölmek için. Ayrıca sonuçları değerlendirmek için BLEU, ROUGE, METEOR, CIDEr, SPICE gibi Metriklere ihtiyacımız vardı.

Resim Altyazısı için ML Modellerini Karşılaştırma

Tipik olarak, resim yazısı için temel mimari, girdiyi sabit bir biçime kodlar ve onu kelime kelime, bir sıra halinde deşifre eder.

Kodlayıcı, üç renkli kanallı giriş görüntüsünü "öğrenilmiş" kanallarla daha küçük bir baskıya kodlar. Bu daha küçük kodlanmış görüntü, orijinal görüntüde faydalı olan her şeyin özet bir temsilidir. Kodlama için herhangi bir CNN mimarisi uygulanabilir. Ayrıca enkoder kısmı için transfer öğrenmeyi kullanabiliriz.

Kod Çözücü, kodlanmış görüntüye bakar ve sözcük sözcük bir başlık oluşturur. Ardından, tahmin edilen her kelime bir sonraki terimi oluşturmak için kullanılır.

İlerlemeden önce, Meshed-Memory trafo modeli ile model oluşturma ve test etme sonucunda ne aldığımıza bir göz atın.

Resim yazısı için derin öğrenme modeli kullanma örneği
Resim yazısı için derin öğrenme modeli kullanma örneği
Resim yazısı için derin öğrenme modeli kullanma örneği

AI Tabanlı Resim Altyazısı

Ayrıca hatalara yol açan örnekleri de inceledik. Hataların ortaya çıkmasının birkaç nedeni vardır. En yaygın hatalar, düşük görüntü kalitesi ve ilk veri kümesinde belirli öğelerin bulunmamasıdır. Model, genel resimler içeren bir veri kümesi üzerinde eğitilmiştir, bu nedenle içeriği bilmediğinde veya doğru tanımlayamadığında hata yapar. İnsan beyni de aynı şekilde çalışır.

AI resim yazısı tarafından yapılan hatalar
AI resim yazısı modeli tarafından yapılan bir hata

İşte Sinir Ağlarının nasıl çalıştığını gösteren başka bir durum. Veri seti modelinde kaplan yoktu. Bunun yerine, AI bildiği en yakın nesneyi seçti - beynimiz bilinmeyenle uğraşırken tamamen aynı.

Sinir Ağları, bilinmeyen nesnelere altyazı ekleyerek çalışır

Resim Altyazısı için Yukarı-Aşağı Dikkat Modeli

Bu karşılaştırılacak ilk modeldir. Yukarı-Aşağı mekanizması, Aşağıdan Yukarıya ve Yukarıdan Aşağıya dikkat mekanizmasını birleştirir.

Nesne algılama ve resim yazısı görevleri arasında bağlantı kurmak için daha hızlı R-CNN kullanılır. Bölge teklif modeli, etki alanları arası bilgiden yararlanılması nedeniyle nesne algılama veri kümeleri üzerinde önceden eğitilmiştir. Ayrıca, diğer bazı dikkat mekanizmalarından farklı olarak, her iki model de Yukarı-Aşağı mekanizmasıyla tek geçişli dikkat kullanır.

Görüntü özelliği çıkarımı için daha hızlı R-CNN (şekil 5a) kullanılır. Faster R-CNN, belirli sınıflara ait nesneleri tanımlamak ve sınırlayıcı kutularla yerelleştirmek için tasarlanmış bir nesne algılama modelidir. Daha hızlı R-CNN, nesneleri iki aşamada algılar.

Bölge Teklif Ağı (RPN) olarak tanımlanan ilk aşama, nesne tekliflerini tahmin eder. Birleşim üstü kesişim (IoU) eşiği ile maksimum olmayan açgözlü bastırma kullanılarak, üst kutu teklifleri ikinci aşamaya girdi olarak seçilir.

İkinci aşamada, her kutu önerisi için küçük bir özellik haritası (örn. 14×14) çıkarmak için ilgi bölgesi (RoI) havuzu kullanılır. Bu özellik haritaları daha sonra CNN'nin son katmanlarına girdi olarak bir araya getirilir. Böylece, nihai model çıktısı, sınıf etiketleri üzerinde bir softmax dağılımından ve her kutu önerisi için sınıfa özel sınırlayıcı kutu iyileştirmelerinden oluşur. Şema şuradan alınmıştır: resmi afiş.

Görüntü açıklaması için daha hızlı R-CNN modeli

V görüntü özellikleri göz önüne alındığında, önerilen altyazı modeli, altyazı oluşturma sırasında her özelliği tartmak için bir 'yumuşak' yukarıdan aşağıya dikkat mekanizması kullanır. Bu, ilave bir yukarı-aşağı dikkat mekanizmasına sahip LSTM'dir. Açık. Bu, ilave bir yukarı-aşağı dikkat mekanizmasına sahip LSTM'dir. Yüksek düzeyde, altyazı modeli iki LSTM katmanından oluşur.

Görüntü Altyazısı için Meshed-Memory Transformatör Modeli

Resim yazısı görevini çözmek için aldığımız bir diğer model ise Meshed-Bellek Transformatörü. Kodlayıcı ve kod çözücü parçalarından oluşur. Her ikisi de özenli katman yığınlarından yapılmıştır. Kodlayıcı ayrıca ileri beslemeli katmanlar içerir ve kod çözücü, ağırlıklandırma ile öğrenilebilir bir mekanizmaya sahiptir.

Görüntünün bölgeleri çok seviyeli bir biçimde kodlanmıştır. Model hem düşük seviyeli hem de yüksek seviyeli ilişkileri hesaba katar. Öğrenilen bilgi, hafıza vektörleri olarak kodlanır. Kodlayıcı ve kod çözücü parçalarının katmanları, ağ benzeri bir yapı içinde birbirine bağlanmıştır. Kod çözücü, her bir kodlama katmanının çıktısını okur ve sonuçlar modüle edildikten ve toplandıktan sonra kelimeler ve çapraz dikkat genel kodlama katmanları üzerinde öz-dikkat gerçekleştirir.

Böylece model, yalnızca görüntünün görsel içeriğini değil, aynı zamanda kodlayıcının ön bilgisini de kullanabilir. Şemalar şuradan alınmıştır: resmi evrak.

AI resim yazısı için şema Meshed-Memory Transformer modeliyle AI resim yazısı için şema
Meshed-Memory Transformer modeliyle AI görüntü yazısı için şema

Resim Altyazısı İçin İki Modelin Karşılaştırılması

Araştırmamıza dayanarak, aynı veriler üzerinde eğitildikleri için Yukarı-aşağı modeli ve M2transform modelini karşılaştırabiliyoruz. Aşağıdaki tablo her iki modelin bir özetini sunmaktadır.

Tablo – Değerlendirme metrikleri

BLEU1 BLEU2 Elmadan yapılan bir içki ROUGE METEOR
YukarıAşağı modeli 0.8 0.358 1.16 0.573 0.275
M2Transformatör 0.8078 0.3834 1.278 0.58 0.2876

Tablo – Çıkarım süresi ve hafıza

Zaman Bellek
işlemci GPU işlemci GPU
yukarı aşağı modeli 104.47s 17s 1479mb 1181mb
M2Transformatör 23 m 32 s 3m 16s 1423mb 1310mb

Resim Altyazısı: Sonuç Analizi ve Gelecek Beklentileri

Kullanılan her iki model de oldukça iyi sonuçlar verdi. Onların yardımıyla, veri kümemizdeki görüntülerin çoğu için anlamlı başlıklar oluşturabiliriz. Ayrıca, devasa Görsel Genom veri setinde önceden eğitilmiş Faster-RCNN ile ön ayıklama özelliği sayesinde, model insanların günlük yaşamındaki birçok nesneyi ve eylemi tanıyabilir ve bu nedenle bunları doğru bir şekilde tanımlayabilir.

Fark ne?

Updown modeli, M2Transformer'dan daha hızlı ve daha hafiftir. Bunun nedeni, M2Transformer'ın kodlayıcı ve kod çözücü arasındaki ek (“örtülü”) bağlantılar ve geçmiş deneyimi hatırlamak için bellek vektörleri gibi daha fazla teknik kullanmasıdır. Ayrıca, bu modeller farklı dikkat mekanizmaları kullanır.

M2Transformer'da kullanılan çok başlı dikkat, birkaç kez paralel olarak çalıştırılmalıdır. Ancak elde edilen metriklere göre M2Transormer daha iyi sonuçlar elde etti. Onun yardımıyla, daha doğru ve çeşitli altyazılar üretebiliriz. M2Transformer tahminleri, hem veri kümesindeki resimler hem de diğer bazı ilgili resimler için açıklamalarda daha az yanlışlık içerir. Bu nedenle, ana görevi daha iyi yerine getirir.

İki modeli karşılaştırdık, ancak resim yazısı görevine başka yaklaşımlar da var. Kod çözücü ve kodlayıcıyı değiştirmek, çeşitli kelime vektörlerini kullanmak, veri kümelerini birleştirmek ve aktarım öğrenimini uygulamak mümkündür.

Model, ya görme sorunları olan kişiler için bir uygulama olarak ya da e-ticaret platformlarına yerleştirilmiş ek araçlar olarak, belirli bir iş için uygun daha iyi sonuçlar elde etmek için geliştirilebilir. Bu amaca ulaşmak için model, ilgili veri kümeleri üzerinde eğitilmelidir. Örneğin, bir sistemin kumaşı doğru bir şekilde tanımlaması için, giysi içeren veri kümeleri üzerinde eğitim çalıştırmak daha iyidir.

Plato Ai. Web3 Yeniden Düşünüldü. Güçlendirilmiş Veri Zekası.
Erişmek için buraya tıklayın.

Kaynak: https://www.iotforall.com/deep-learning-image-captioning-technology-for-business-applications

spot_img

En Son İstihbarat

spot_img

Bizimle sohbet

Merhaba! Size nasıl yardım edebilirim?