Amazon SageMaker ve Hugging Face Kullanan Görüntüden Konuşmaya Üretken Yapay Zeka Uygulaması Tanıtımı | Amazon Web Hizmetleri

Görme kaybı çeşitli şekillerde gelir. Bazıları için doğumdan itibaren, diğerleri için ise birçok son kullanma tarihi olan zamanla yavaş bir iniş: Resimleri göremediğiniz, kendinizi veya sevdiklerinizin yüzlerini tanıyamadığınız ve hatta postalarınızı okuyamadığınız gün. Bir önceki blog yazımızda Amazon Textract ve Amazon Polly Kullanarak Görme Engellilerin Belgeleri Duymasını Sağlayın, size Metinden Konuşmaya adlı uygulamamızı gösterdik "Benim için oku". Erişilebilirlik uzun bir yol kat etti, peki ya resimler?

Las Vegas'ta düzenlenen 2022 AWS re:Invent konferansında şunları gösterdik: “Benim için tarif et” AWS Builders' Fair'de, görsel altyazı, yüz tanıma ve "Görüntüden Konuşmaya" olarak adlandırdığımız bir teknoloji olan metinden konuşmaya aracılığıyla görme engellilerin görüntüleri anlamasına yardımcı olan bir web sitesi. Birden çok AI/ML hizmetinin kullanılmasıyla, "Describe For Me" bir giriş görüntüsünün altyazısını oluşturur ve onu çeşitli dillerde ve lehçelerde net, doğal bir sesle tekrar okur.

Bu blog gönderisinde, "Benim İçin Tanımla"nın arkasındaki Çözüm Mimarisi ve çözümümüzün tasarım hususları hakkında size yol gösteriyoruz.

Çözüme Genel Bakış

Aşağıdaki Referans Mimarisi, bir kullanıcının telefonla resim çekmesi ve resim yazısının MP3'ünü çalmasıyla ilgili iş akışını gösterir.

Açıklanan çözüm için Referans Mimarisi.

İş akışı aşağıdaki adımları içerir,

AWS Yükseltme HTML, JavaScript ve CSS'den oluşan DescribeForMe web uygulamasını son kullanıcıların mobil cihazlarına dağıtır.
The Amazon Cognito'su Kimlik havuzu geçici erişim sağlar. Amazon S3 Kova.
Kullanıcı bir resim dosyası yükler. Amazon S3 kullanarak kova AWS SDK'sı web uygulaması aracılığıyla.
DescribeForMe web uygulaması, göndererek arka uç AI hizmetlerini çağırır. Amazon S3 yük için nesne Anahtarı Amazon API Ağ Geçidi
Amazon API Ağ Geçidi somutlaştırır AWS Basamak İşlevleri iş akışı. Devlet Makinesi, Yapay Zeka/Makine Öğrenimi (AI/ML) hizmetlerini yönetir Amazon Rekognisyon, Amazon Adaçayı Yapıcı, Amazon Metin Yazısı, Amazon Çeviri, ve Amazon Polly kullanma AWS lambdası fonksiyonlar.
The AWS Basamak İşlevleri iş akışı çıktı olarak bir ses dosyası oluşturur ve onu içinde saklar. Amazon S3 MP3 formatında.
İçinde depolanan ses dosyasının konumunu içeren önceden imzalanmış bir URL Amazon S3 aracılığıyla kullanıcının tarayıcısına geri gönderilir. Amazon API Ağ Geçidi. Kullanıcının mobil cihazı, önceden imzalanmış URL'yi kullanarak ses dosyasını çalar.

Çözüm İzlenecek Yol

Bu bölümde, neden seçtiğimize ilişkin tasarım hususlarına odaklanıyoruz.

içinde paralel işleme AWS Basamak İşlevleri iş akışı
birleşik diziden diziye önceden eğitilmiş makine öğrenimi modeli OFA (One For All) Sarılma Yüz için Amazon Adaçayı Yapıcı resim yazısı için
Amazon Rekognisyon yüz tanıma için

Neden sunucusuz bir mimariyi, senkronize iş akışını, hızlı adım işlevleri iş akışını, başsız mimariyi seçtiğimize ve elde edilen avantajlara ilişkin daha ayrıntılı bir genel bakış için lütfen önceki blog yazımızı okuyun. Amazon Textract ve Amazon Polly Kullanarak Görme Engellilerin Belgeleri Duymasını Sağlayın.

Paralel İşleme

Step Functions iş akışında paralel işlemenin kullanılması, işlem süresini %48'e kadar azalttı. Kullanıcı görüntüyü S3 klasörüne yüklediğinde, Amazon API Gateway bir AWS Step Functions iş akışını başlatır. Ardından, aşağıdaki üç Lambda işlevi, görüntüyü Adım İşlevleri iş akışı içinde paralel olarak işler.

İlk Lambda işlevi çağrılır describe_image kullanarak görüntüyü analiz eder. OFA_IMAGE_CAPTION modeli resim yazısı sağlamak için gerçek zamanlı bir SageMaker uç noktasında barındırılır.
İkinci Lambda işlevi çağrılır describe_faces önce Amazon Rekognition'ı kullanan yüzler olup olmadığını kontrol eder Yüzleri Algıla API'sıve doğruysa Yüzleri Karşılaştır API'sini çağırır. Bunun nedeni, görüntüde hiç yüz bulunmaması durumunda Yüzleri Karşılaştırın bir hata vermesidir. Ayrıca, önce Yüzleri Algıla'yı çağırmak, Yüzleri Karşılaştır'ı çalıştırmaktan ve hataları işlemekten daha hızlıdır, dolayısıyla içinde yüz olmayan görüntüler için işlem süresi daha hızlı olacaktır.
Adı verilen üçüncü Lambda işlevi extract_text Amazon Textract ve Amazon Comprehend'i kullanarak metinden konuşmaya işler.

Lambda işlevlerini art arda yürütmek uygundur, ancak bunu yapmanın daha hızlı, daha verimli yolu paralel işlemedir. Aşağıdaki tablo, üç örnek görüntü için kaydedilen hesaplama süresini gösterir.

Resim	İnsanlar	Sıralı Zaman	Paralel Zaman	Zaman Kazanımı (%)	Başlık
	0	1869ms	1702ms	8%	Kabarık beyaz bir yatakta kıvrılmış bir tekir kedi.
	1	4277ms	2197ms	%48	Yeşil bluzlu ve siyah hırkalı bir kadın kameraya gülümsüyor. Bir kişiyi tanıyorum: Kanbo.
	4	6603ms	3904ms	%40	Amazon Kürelerinin önünde duran insanlar. 3 kişiyi tanıyorum: Kanbo, Jack ve Ayman.

Görüntü Başlık

Hugging Face, kullanıcıların makine öğrenimi modellerini paylaşmasına, oluşturmasına, eğitmesine ve dağıtmasına olanak tanıyan açık kaynaklı bir topluluk ve veri bilimi platformudur. Hugging Face model merkezinde bulunan modelleri keşfettikten sonra, OFA modeli çünkü yazarlar tarafından tanımlandığı gibi, "Görev Kapsamlılığını destekleyen görevden bağımsız ve modaliteden bağımsız bir çerçevedir".

OFA, bir dizi aşağı yönlü göreve etkili bir şekilde aktarılabilen birleşik, çok modlu, önceden eğitilmiş bir model olduğundan, "Herkes İçin Birimiz"e doğru atılmış bir adımdır. OFA modeli görsel temellendirme, dili anlama ve görüntü oluşturma gibi birçok görevi desteklerken, biz Resim alt yazısı için OFA modeli Describe For Me projesinde uygulamanın görüntüden metne bölümünü gerçekleştirmek için. OFA'nın resmi deposuna göz atın (ICML 2022), kâğıt Sıradan Sıraya Basit Bir Öğrenme Çerçevesi Yoluyla OFA'nın Birleştirici Mimarileri, Görevleri ve Modaliteleri hakkında bilgi edinmek.

OFA'yı uygulamamıza entegre etmek için Hugging Face'ten depoyu klonladık ve modeli bir SageMaker uç noktasına dağıtmak üzere kapsayıcıya aldık. bu bu depodaki not defteri OFA büyük modelini SageMaker'da bir Jupyter not defterine yerleştirmek için mükemmel bir kılavuzdur. Çıkarım betiğinizi kapsayıcı hale getirdikten sonra model, SageMaker'da açıklandığı gibi bir SageMaker uç noktasının arkasına konuşlandırılmaya hazırdır. belgeleme. Model dağıtıldıktan sonra, görüntü başlığını oluşturmak için görüntüyü analiz eden "describe_image" lambda işleviyle entegre edilebilecek bir HTTPS uç noktası oluşturun. OFA küçük modelini, daha küçük bir model olduğu ve benzer performans elde ederken daha kısa sürede konuşlandırılabileceği için kullandık.

"Benim İçin Tanımla" tarafından oluşturulan görüntüden konuşmaya içerik örnekleri aşağıda gösterilmiştir:

Aurora borealis veya kuzey ışıkları, bir evin silüetinin üzerinde gece gökyüzünü doldurur.

Bir köpek, oyuncaklarla dolu açık bir valizin yanında, parke zeminde kırmızı bir battaniyenin üzerinde uyuyor..

Kabarık beyaz bir yatakta kıvrılmış bir tekir kedi.

Yüz tanıma

Amazon Tanıma Görüntüsü şunları sağlar: Yüzleri Algıla bir giriş görüntüsündeki yüzleri algılamak için gözler, burun ve ağız gibi temel yüz özelliklerini arayan işlem. Çözümümüzde, giriş görüntüsündeki herhangi bir kişiyi algılamak için bu işlevsellikten yararlanıyoruz. Bir kişi tespit edilirse, KarşılaştırYüzler Giriş görüntüsündeki yüzü "Beni Tanımla"nın eğitildiği ve kişiyi adıyla tanımlayan yüzlerle karşılaştırma işlemi. Yüksek doğruluk ve kullanıma hazır yeteneklerle uygulamamıza entegre etmenin ne kadar basit olması nedeniyle yüz tanıma için Tanıma'yı kullanmayı seçtik.

Bir odada fotoğraf çektirmek için poz veren bir grup insan. 4 kişiyi tanıyorum: Jack, Kanbo, Alak ve Trac. Resimde de metin bulundu. Şöyledir: AWS yeniden: Buluş

Potansiyel Kullanım Durumları

Web görüntüleri için Alternatif Metin Oluşturma

Bir web sitesindeki tüm görsellerin, ekran okuyucuların bunları görme engellilere anlatabilmesi için alternatif bir metne sahip olması gerekir. Arama motoru optimizasyonu (SEO) için de iyidir. Bir metin yazarı bunları bir tasarım belgesinde sağlamakla görevli olduğundan alt yazılar oluşturmak zaman alıcı olabilir. Describe For Me API, resimler için otomatik olarak alternatif metin oluşturabilir. Herhangi bir web sitesinde alt metni eksik olan resimlere otomatik olarak resim yazısı eklemek için bir tarayıcı eklentisi olarak da kullanılabilir.

Video için Sesli Açıklama

Sesli Betimleme, görme engellilerin filmleri takip etmesine yardımcı olmak için video içeriği için bir anlatım parçası sağlar. Resim yazısı daha sağlam ve doğru hale geldikçe, bir sahnenin önemli bölümleri için açıklamalara dayalı bir ses parçasının oluşturulmasını içeren bir iş akışı mümkün olabilir. Amazon Rekognition, sahne değişikliklerini, logoları, jenerik dizilerini ve ünlüleri zaten algılayabilir. Açıklamanın gelecekteki bir sürümü, bu önemli özelliğin filmler ve videolar için otomatikleştirilmesine izin verecektir.

Sonuç

Bu gönderide, görme engellilerin görüntüleri görmesine yardımcı olmak için yapay zeka ve sunucusuz hizmetler dahil olmak üzere AWS hizmetlerinin nasıl kullanılacağını ele aldık. Beni Tanımla projesi hakkında daha fazla bilgi edinebilir ve ziyaret ederek projeyi kullanabilirsiniz. tarifforme.com. benzersiz özellikleri hakkında daha fazla bilgi edinin. Amazon Adaçayı Yapıcı, Amazon Tanıma ve Hugging Face ile AWS ortaklığı.

Rehberlik için Üçüncü Taraf Makine Öğrenimi Modeli Sorumluluk Reddi

Bu kılavuz yalnızca bilgilendirme amaçlıdır. Yine de kendi bağımsız değerlendirmenizi yapmalı ve kendi özel kalite kontrol uygulamalarınız ve standartlarınız ile sizin için geçerli olan yerel kurallar, yasalar, yönetmelikler, lisanslar ve kullanım koşulları, içeriğiniz ve bu kılavuzda başvurulan üçüncü taraf Makine Öğrenimi modeli. AWS'nin bu kılavuzda atıfta bulunulan üçüncü taraf Makine Öğrenimi modeli üzerinde herhangi bir kontrolü veya yetkisi yoktur ve üçüncü taraf Makine Öğrenimi modelinin güvenli, virüssüz, çalışır durumda veya üretim ortamınızla uyumlu olduğuna dair herhangi bir beyanda bulunmaz veya garanti vermez ve standartlar. AWS, bu kılavuzdaki herhangi bir bilginin belirli bir sonuca veya sonuca yol açacağına dair herhangi bir beyanda bulunmaz, garanti vermez veya garanti vermez.

Yazarlar Hakkında

Jack Marchetti AWS'de müşterilerin sunucusuz, olaya dayalı mimarileri modernize etmelerine ve uygulamalarına yardımcı olmaya odaklanan Kıdemli Çözümler mimarıdır. Jack yasal olarak kördür ve eşi Erin ve kedisi Minou ile Chicago'da yaşamaktadır. Aynı zamanda, Noel filmleri ve korku üzerine odaklanan bir senarist ve yönetmendir. Jack'in filmografisini şu adreste görüntüleyin: IMDb sayfası.

Alak Eswaradas Chicago, Illinois merkezli AWS'de Kıdemli Çözüm Mimarıdır. Müşterilerin iş zorluklarını çözmek için AWS hizmetlerini kullanarak bulut mimarileri tasarlamasına yardımcı olma konusunda tutkulu. Alak, AWS müşterileri için çeşitli makine öğrenimi kullanım durumlarını çözmek için SageMaker'ı kullanma konusunda hevesli. Alak, çalışmadığı zamanlarda kızlarıyla vakit geçirmekten ve köpekleriyle dışarıyı keşfetmekten keyif alıyor.

Kandyce Bohannon Minneapolis, MN merkezli bir Kıdemli Çözüm Mimarıdır. Bu rolde Kandyce, AWS'deki en iyi uygulamaları uygulamak için özellikle veri ve DevOps ile ilgili teknoloji stratejilerini modernize ederken AWS müşterilerine teknik danışman olarak çalışır. Ayrıca Kandyce, AWS She Builds Tech Skills programı aracılığıyla gelecek nesil teknoloji uzmanlarına rehberlik etme ve teknoloji alanındaki kadınları sergileme konusunda tutkulu.

Trac Yap AWS'de bir Çözüm Mimarıdır. Trac, rolünde kurumsal müşterilerin bulut geçişlerini ve uygulama modernizasyon girişimlerini desteklemek için onlarla birlikte çalışır. Müşterilerin karşılaştığı zorlukları öğrenme ve bunları AWS hizmetlerini kullanarak sağlam ve ölçeklenebilir çözümlerle çözme konusunda tutkulu. Trac şu anda eşi ve 3 oğluyla birlikte Chicago'da yaşıyor. Kendisi büyük bir havacılık tutkunu ve Hususi Pilot Lisansını tamamlama sürecinde.

SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
PlatoAiStream. Web3 Veri Zekası. Bilgi Genişletildi. Buradan Erişin.
Adryenn Ashley ile Geleceği Basmak. Buradan Erişin.
PREIPO® ile PRE-IPO Şirketlerinde Hisse Al ve Sat. Buradan Erişin.
Kaynak: https://aws.amazon.com/blogs/machine-learning/introducing-an-image-to-speech-generative-ai-application-using-amazon-sagemaker-and-hugging-face/

Üretken Veri Zekası

Amazon SageMaker ve Hugging Face'i kullanan bir görüntüden konuşmaya Üretken AI uygulamasıyla tanışın | Amazon Web Hizmetleri

Çözüme Genel Bakış

Çözüm İzlenecek Yol

Paralel İşleme

Görüntü Başlık

Aurora borealis veya kuzey ışıkları, bir evin silüetinin üzerinde gece gökyüzünü doldurur.

Bir köpek, oyuncaklarla dolu açık bir valizin yanında, parke zeminde kırmızı bir battaniyenin üzerinde uyuyor..

Kabarık beyaz bir yatakta kıvrılmış bir tekir kedi.

Yüz tanıma

Bir odada fotoğraf çektirmek için poz veren bir grup insan. 4 kişiyi tanıyorum: Jack, Kanbo, Alak ve Trac. Resimde de metin bulundu. Şöyledir: AWS yeniden: Buluş

Potansiyel Kullanım Durumları

Web görüntüleri için Alternatif Metin Oluşturma

Video için Sesli Açıklama

Sonuç

Yazarlar Hakkında

VC Kafe

LifeSciVC

En Son İstihbarat

StarCraft 2'nin çok oyunculu lideri tarafından yönetilen bir stüdyo, henüz duyurulmamış oyunuyla RTS 'paradigma değişimi' yaratmak istiyor

No Rest for the Wicked bir Diablo değil ama uzun zamandır oynadığım en akıllı soul benzeri oyunlardan biri olabilir

Moment Factory, Konser Deneyimini Yeniden Tasarlamak için Sphere'in Yeni Nesil Teknolojilerinden Yararlanıyor

Amazon Personalize'da çözümlere yönelik otomatik eğitimle tanışın | Amazon Web Hizmetleri

Kötüler İçin Dinlenmeme Durumunda %20 Tasarruf Edin ve Sınırlı Bir Süre İçin Ücretsiz Oyun Kazanın

Pokémon Go Bellsprout Topluluk Günü rehberi

Bizimle sohbet