Zephyrnet Logosu

Mona Lisa EMO Sayesinde Artık Konuşabiliyor

Tarih:

Alibaba Group Akıllı Bilgi İşlem Enstitüsü'ndeki araştırmacılar, portrelere hayat veren, EMO: Emote Portrait Alive olarak bilinen bir yapay zeka aracı geliştirdi.

Araç, kullanıcıların hareketsiz bir görüntüye ses ve video eklemesine olanak tanır. Bu aracı kullanarak, ünlü Leonardo da Vinci'nin, daha çok Mona Lisa olarak bilinen La Gioconda'sı gibi eski bir portreyle oynayabilir, kafa pozları, hareketler, yüz ifadeleri ve doğru dudak senkronizasyonu ile onun konuşmasını ve şarkı söylemesini sağlayabilirsiniz.

Etkileyici ses odaklı portre-video oluşturma aracı

"EMO: Canlı Portre Portresi: Zayıf Koşullar Altında Audio2Video Difüzyon Modeli ile Etkileyici Portre Videoları Oluşturmak" başlıklı raporlarında  araştırmacılar yeni araçları, işlevleri ve mükemmel sonuçlar için nasıl kullanılacağı hakkında fikir verin.

Etkileyici ses odaklı portre oluşturma yapay zeka aracıyla kullanıcılar, yüz ifadeleriyle vokal avatar videoları oluşturabiliyor. Araştırmacılara göre araç, "giriş sesinin uzunluğuna bağlı olarak" herhangi bir uzunlukta video oluşturmalarına olanak tanıyor.

Araştırmacılar, "Tek bir karakter görüntüsü ve şarkı söylemek gibi bir vokal sesi girin; yöntemimiz, etkileyici yüz ifadeleri ve çeşitli kafa pozları ile vokal avatar videoları üretebilir" dedi.

"Metodumuz çeşitli dillerdeki şarkıları destekliyor ve çeşitli portre tarzlarına hayat veriyor. Sesteki ton değişimlerini sezgisel olarak algılayarak dinamik, ifade açısından zengin avatarların oluşturulmasını sağlıyor."

Ayrıca okuyun: OpenAI, New York Times'ın ChatGPT'yi Telif Hakkı Davası Geliştirmek İçin "Hacklediğini" İddia Ediyor

Bir portreden konuşmak, şarkı söylemek

Araştırmacılara göre yapay zeka destekli araç yalnızca müziği işlemekle kalmıyor, aynı zamanda farklı dillerdeki konuşma seslerini de barındırıyor.

Araştırmacılar, "Ayrıca, yöntemimiz geçmiş çağlardan portreleri, tabloları ve hem 3 boyutlu modelleri hem de yapay zeka tarafından oluşturulan içeriği canlandırarak bunlara gerçekçi hareket ve gerçekçilik katma yeteneğine sahip" dedi.

Ama bu burada bitmedi. Kullanıcılar ayrıca çeşitli tarzlarda ve dillerde monologlar veya performanslar sunan film yıldızlarının portreleri ve görüntüleri ile de oynayabilirler.

X platformunu benimseyen bazı yapay zeka meraklıları bunu "akıllara durgunluk veren" olarak nitelendirdi.

Gerçek ve yapay zeka arasındaki sınır inceliyor

EMO aracıyla ilgili haberler Alibaba teknoloji firmaları yeni ürünler piyasaya sürdükçe diğer kullanıcılara yapay zeka ile gerçeklik arasındaki sınırın ortadan kalkmak üzere olduğunu düşündürdü.

"Yapay zeka ile gerçek arasındaki fark her zamankinden daha ince" Ruben gönderildi diğerleri düşünürken X hakkında Tik tak yakında kreasyonlarla dolup taşacak.

“İlk defa bu kadar kesin ve gerçekçi bir sonuç görüyorum. Video yapay zekası bu yıl güvenilir olacağa benziyor” dedi Paul Gizli.

Diğerleri bunun yaratıcılar için oyunun kurallarını değiştirebileceğini düşünürken Min Choi de bu konuda temkinli davranıyor.

“Umarım sadece yaratıcı şeyler için. Bu yanlış ellerde tehlikeli olabilir.”

Mona Lisa EMO Sayesinde Artık Konuşabiliyor

aracı kullanma

Süreci açıklayan araştırmacılar, EMO çerçevesinin iki aşaması olduğunu vurguladı; ilki Çerçeve Kodlaması olarak biliniyordu; burada ReferenceNet, referans görüntülerden ve hareket çerçevelerinden özellikler çıkarmak için kullanılıyordu.

Bir sonraki aşama, önceden eğitilmiş bir ses kodlayıcının "ses yerleştirmeyi işlediği" Difüzyon Süreci aşamasıdır. Mükemmel yüz görüntüleri oluşturmak için kullanıcılar yüz bölgesi maskelerini ve çoklu çerçeve gürültüsünü entegre ediyor.

Açıklamanın bir bölümünde "Bu mekanizmalar sırasıyla karakterin kimliğini korumak ve karakterin hareketlerini modüle etmek için gereklidir" deniyor.

"Ek olarak, Zamansal Modüller, zamansal boyutu değiştirmek ve hız hareketini ayarlamak için kullanılıyor."

spot_img

En Son İstihbarat

spot_img