Zephyrnet Logosu

Akustikte makine öğrenimi araştırması multimodal metaverse açabilir

Tarih:

MIT ve IBM Watson Yapay Zeka Laboratuvarı'ndaki araştırmacılar, bir 3B alan içinde çeşitli konumlarda bir dinleyicinin ne duyacağını tahmin etmek için bir makine öğrenimi modeli oluşturdu.

Araştırmacılar, bir odadaki herhangi bir sesin uzayda nasıl yayılacağını anlamak için ilk olarak ML modelini kullandılar ve insanların çevrelerini anlamak için sesi kullandıkları şekilde bir 3D odanın resmini oluşturdular.

Araştırmacılar, Elektrik Mühendisliği ve Bilgisayar Bilimleri (EECS) Bölümü'nde MIT lisansüstü öğrencisi olan Yilun Du tarafından ortaklaşa yazılan bir makalede, görsel 3B modellemeye benzer tekniklerin akustiğe nasıl uygulanabileceğini gösteriyor.

Ancak ses ve ışığın ayrıldığı unsurlarla da mücadele ettiler. Örneğin, bir odadaki dinleyicinin yerini değiştirmek, engeller, odanın şekli ve sesin doğası nedeniyle sesin çok farklı bir izlenimini yaratabilir ve sonucun tahmin edilmesini zorlaştırabilir.

Bu sorunun üstesinden gelmek için araştırmacılar, model akustiğin özelliklerini oluşturdular. İlk olarak, sesin kaynağı ve dinleyici, diğer her şey eşit olmak üzere, dinleyicinin duyduklarında değişiklik olmaksızın yer değiştirebilir. Ses ayrıca özellikle dinleyicinin önündeki engeller veya ses gibi yerel özelliklere de bağlıdır.

"Çoğu araştırmacı şimdiye kadar yalnızca vizyonu modellemeye odaklandı. Ama insanlar olarak multimodal algıya sahibiz. Sadece görüş değil, ses de önemlidir. Bence bu çalışma, dünyayı modellemek için sesi daha iyi kullanma konusunda heyecan verici bir araştırma yönü açıyor." dedi.

Yaklaşımı kullanarak, ortaya çıkan nöral akustik alan (NAF) modeli, belirli konumlardaki özellikleri öğrenmek için bu ızgaradaki noktaları rastgele örnekleyebildi. Örneğin, bir kapı aralığına yakınlık, dinleyicinin duyduğu şeyi, odanın diğer tarafındaki diğer geometrik özelliklere göre güçlü bir şekilde etkiler.

Model daha sonra, dinleyicinin odadaki göreceli konumlarına dayalı olarak belirli bir akustik uyarandan ne duyabileceğini tahmin edebildi.

"Bir sahnede akustik yayılımı doğrusal zamanla değişmeyen bir sistem olarak modelleyerek, NAF'ler, tüm yayıcı ve dinleyici konum çiftlerini, daha sonra keyfi seslere uygulanabilecek bir sinirsel dürtü yanıt işleviyle sürekli olarak eşleştirmeyi öğrenir." kağıt dedi [PDF]. "NAF'lerin sürekli doğasının, bir dinleyici için keyfi bir konumda mekansal akustiği oluşturmamıza olanak tanıdığını ve yeni konumlarda ses yayılımını tahmin edebileceğimizi gösteriyoruz."

MIT-IBM Watson Yapay Zeka Laboratuvarı'nda aynı zamanda proje üzerinde çalışan baş araştırma ekibi üyesi Chuang Gan, "Bu yeni teknik, meta veri deposu uygulamasında çok modlu sürükleyici bir deneyim yaratmak için yeni fırsatlar açabilir" dedi.

hepsini değil anlıyoruz Reg okuyucular yukarıdaki kullanım durumu hakkında heyecan duyacaklar. ®

spot_img

En Son İstihbarat

spot_img