Zephyrnet-logo

Onderzoek naar machinaal leren in de akoestiek kan multimodale metaverse openen

Datum:

Onderzoekers van MIT en het IBM Watson AI Lab hebben een machine learning-model gemaakt om te voorspellen wat een luisteraar op verschillende locaties in een 3D-ruimte zou horen.

De onderzoekers gebruikten het ML-model voor het eerst om te begrijpen hoe elk geluid in een kamer zich door de ruimte zal voortplanten, en bouwden een beeld op van een 3D-kamer op dezelfde manier waarop mensen geluid gebruiken om hun omgeving te begrijpen.

In een paper, mede geschreven door Yilun Du, een MIT-student bij de afdeling Electrical Engineering and Computer Science (EECS), laten de onderzoekers zien hoe technieken die vergelijkbaar zijn met visuele 3D-modellering kunnen worden toegepast op de akoestiek.

Maar ze worstelden ook met elementen waar geluid en licht uit elkaar lopen. Het veranderen van de locatie van de luisteraar in een kamer kan bijvoorbeeld een heel andere indruk van het geluid creëren vanwege obstakels, de vorm van de kamer en de aard van het geluid, waardoor de uitkomst moeilijk te voorspellen is.

Om dit probleem op te lossen, hebben de onderzoekers akoestiekkenmerken in hun model ingebouwd. Ten eerste dat de bron van het geluid en de luisteraar van plaats kunnen wisselen zonder verandering in wat de luisteraar hoort, terwijl alle andere dingen gelijk blijven. Geluid is ook specifiek afhankelijk van lokale kenmerken zoals obstakels in de weg van de luisteraar of geluid.

“De meeste onderzoekers hebben zich tot nu toe alleen gericht op het modelleren van visie. Maar als mensen hebben we een multimodale perceptie. Niet alleen het zicht is belangrijk, ook het geluid is belangrijk. Ik denk dat dit werk een opwindende onderzoeksrichting opent naar een beter gebruik van geluid om de wereld te modelleren, " Du zei.

Met behulp van de aanpak kon het resulterende neurale akoestische veld (NAF) -model willekeurig punten op dat raster bemonsteren om de functies op specifieke locaties te leren. De nabijheid van een deuropening heeft bijvoorbeeld een sterke invloed op wat die luisteraar hoort ten opzichte van andere geometrische kenmerken verder weg aan de andere kant van de kamer.

Het model was vervolgens in staat om te voorspellen wat de luisteraar zou kunnen horen van een specifieke akoestische stimulus op basis van hun relatieve locaties in de kamer.

"Door akoestische voortplanting in een scène te modelleren als een lineair tijdinvariant systeem, leren NAF's om continu alle zender- en luisteraarlocatieparen in kaart te brengen naar een neurale impulsresponsfunctie die vervolgens kan worden toegepast op willekeurige geluiden," de papier zei: [PDF]. "We demonstreren dat de continue aard van NAF's ons in staat stelt om ruimtelijke akoestiek voor een luisteraar op een willekeurige locatie weer te geven, en geluidsvoortplanting op nieuwe locaties te voorspellen."

Chuang Gan, een hoofdonderzoeker bij het MIT-IBM Watson AI Lab die ook aan het project werkte, zei: "Deze nieuwe techniek zou nieuwe kansen kunnen bieden om een ​​multimodale meeslepende ervaring te creëren in de metaverse toepassing."

We begrijpen niet alles Reg lezers zullen enthousiast zijn over de bovenstaande use-case. ®

spot_img

Laatste intelligentie

spot_img