Logo Zéphyrnet

La recherche sur l'apprentissage automatique en acoustique pourrait ouvrir un métaverse multimodal

Date :

Des chercheurs du MIT et de l'IBM Watson AI Lab ont créé un modèle d'apprentissage automatique pour prédire ce qu'un auditeur entendrait dans divers endroits d'un espace 3D.

Les chercheurs ont d'abord utilisé le modèle ML pour comprendre comment tout son dans une pièce se propagerait dans l'espace, en créant une image d'une pièce en 3D de la même manière que les gens utilisent le son pour comprendre leur environnement.

Dans un article co-écrit par Yilun Du, un étudiant diplômé du MIT au Département de génie électrique et d'informatique (EECS), les chercheurs montrent comment des techniques similaires à la modélisation visuelle 3D peuvent être appliquées à l'acoustique.

Mais ils ont également lutté avec des éléments où le son et la lumière divergent. Par exemple, changer l'emplacement de l'auditeur dans une pièce peut créer une impression très différente du son en raison des obstacles, de la forme de la pièce et de la nature du son, ce qui rend le résultat difficile à prévoir.

Pour surmonter ce problème, les chercheurs ont intégré à leur modèle des caractéristiques acoustiques. Premièrement, que la source du son et l'auditeur peuvent changer de place sans que cela change ce que l'auditeur entend, toutes choses égales par ailleurs. Le son dépend également spécifiquement des caractéristiques locales telles que les obstacles sur le chemin de l'auditeur ou du son.

« Jusqu'à présent, la plupart des chercheurs se sont uniquement concentrés sur la modélisation de la vision. Mais en tant qu'êtres humains, nous avons une perception multimodale. Non seulement la vision est importante, mais le son est également important. Je pense que ce travail ouvre une direction de recherche passionnante sur une meilleure utilisation du son pour modéliser le monde », Du a dit.

En utilisant cette approche, le modèle de champ acoustique neuronal (NAF) résultant a pu échantillonner de manière aléatoire des points sur cette grille pour apprendre les caractéristiques à des emplacements spécifiques. Par exemple, la proximité d'une porte affecte fortement ce que cet auditeur entend par rapport à d'autres caractéristiques géométriques plus éloignées de l'autre côté de la pièce.

Le modèle a ensuite été en mesure de prédire ce que l'auditeur pourrait entendre d'un stimulus acoustique spécifique en fonction de leur emplacement relatif dans la pièce.

"En modélisant la propagation acoustique dans une scène comme un système linéaire invariant dans le temps, les NAF apprennent à mapper en continu toutes les paires d'emplacements d'émetteur et d'auditeur à une fonction de réponse impulsionnelle neuronale qui peut ensuite être appliquée à des sons arbitraires", le papier a dit [PDF]. "Nous démontrons que la nature continue des NAF nous permet de rendre l'acoustique spatiale pour un auditeur à un emplacement arbitraire et peut prédire la propagation du son à de nouveaux emplacements."

Chuang Gan, membre principal du personnel de recherche du MIT-IBM Watson AI Lab, qui a également travaillé sur le projet, a déclaré : « Cette nouvelle technique pourrait ouvrir de nouvelles opportunités pour créer une expérience immersive multimodale dans l'application métavers.

On ne comprend pas tout Reg les lecteurs seront enthousiasmés par le cas d'utilisation ci-dessus. ®

spot_img

Dernières informations

spot_img