제퍼넷 로고

위상 배열 마이크를 사용한 3D 오디오 이미징

시간

Deckard가 Photo Inspector에 사진을 넣는 Blade Runner의 장면을 기억하십니까? 가상 카메라는 캡처된 장면을 패닝 및 이동하여 불가능한 세부 정보를 추출할 수 있습니다. 그것은 보인다 [Ben Wang]은 오디오를 통해 특정 트릭을 현실로 만드는 방법을 발견했습니다. 비디오 대신. 비밀 소스는 정교한 마이크가 아니라 정말 단순한 것입니다. 이 경우에는 192개가 벽 예술 바퀴의 스포크 역할을 하는 긴 PCB에 배열되어 있습니다. 꽤 대화 조각.

192개의 마이크에서 데이터를 한 번에 캡처하는 것 자체가 어려운 일이라고 생각할 수 있으며 그것이 정확한 평가인 것 같습니다. 첫 번째 데이터 캡처 문제는 제조 공정을 한계까지 밀어붙이는 이상한 PCB 때문이었습니다. 스포크의 약 절반은 도착 시 작동이 중단되었으며 개별 마이크는 공유 클럭 라인을 접지 또는 전원 공급 라인으로 단락시키는 경향이 있습니다. 그런 다음 모든 데이터를 가져오려면 컬러 라이트 편리한 폼 팩터를 갖춘 범용 FPGA로 사용됩니다. 이 이전 픽셀 컨트롤러는 오픈 소스 리버스 엔지니어링 노력 덕분에 다양한 프로젝트에 사용할 수 있으며 Project Trellis 툴체인, 이 노력에도 사용되었습니다.

모든 마이크를 UDP 패킷으로 패킷화하면 무려 715Mbps가 나오며, 이는 기가비트 이더넷 연결에 잘 맞습니다. 해당 데이터는 다음으로 작성된 GPU 커널에 공급됩니다. CUDA의 오픈 소스 대안인 Triton. 이는 두 가지 빔포밍 작업 중 하나를 수행합니다. 근거리 빔포밍은 마이크 어레이 바로 앞의 공간을 64cm 복셀의 64x64x5 그리드로 나누고 해당 3d 공간에서 음원을 찾을 수 있습니다. 또는 시스템은 원거리 빔 형식을 실행하고 2×512 그리드에서 512d 방향으로 음원을 찾을 수 있습니다.

보정의 일부로 소리의 속도는 시스템의 최상의 모델을 얻기 위해 최적화된 매개변수이기도 하므로 이 전체 절차가 터무니없이 과도하게 설계된 온도계 역할을 할 수 있습니다.

가장 인상적인 트릭은 다른 방식으로 프로세스를 실행하고 특정 방향에서 들어오는 오디오를 분리하는 것입니다. 여기서 데모는 하나의 소스에서 정적을 재생하고 근처에 있는 두 번째 소스에서 음악을 재생하는 것이었습니다. 하나의 마이크에서만 들을 때 결과는 왜곡된 혼란입니다. 그러나 빔포밍 알고리즘을 적용하면 방향성 오디오를 분리하는 인상적인 작업을 수행합니다. 결과를 들으려면 클릭하세요..

충분하지 않은 경우 자세한 내용을 확인하십시오. 또 다른 유사한 마이크 어레이 프로젝트.

spot_img

VC 카페

라이프사이VC

최신 인텔리전스

VC 카페

라이프사이VC

spot_img