제퍼넷 로고

스파이크 광검출기는 망막을 모방하여 에너지 효율적인 시각적 인식을 가능하게 합니다.

시간

15년 2024월 XNUMX일 (나노 워크 스포트라이트) 엄격한 에너지 제약 조건 내에서 작동하면서 인간 두뇌의 비교할 수 없는 시각적 능력을 효과적으로 모방하는 것은 인공 지능 개발자. 인간의 시각 시스템은 뉴런 사이에 전송되는 스파이크라고 불리는 짧은 전기 펄스를 사용하여 광학 데이터를 우아하게 처리합니다. 이 급증하는 신경 코드는 제한된 계산 리소스를 사용하여 비교할 수 없는 패턴 인식을 뒷받침합니다. 그러나 현대의 머신 비전은 전력 소모가 많은 센서의 시각적 입력을 컴퓨터 알고리즘이 소화할 수 있는 표현으로 처리하는 과정을 수반합니다. 이러한 계산 강도는 모바일 및 모바일 환경에서 지속적으로 작동하는 비전 시스템의 배포를 제한합니다. 사물 인터넷 컨텍스트. 이에 따라 시각적 지능과 에너지 효율성의 균형을 더 잘 맞추는 대체 생체 영감 아키텍처에 대한 추구가 강화되었습니다. 이전에 연구자들은 생물학적 시각의 주요 이점을 인공 시스템으로 전환하는 데 어려움을 겪었습니다. 맞춤형 스파이크 카메라와 센서는 시각적 입력을 스파이크로 인코딩하기 위해 추가 구성 요소가 필요한 동시에 이미지 품질을 저하시키는 경우가 많습니다. 한편, 스파이크 뉴런을 모방하는 알고리즘은 기존 컴퓨터 하드웨어에서 실행될 때 생물학적 대응 알고리즘의 효율성과 거의 일치하지 않습니다. 이러한 제한으로 인해 최첨단 컴퓨터 비전의 시각적 기능과 급증하는 신경망의 낮은 에너지 소비를 결합한 인공 지능 비전 시스템의 개발이 지연되었습니다. 이제 베이징 기술 대학의 연구원들은 다음과 같이 보고합니다.고급 재료, “인간의 시각을 완전히 모방하는 기반의 급증하는 인공 시각 아키텍처”) 실리콘 회로에서 생물학적 비전의 주요 측면을 에뮬레이션하는 유망한 스파이크 기반 인공 비전 시스템입니다. 그들의 새로운 광활성 신경망 칩은 빛을 직접 전류 스파이크로 변환하는 동시에 정적 입력에 대한 시각적 변화에 대한 망막 세포의 선택성을 나타냅니다. 실시간 이미지를 분석하는 생체 영감 접근 방식을 사용하여 그룹은 한계 훈련 후 기본 신경망으로 손 동작을 인식하는 정확도가 90% 이상을 달성했습니다. 인간의 시각을 완전히 복사하여 붙여넣는 기반의 인공 시각 아키텍처 인간의 시각을 완전히 복사하여 붙여넣는 것에 기반한 인공 시각 아키텍처입니다. a 망막(스파이킹 인코딩)과 뇌(정보 처리)로 구성된 인간의 시각 시스템입니다. b 스파이킹 광검출기(스파이킹 인코딩)와 인공 시냅스(정보 처리)로 구성된 새로운 스파이킹 기반 인공 시각 전략. (이미지: Wiley-VCH Verlag의 허가를 받아 재인쇄) 이 혁신의 핵심에는 빛의 수준 변화에 따라 전류 스파이크를 출력하여 인간 눈의 망막 세포를 모방하는 특수 광검출기 회로가 있습니다. 이미지 내용에 관계없이 일정한 픽셀 데이터 스트림을 출력하는 일반적인 디지털 카메라와 달리 이러한 '스파이킹 광검출기'는 정적 장면을 볼 때 비활성화 상태를 유지하며 인코딩이 필요한 움직이거나 새로 보이는 개체에 대해서만 스파이크를 발사합니다. 이러한 선택적 스파이킹 동작을 통해 인간 망막의 시각적 자극에 대한 신경 인코딩과 유사한 효율적인 정보 표현이 가능해집니다. 전체 장면에서 절대적인 빛 수준을 캡처하는 대신 스파이킹 광검출기와 생물학적 대응 장치는 수용 영역 내의 빛 수준 변화에 주로 반응합니다. 연구원들은 변하지 않고 중요하지 않을 가능성이 있는 배경 이미지 요소를 필터링하면 제한된 신경 자원을 사용하여 생물학적 시각의 뛰어난 패턴 인식이 가능하다고 제안합니다. 테스트에서는 간단한 신경망 처리를 통해 후속 분류를 위한 충분한 정보가 포함된 다양한 역학 유도 스파이크 패턴의 상징적 그래픽과 손 제스처로 이러한 이벤트 기반 픽셀 배열을 조명했습니다. 예를 들어, 미국 수화 손가락 철자를 스파이크로 변환하면 문자당 50개의 훈련 샘플만 사용하여 XNUMX개의 개별 문자에 대한 신경망을 신속하게 식별할 수 있습니다. 중요한 것은, 확립된 딥 러닝 기술은 훨씬 더 많은 전력을 소비하는 디지털 카메라와 그래픽 처리 장치에서 광범위한 프레임 시퀀스를 처리한 후에만 비슷한 정확도를 얻었습니다. 마찬가지로, 표준화된 인간 활동 데이터세트에서 시스템을 평가할 때 급증하는 광검출기 픽셀은 비디오당 단 4개의 희박한 바이너리 실루엣 프레임에서 적절한 자세와 움직임의 뉘앙스를 추출했습니다. 점프하고 손을 흔드는 것과 같은 동작의 압축된 스파이크 표현을 기본 신경망 분류기에 입력하면 단 90번의 훈련 에포크 후에 XNUMX% 정확도로 인식이 가능해졌습니다. 이 벤치마크를 일치시키려면 일반적으로 정교하게 설계된 심층 신경망을 사용하여 수천 개의 고해상도 비디오 스틸을 분석해야 합니다. 이미지 인식 작업을 처리하기 위해 팀은 이전에 스파이킹 뉴로모픽 프로세서용으로 개발된 시냅스 장치를 통합하여 생체 영감 회로를 구축했습니다. 이러한 인공 시냅스는 생물학적 뉴런 사이의 조정 가능한 연결 강도를 모방하여 학습이 가능하도록 조정 가능한 메모리를 제공합니다. 프로그래밍 펄스를 적용하여 연구원들은 광검출기로부터 스파이크를 수신하는 시냅스에 적절한 가중치를 부여하여 네트워크가 기본 모양과 동작 패턴 조합을 분류하도록 가르쳤습니다. 시냅스 전도도 값의 명확한 훈련 후 차이는 광학 자극 내의 고유한 식별 기능에 해당합니다. 전반적으로, 결과는 뇌의 설계 원리를 사용하여 효율적인 뉴로모픽 컴퓨팅을 향한 큰 진전을 보여줍니다. 이벤트 기반 정보 표현은 모바일 플랫폼 및 기타 전력이 제한된 상황에 인공 지능을 배포하기 위한 주요 제약 조건을 해결합니다. 앞으로 연구원들은 실용적인 머신 비전 애플리케이션을 위한 스파이크 아키텍처를 계속 개발하는 것을 목표로 하고 있습니다. 인간의 인식과 일치하는 프레임 속도로 더욱 풍부한 시각적 데이터를 캡처하기 위한 확장된 고해상도 어레이를 통해 생물학자로부터 영감을 받은 비전 시스템이 유비쿼터스화될 수 있습니다. 다양한 기존 센서의 최적화된 스파이크 기반 데이터 전송은 생물학적 용량과의 격차를 더욱 줄일 수 있습니다. 자율주행 차량 내비게이션, 증강 현실 인터페이스, 로봇 공학 및 컴퓨터 비전 하드웨어에 대한 미래 수요 증가를 주도할 것으로 예상되는 기타 영역에서는 기능과 효율성을 동시에 개선하는 것이 필수적입니다.


마이클 버거
By

마이클
버거



– Michael은 Royal Society of Chemistry에서 다음 세 권의 책을 저술했습니다.
나노 사회 : 기술의 경계를 넓히다,
나노 기술 : 미래는 작다
나노 엔지니어링 : 기술을 보이지 않게하는 기술과 도구
저작권 ©


나노워크 LLC

Spotlight 게스트 작성자가 되십시오! 우리의 크고 성장하는 그룹에 가입하십시오. 게스트 기여자. 방금 과학 논문을 발표했거나 나노 기술 커뮤니티와 공유 할 다른 흥미로운 개발이 있습니까? nanowerk.com에 게시하는 방법은 다음과 같습니다..

spot_img

최신 인텔리전스

spot_img