제퍼넷 로고

생각을 텍스트로 전환하는 속도 기록을 깨는 AI 기반 뇌 임플란트

시간

우리는 분당 약 160단어의 속도로 말합니다. 그 속도는 음성 뇌 임플란트로는 달성하기가 엄청나게 어렵습니다.

수십 년 동안 만들어진 언어 임플란트는 생각을 텍스트나 소리로 변환하는 것을 목표로 신경 활동을 측정하기 위해 뇌에 삽입된 작은 전극 배열을 사용합니다. 마비, 질병 또는 기타 부상으로 인해 말하는 능력을 상실한 사람들에게 매우 중요합니다. 그러나 그들은 또한 엄청나게 느리고 분당 단어 수를 거의 XNUMX배로 줄입니다. 느리게 로드되는 웹 페이지나 오디오 파일처럼 지연은 일상적인 대화에 방해가 될 수 있습니다.

Drs.가 이끄는 팀. Stanford University의 Krishna Shenoy와 Jaimie Henderson은 그 속도 격차를 좁히고 있습니다.

사전 인쇄 서버에 게시됨 bioRxiv, 그들의 연구는 67세의 여성이 기록적인 속도로 뇌 임플란트를 사용하여 외부 세계와 의사 소통하는 능력을 회복하도록 도왔습니다. "T12"로 알려진 이 여성은 근위축성 측삭 경화증(ALS) 또는 신체의 근육을 제어하는 ​​뇌의 능력을 점진적으로 강탈하는 루게릭병으로 인해 점차 언어를 잃었습니다. T12는 말하려고 할 때 여전히 소리를 발성할 수 있었지만 단어는 이해할 수 없게 나왔습니다.

그녀의 임플란트를 통해 T12의 말하기 시도는 이제 실시간으로 화면의 텍스트로 해독되고 컴퓨터 음성으로 큰 소리로 말합니다. 이전 기록의 62배가 넘는 속도인 분당 XNUMX개의 단어가 빠르고 격렬하게 나왔습니다.

속도만 필요한 것이 아닙니다. 이 연구는 또한 해당 규모의 첫 번째 시연에서 약 125,000개의 단어로 임플란트를 사용하여 음성 디코딩에 사용되는 가장 큰 어휘 라이브러리를 활용했습니다.

분명히 말하지만 "큰 돌파구" 전문가에 따르면 "인상적인 새로운 성능 벤치마크"에 도달했지만 이 연구는 아직 동료 검토를 거치지 않았으며 결과는 한 명의 참가자로 제한됩니다.

즉, 기본 기술은 ALS에만 국한되지 않습니다. 음성 인식의 향상은 이전에 신경 신호를 디코딩하는 데 효과적이었던 기계 학습 알고리즘인 반복 신경망인 RNN과 언어 모델 간의 결합에서 비롯됩니다. 추가 테스트를 통해 이 설정은 중증 마비, 뇌졸중 또는 감금 증후군이 있는 사람들이 자신의 생각만으로 사랑하는 사람과 부담 없이 대화할 수 있는 길을 열어줄 수 있습니다.

우리는 "자연스러운 대화의 속도에 접근"하기 시작했다고 저자는 말했습니다.

단어 손실

팀은 사람들에게 연설 능력을 되돌려주는 데 익숙합니다.

의 일환으로 브레인 게이트, 뇌 임플란트를 사용하여 통신을 복원하기 위한 선구적인 글로벌 협력인 팀은 뇌의 신경 신호를 사용하여 통신을 복원하는 능력을 구상하고 실현했습니다.

2021년에 그들은 뇌-컴퓨터 인터페이스(BCI)를 설계했습니다. 사람을 도왔다 척수 손상과 정신 마비 유형. 환자 뇌의 운동 영역에 96개의 미세 전극 배열을 삽입하여 팀은 각 문자를 쓰는 동작을 상상하면서 다른 문자에 대한 뇌 신호를 해독할 수 있었고 94% 이상의 정확도로 일종의 "마인드 텍스팅"을 달성했습니다.

문제? 속도는 기껏해야 분당 약 90자였습니다. 이전 설정에서 크게 개선되었지만 일상적인 사용에는 여전히 고통스러울 정도로 느렸습니다.

그렇다면 왜 뇌의 언어 센터를 직접 활용하지 않겠습니까?

언어에 관계없이 음성 해독은 악몽입니다. 혀와 주변 근육의 작고 종종 잠재의식적인 움직임은 음소라고도 하는 매우 다른 소리 무리를 유발할 수 있습니다. 안면 근육의 모든 단일 경련 또는 혀의 깜박임의 뇌 활동을 소리에 연결하려는 것은 엄청난 작업입니다.

해킹 연설

BrainGate2 Neural Interface System 시험의 일부인 새로운 연구는 영리한 해결 방법을 사용했습니다.

팀은 먼저 전략적으로 배치된 12개의 전극 마이크로어레이를 TXNUMX 뇌의 바깥층에 배치했습니다. XNUMX개는 입 주변 안면 근육 주위의 움직임을 제어하는 ​​영역에 삽입되었습니다. 다른 두 개는 두뇌의 "언어 센터"라고 불리는 곳으로 바로 연결되었습니다. 브로카 지역.

이론적으로 배치는 천재적인 투인원이었습니다. 사람이 말하고 싶은 것과 근육 움직임을 통한 실제 연설 실행을 모두 포착했습니다.

그러나 그것은 또한 위험한 제안이기도 했습니다. 우리는 말이 입과 얼굴 주변의 근육을 제어하는 ​​뇌의 작은 영역으로 제한되는지, 아니면 언어가 뇌 내부에서 보다 광범위한 규모로 암호화되는지 아직 알지 못합니다.

RNN을 입력합니다. 딥 러닝의 한 유형인 이 알고리즘은 이전에 뇌의 운동 영역에서 나오는 신경 신호를 텍스트로 번역했습니다. 첫 번째 테스트에서 팀은 92% 이상의 정확도로 신경 신호만을 기반으로 눈썹을 찌푸리거나 입술을 오므리거나 혀를 튕기는 등 다양한 유형의 얼굴 움직임을 쉽게 구분할 수 있음을 발견했습니다.

그런 다음 RNN은 "huh", "ah" 및 "tze"와 같은 음소를 실시간으로 제안하도록 학습되었습니다. 현상은 한 단어를 다른 단어와 구별하는 데 도움이 됩니다. 본질적으로 그들은 말의 기본 요소입니다.

훈련은 효과가 있었습니다. 매일 T12는 자신의 속도로 260~480개의 문장을 말하려고 시도하여 자신의 언어 패턴에 기초한 특정 신경 활동을 알고리즘에 가르쳤습니다. 전반적으로 RNN은 거의 11,000개의 문장에 대해 훈련되었습니다.

그녀의 마음에 대한 디코더를 가지고 팀은 RNN 인터페이스를 두 가지 언어 모델과 연결했습니다. 하나는 125,000 단어로 특히 많은 어휘를 가졌습니다. 다른 하나는 일상 생활에서 간단한 문장에 사용되는 50개의 단어가 있는 작은 도서관이었습니다.

12일 간의 말하기 시도 후 두 언어 모델 모두 T10의 단어를 해독할 수 있었습니다. 시스템에 오류가 있었습니다. 작은 도서관의 경우 약 24%, 큰 도서관의 경우 거의 XNUMX%였습니다. 그러나 화면에서 문장 프롬프트를 반복하라는 요청을 받았을 때 시스템은 그녀의 신경 활동을 이전 모델보다 XNUMX배 빠르게 문장으로 번역했습니다.

임플란트는 그녀가 말을 하려고 하든 그냥 입으로 조용히 문장을 입으로 하든 관계없이 작동했습니다(그녀는 에너지가 적게 들기 때문에 후자를 선호했습니다).

T12의 신경 신호를 분석한 결과, 팀은 뇌의 특정 영역이 모음 및 기타 음소를 인코딩하기 위해 신경 신호 패턴을 유지한다는 사실을 발견했습니다. 즉, 수년간 언어 마비가 있은 후에도 뇌는 뇌 임플란트를 사용하여 해독할 수 있는 신경 신호 내부에 내장된 음소 사전인 "상세한 조음 코드"를 여전히 유지합니다.

당신의 마음을 열기

이 연구는 종종 심각한 부상이나 신경퇴행성 장애로 인한 천천히 퍼지는 마비 후 수십 년 동안 언어를 복원하기 위해 뇌 임플란트를 사용하는 다른 많은 연구를 기반으로 합니다. 하드웨어는 잘 알려져 있습니다. Blackrock 미세 전극 어레이는 뇌의 전기 신호를 듣기 위한 64개 채널로 구성되어 있습니다.

다른 점은 작동 방식입니다. 즉, 소프트웨어가 시끄러운 신경 채터를 응집력 있는 의미 또는 의도로 변환하는 방법입니다. 이전 모델은 대부분 뇌의 신경 기록에서 직접 얻은 데이터를 디코딩하는 데 의존했습니다.

여기에서 팀은 새로운 리소스인 언어 모델 또는 현재 Gmail 또는 문자 메시지에 널리 사용되는 자동 완성 기능과 유사한 AI 알고리즘을 활용했습니다. 기술 태그 팀은 특히 GPT-3 및 기타 신흥 대형 언어 모델. 간단한 프롬프트에서 음성 패턴을 생성하는 데 뛰어난 이 기술은 환자 자신의 신경 신호와 결합될 때 몇 시간의 교육 없이도 생각을 잠재적으로 "자동 완성"할 수 있습니다.

잠재 고객은 매혹적이지만 신중한 측면이 있습니다. GPT-3 및 유사한 AI 모델은 이전 교육 데이터를 기반으로 자체적으로 설득력 있는 음성을 생성할 수 있습니다. 말을 할 수 없는 마비 환자의 경우 AI가 말하려는 내용을 생성하므로 보호 난간이 필요합니다.

저자들은 현재 그들의 작업이 개념 증명이라는 데 동의합니다. 유망하지만 음성 해독을 위한 "아직 완전하고 임상적으로 실행 가능한 시스템"은 아닙니다. 우선, 우리는 더 적은 시간으로 디코더를 훈련시키고 더 유연하게 만들어 끊임없이 변화하는 뇌 활동에 적응할 수 있도록 해야 한다고 말했습니다. 또 다른 이유는 약 24%의 오류율이 일상적인 사용에는 너무 높지만 임플란트 채널 수를 늘리면 정확도가 높아질 수 있습니다.

그러나 지금은 "더 이상 말을 할 수 없는 마비 환자에게 신속한 의사 소통을 복원"하는 궁극적인 목표에 더 가까이 다가가게 된다고 저자는 말했습니다.

이미지 신용 : 미겔 아 PadriñánPixabay

spot_img

최신 인텔리전스

spot_img

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?