Zephyrnet-logotyp

AI-drivet hjärnimplantat slår hastighetsrekord för att förvandla tankar till text

Datum:

Vi talar med en hastighet av ungefär 160 ord varje minut. Den hastigheten är otroligt svår att uppnå för talhjärnimplantat.

Decennier på väg, använder talimplantat små elektroduppsättningar som sätts in i hjärnan för att mäta neural aktivitet, med målet att omvandla tankar till text eller ljud. De är ovärderliga för människor som förlorar sin förmåga att tala på grund av förlamning, sjukdom eller andra skador. Men de är också otroligt långsamma och minskar antalet ord per minut nästan tio gånger. Som en långsamt laddad webbsida eller ljudfil kan förseningen bli frustrerande för vardagliga konversationer.

Ett team ledd av Drs. Krishna Shenoy och Jaimie Henderson vid Stanford University täpper till det hastighetsgapet.

Publicerad på preprint-servern bioRxiv, deras studie hjälpte en 67-årig kvinna att återställa sin förmåga att kommunicera med omvärlden med hjälp av hjärnimplantat i rekordfart. Känd som "T12", förlorade kvinnan gradvis sitt tal på grund av amyotrofisk lateralskleros (ALS), eller Lou Gehrigs sjukdom, som gradvis berövar hjärnans förmåga att kontrollera musklerna i kroppen. T12 kunde fortfarande vokalisera ljud när han försökte tala - men orden blev oförståeliga.

Med sitt implantat avkodas T12:s försök till tal nu i realtid som text på en skärm och talas högt med en datoriserad röst, inklusive fraser som "det är bara tufft" eller "Jag tycker om att de kommer." Orden kom snabbt och rasande med 62 per minut, över tre gånger snabbare än tidigare rekord.

Det är inte bara ett behov av snabbhet. Studien utnyttjade också det största ordförrådsbiblioteket som används för talavkodning med hjälp av ett implantat - på ungefär 125,000 XNUMX ord - i en första demonstration i den skalan.

För att vara tydlig, även om det var en "stort genombrott” och nått ”imponerande nya prestationsriktmärken” enligt experter, har studien ännu inte granskats av experter och resultaten är begränsade till en deltagare.

Som sagt, den underliggande tekniken är inte begränsad till ALS. Ökningen av taligenkänning härrör från ett äktenskap mellan RNN:er – återkommande neurala nätverk, en maskininlärningsalgoritm som tidigare var effektiv vid avkodning av neurala signaler – och språkmodeller. När den testas ytterligare kan upplägget bana väg för att göra det möjligt för personer med svår förlamning, stroke eller inlåst syndrom att nonchalant chatta med sina nära och kära genom att bara använda sina tankar.

Vi börjar "närma oss hastigheten på naturlig konversation", sa författarna.

Förlust för ord

Teamet är inte främmande för att ge människor tillbaka sina talförmåga.

Som en del av BrainGate, ett banbrytande globalt samarbete för att återställa kommunikation med hjälp av hjärnimplantat, föreställde sig teamet – och insåg sedan – förmågan att återställa kommunikation med hjälp av neurala signaler från hjärnan.

År 2021 konstruerade de ett hjärn-datorgränssnitt (BCI) som hjälpte en person med ryggmärgsskada och förlamning typ med sitt sinne. Med en 96 mikroelektroder insatt i de motoriska områdena i patientens hjärna kunde teamet avkoda hjärnsignaler för olika bokstäver när han föreställde sig rörelserna för att skriva varje karaktär, vilket uppnådde en sorts "mindtexting" med över 94 procents noggrannhet.

Problemet? Hastigheten var ungefär 90 tecken per minut som mest. Även om det var en stor förbättring från tidigare inställningar, var det fortfarande smärtsamt långsamt för dagligt bruk.

Så varför inte koppla direkt in i hjärnans talcentra?

Oavsett språk är avkodning av tal en mardröm. Små och ofta undermedvetna rörelser av tungan och omgivande muskler kan utlösa väldigt olika klungor av ljud - även kända som fonem. Att försöka koppla hjärnaktiviteten från varje enskild ryckning i en ansiktsmuskel eller flimmer i tungan till ett ljud är en svår uppgift.

Hacking Tal

Den nya studien, en del av BrainGate2 Neural Interface System-prövningen, använde en smart lösning.

Teamet placerade först fyra strategiskt placerade elektrodmikroarrayer i det yttre lagret av T12:s hjärna. Två sattes in i områden som styr rörelser runt munns omgivande ansiktsmuskler. De andra två knackade rakt in i hjärnans "språkcentrum", som kallas Brocas område.

I teorin var placeringen ett geni två-i-ett: den fångade både vad personen ville säga och själva utförandet av talet genom muskelrörelser.

Men det var också ett riskabelt förslag: vi vet ännu inte om talet är begränsat till bara ett litet område i hjärnan som styr musklerna runt munnen och ansiktet, eller om språket är kodat i en mer global skala inuti hjärnan.

Ange RNN. En typ av djupinlärning, algoritmen har tidigare översatt neurala signaler från de motoriska områdena i hjärnan till text. I ett första test fann teamet att det enkelt separerade olika typer av ansiktsrörelser för tal - t.ex. rynka ögonbrynen, rynka läpparna eller snärta med tungan - baserat på enbart neurala signaler med över 92 procents noggrannhet.

RNN fick sedan lära sig att föreslå fonem i realtid - till exempel "va", "ah" och "tze". Fenomen hjälper till att skilja ett ord från ett annat; i huvudsak är de det grundläggande elementet i tal.

Träningen tog arbete: varje dag försökte T12 tala mellan 260 och 480 meningar i sin egen takt för att lära algoritmen den specifika neurala aktiviteten som ligger till grund för hennes talmönster. Totalt tränades RNN på nästan 11,000 XNUMX meningar.

Med en avkodare för hennes sinne kopplade teamet RNN-gränssnittet med två språkmodeller. En hade ett särskilt stort ordförråd på 125,000 50 ord. Det andra var ett mindre bibliotek med XNUMX ord som används för enkla meningar i vardagen.

Efter fem dagars försök att tala kunde båda språkmodellerna avkoda T12:s ord. Systemet hade fel: runt 10 procent för det lilla biblioteket och nästan 24 procent för det större. Men när systemet ombads att upprepa meningsuppmaningar på en skärm, översatte systemet enkelt hennes neurala aktivitet till meningar tre gånger snabbare än tidigare modeller.

Implantatet fungerade oavsett om hon försökte tala eller om hon bara uttalade meningarna tyst (hon föredrog det senare, eftersom det krävde mindre energi).

Genom att analysera T12:s neurala signaler fann teamet att vissa regioner i hjärnan behöll neurala signalmönster för att koda för vokaler och andra fonem. Med andra ord, även efter år av talförlamning, har hjärnan fortfarande en "detaljerad artikulatorisk kod" - det vill säga en ordbok över fonem inbäddade i neurala signaler - som kan avkodas med hjälp av hjärnimplantat.

Tala Your Mind

Studien bygger på många andra som använder ett hjärnimplantat för att återställa talet, ofta årtionden efter allvarliga skador eller långsamt spridande förlamning från neurodegenerativa störningar. Hårdvaran är välkänd: Blackrock mikroelektroder, som består av 64 kanaler för att lyssna på hjärnans elektriska signaler.

Vad som är annorlunda är hur det fungerar; det vill säga hur mjukvaran omvandlar bullriga neurala chatter till sammanhängande betydelser eller avsikter. Tidigare modeller förlitade sig mest på avkodning av data direkt erhållen från neurala inspelningar från hjärnan.

Här utnyttjade teamet en ny resurs: språkmodeller eller AI-algoritmer som liknar autoslutförandefunktionen som nu är allmänt tillgänglig för Gmail eller sms. Det tekniska tag-teamet är särskilt lovande med uppkomsten av GPT-3 och andra framväxande stora språkmodeller. Utmärkt på att generera talmönster från enkla uppmaningar, kan tekniken – i kombination med patientens egna neurala signaler – potentiellt "autokomplettera" sina tankar utan behov av timmars träning.

Prospektet, även om det är lockande, kommer med en sida av försiktighet. GPT-3 och liknande AI-modeller kan generera övertygande tal på egen hand baserat på tidigare träningsdata. För en person med förlamning som inte kan tala skulle vi behöva skyddsräcken eftersom AI:n genererar det personen försöker säga.

Författarna är överens om att deras arbete för närvarande är ett bevis på konceptet. Även om det är lovande, är det "ännu inte ett komplett, kliniskt genomförbart system" för avkodning av tal. För det första, sa de, måste vi träna dekodern med mindre tid och göra den mer flexibel, låta den anpassa sig till ständigt föränderlig hjärnaktivitet. För en annan är felfrekvensen på ungefär 24 procent alldeles för hög för dagligt bruk – även om ett ökat antal implantatkanaler kan öka noggrannheten.

Men för tillfället flyttar det oss närmare det slutliga målet att "återställa snabb kommunikation till människor med förlamning som inte längre kan tala", sa författarna.

Image Credit: Miguel Á. Padriñán från Pixabay

plats_img

Senaste intelligens

plats_img

Chatta med oss

Hallå där! Hur kan jag hjälpa dig?