Annonse
Forskerne implanterte elektroder inne på kvinnens hjerneoverflate, hvor bevegelser av lepper, tunge og kjeve styres når vi snakker. Elektrodene ble koblet til flere datamaskiner som tolker hjernesignalene og gjør dem om til tale.

Stum kvinne fikk stemmen tilbake med kunstig intelligens

En kvinne som ble stum etter et hjerneslag, kan nå snakke igjen. Forskerne brukte en video fra bryllupet hennes til å lage en lignende stemme. – Kjempekult, sier Asta K. Håberg, professor i nevrovitenskap, NTNU.

Publisert

Amerikanske forskere har brukt kunstig intelligens til å gi en lam og stum kvinne stemmen tilbake. 

Kvinnen mistet taleevnen etter et hjerneslag i hjernestammen. Nå kan hun «snakke» via en kobling mellom hjernen og en datamaskin.

Gjennombruddet ble omtalt i Nature i slutten av august.

Brukte stemmen fra en video fra bryllupet

Nevrologer og elektroingeniører har klart å oversette kvinnens hjernesignaler til en syntetisk tale. Ordene uttales av en tegnet avatar som ligner brukeren, og som beveger munnen riktig i forhold til ordene.

Dette skal være den første gangen at tale og ansiktsuttrykk har blitt tolket og uttrykt fra hjernesignaler.

Forskerne fra California mener teknologien gir mulighet til å føre en naturlig og normal samtale for dem som har mistet evnen til å snakke.

Spennende kombinasjon av teknologier

– Dette er kjempekult! utbryter Asta Kristine Håberg til forskning.no. Hun er professor i nevrovitenskap ved NTNU og har lest studien.

Håberg jobber ved Institutt for nevromedisin og bevegelsesvitenskap.

– Det mest spennende er hvordan ulike teknologier er kombinert, og gir mennesker som ikke kan snakke lenger sin egen stemme tilbake, sier hun.

Nature har publisert to studier fra to forskningsmiljøer med lignende, gode resultater, forteller hun.

Begge miljøene i California har klart å utvikle syntetisk tale ved hjelp av kunstig intelligens og hjernesignaler. Omtrent samtidig, med hver sin metode.

Forskerne har utviklet metoden med hver sin kvinne. En har ALS og den andre hjerneskade etter hjerneslag. 

Men begge har fortsatt ulike språksentre intakt i hjernen.

Lærte å gjenkjenne lyder

Den kunstige intelligensen ble ikke trent til å gjenkjenne hele ord. I stedet laget forskerne et system som tolker ord fra fonemer. 

Fonemer er det minste lydsegmentet som kan endre betydningen av et ord.

Ordet «Hello» består for eksempel av fire fonemer: «HH», «AH», «L» og «OW».

Dermed trengte programvaren å lære bare 39 fonemer for å tolke hvilket som helst engelsk ord.

Resultatet ble mer nøyaktig og programvaren jobbet tre ganger raskere.

Ikke tankelesing

Pasientene som var med i studiene, har trent seg på å si ord og setninger de har fått utdelt av forskerne.

– De skulle tenke på hvordan de ville sagt ordet eller setningene. Det vil si hvordan de ville beveget leppene, kjevene og tungen for å uttale ordene, forklarer Håberg til forskning.no. 

Det er disse nervesignalene som blir registrert i hjernen, og som den kunstige intelligensen er blitt trent i å gjenkjenne.

Det er altså ikke det at du tenker på visse ord, som blir tolket, understreker Håberg.

– Dette er kjempekult, og det mest spennende er hvordan ulike teknologier er kombinert, og gir mennesker som ikke kan snakke lenger sin egen stemme tilbake. Det sier professor i nevrovitenskap, Asta Kristine Håberg, ved NTNU. (Foto: Anne Lise Stranden)

Ganske høy feilrate

Begge forskningsmiljøene har trent den kunstige intelligensen til å tyde lydene ut fra hvordan lepper, kjeve og tunge er posisjonert, og som ord består av.

– Men begge studiene viser ganske høy feilrate. Maskinene foreslo feil ord i omtrent 25 prosent av tilfellene, sier Håberg.

Dette kan forbedres, ved å trene den kunstige intelligensen mer, mener forskerne.

Tolker signaler

Teknologien kalles hjerne-datamaskin-kobling, eller brain computer interface, BCI. 

Den kunstige intelligensen har så trent seg opp til å sette lydsekvensene sammen til ulike ord.

Maskinene bruker både sannsynlighetsregning til å tolke hvilke ord lydene var ment å skulle danne, og sin egne erfaring med studiedeltakeren.

Systemet kan tolke signaler og gjøre dem om til nesten 80 ord i minuttet. Dette er en stor forbedring av den teknologien som hittil har vært tilgjengelig.

Matte med elektroder

I den ene studien opererte forskerne inn et papirtynt rektangel med 253 elektroder over hjernebarken. I den andre opererte de elektrodene rett inn i hjernebarken. 

Begge studiene benyttet det samme området i hjernebarken, som planlegger og styrer bevegelse av lepper, tunge og kjeve.

Elektrodene tolker hjernesignalene som ville gått til snakkemusklene hennes hvis hun ikke hadde vært lam. Signalene går i tillegg til ansiktet.

– Dette området ligger på siden av hjernen, rett over toppen av øret, forklarer Håberg.

Det kalles laryngealsk motor-hjernebark eller Brodmanns område 6v.

Elektrodene ble så koblet til flere datamaskiner via en kabel plugget inn i hodet.

Snakker sakte

Den syntetiske stemmen snakker sakte. De to programmene klarer bare å produsere henholdsvis 62 og 76 ord per minutt.

– I vanlig tale kan vi si 160 ord per minutt, så talehastigheten er under halvparten av naturlig tale, sier Håberg.

Det er ikke så veldig imponerende. Men med mer trening kan talehastigheten øke, antar hun.

Ordforrådet er lite

I den ene studien har forskerne brukt ord og setninger som har med dagliglivet og pleiesituasjonen til pasienten å gjøre. I den andre har de øvd maskinen til å lage mer allmenne ord og setninger.

– Disse AI-ene har foreløpig øvd seg på et relativt lite ordforråd. I dagligtale klarer de fleste mennesker seg med et ordforråd på 4.000 til 5.000 ord, forteller Håberg.

 På sikt burde det være mulig å komme dit med denne teknologien, mener hun.

Slike apparater kan ennå ikke brukes til å føre en avansert samtale på vegne av pasienten. Men over tid kan de antakelig trenes opp til det.

Forutsetning at språkområdet er intakt

Disse oppfinnelsene vil bare kunne hjelpe visse pasientgrupper, understreker Håberg.

– Språksentrene og forbindelsene mellom dem må fortsatt være intakt og uskadd, understreker hun.

Det vil typisk gjelde ALS-pasienter som har muskellammelser, men uten at selve storhjernen er rammet.

– Slagpasienter er avhengig av at slaget har rammet andre deler av hjernen enn språksentrene, sier hun.

Maskinlæring

I ukevis har kvinnene trent med forskerne for å få den kunstige intelligensens algoritmer til å kjenne igjen hjernesignalene deres for tale.

Ulike fraser fra over tusen ord skulle «uttales» gjentatte ganger.

Hjernesignaler ble matet inn i programvaren. Helt til datamaskinen gjenkjente aktivitetsmønstre som hadde sammenheng med de ulike lydene.

Metoden er en form for kunstig intelligens hvor man bruker statistiske metoder til å få datamaskiner til å finne mønstre i store datamengder.

Brukte lydopptak av stemmen

For å lage stemmen laget den ene forskergruppen en algoritme som kan syntetisere tale. Så gjorde de den mer lik pasientens stemme, ved å bruke et lydopptak fra hennes eget bryllup.

Avataren ble programmert til å uttrykke bevegelser i ansiktsmusklene. Leppene, kjeven og tungen beveger seg også riktig i forhold til lydene som «uttales».

Den kan også uttrykke glede, tristhet og overraskelse.

Robotarm 

Asta Kristine Håberg er ikke veldig overrasket over oppfinnelsene.

– Det er ikke lenge siden det ble utviklet en robotarm, som beveger seg ved at personen tenker på å bevege armen, sier hun.

Changs team har jobbet med å utvikle tale-teknologien i flere tiår. 

De har tidligere vist at det er mulig å dekode hjernesignaler hos en mann som også var rammet av hjerneslag og få budskapet hans ut som tekst på en datamaskin.

Forskere har også klart å få personer til å bevege beina ved at hjernesignaler styrer et eksoskjelett, det vil si en slags avstivet drakt utenpå klærne.

Håper det blir godkjent for bruk

Forskerne håper gjennombruddet fører til at programmet blir godkjent for bruk.

Å gi slagrammede personer muligheten til å snakke ved å bruke programvaren vil gjøre dem mer uavhengig og bedre det sosiale livet deres, mener forskerne.

Neste skritt blir å lage en trådløs versjon. Da trenger ikke brukeren å være fysisk koblet til datamaskinen.

Referanse: 

S. L. Metzger mf: A high-performance neuroprosthesis for speech decoding and avatar control. Nature, 23. august 2023. 

F. R. Willett: A high-performance speech neuroprosthesis. Nature, 23. august 2023.

Få med deg ny forskning

MELD DEG PÅ NYHETSBREV

Du kan velge mellom daglig eller ukentlig oppdatering.

Powered by Labrador CMS