Forskerne implanterte elektroder inne på kvinnens hjerneoverflate, hvor bevegelser av lepper, tunge og kjeve styres når vi snakker. Elektrodene ble koblet til flere datamaskiner som tolker hjernesignalene og gjør dem om til tale.(Illustrasjonsfoto: sutadimages/Shutterstock/NTB)
Stum kvinne fikk stemmen tilbake med kunstig intelligens
En kvinne som ble stum etter et hjerneslag, kan nå snakke igjen. Forskerne brukte en video fra bryllupet hennes til å lage en lignende stemme. – Kjempekult, sier Asta K. Håberg, professor i nevrovitenskap, NTNU.
Amerikanske forskere har brukt kunstig intelligens til å gi en lam og stum kvinne stemmen tilbake.
Kvinnen mistet taleevnen etter et hjerneslag i hjernestammen. Nå kan hun «snakke» via en kobling mellom hjernen
og en datamaskin.
Gjennombruddet ble omtalt i Nature i slutten av august.
Brukte stemmen fra en video fra bryllupet
Nevrologer og elektroingeniører har klart å oversette kvinnens hjernesignaler til en syntetisk tale. Ordene uttales av en tegnet avatar som ligner brukeren, og som beveger munnen riktig i forhold til ordene.
Dette skal være den første gangen at tale og ansiktsuttrykk har blitt tolket og uttrykt fra hjernesignaler.
Forskerne fra California mener teknologien gir mulighet til å føre en naturlig og normal samtale for dem som har mistet evnen til å snakke.
Spennende kombinasjon av teknologier
– Dette er kjempekult! utbryter Asta Kristine
Håberg til forskning.no. Hun er professor i nevrovitenskap ved NTNU og har lest
studien.
Håberg jobber ved Institutt for nevromedisin og
bevegelsesvitenskap.
– Det mest spennende er hvordan ulike teknologier
er kombinert, og gir mennesker som ikke kan snakke lenger sin egen stemme
tilbake, sier hun.
Nature har publisert to studier fra to forskningsmiljøer med
lignende, gode resultater, forteller hun.
Begge miljøene i California har klart å utvikle syntetisk tale ved hjelp
av kunstig intelligens og hjernesignaler. Omtrent samtidig, med hver sin
metode.
Forskerne har utviklet metoden med hver sin kvinne. En har
ALS og den andre hjerneskade etter hjerneslag.
Men begge har fortsatt ulike språksentre intakt i hjernen.
Den kunstige intelligensen ble ikke trent til å gjenkjenne hele ord. I stedet laget forskerne et system som tolker ord fra fonemer.
Fonemer er det minste lydsegmentet som kan endre betydningen av et ord.
Ordet «Hello» består for eksempel av fire fonemer: «HH», «AH», «L» og «OW».
Dermed trengte programvaren å lære bare 39 fonemer for å tolke hvilket som helst engelsk ord.
Resultatet ble mer nøyaktig og programvaren jobbet tre ganger raskere.
Ikke tankelesing
Pasientene som var med i studiene, har trent seg på å si ord og
setninger de har fått utdelt av forskerne.
– De skulle tenke på hvordan de ville sagt ordet
eller setningene. Det vil si hvordan de ville beveget leppene, kjevene og tungen for å
uttale ordene, forklarer Håberg til forskning.no.
Annonse
Det er disse nervesignalene som blir registrert i hjernen, og
som den kunstige intelligensen er blitt trent i å gjenkjenne.
Det er altså ikke det at du tenker på visse ord, som blir
tolket, understreker Håberg.
Ganske høy feilrate
Begge forskningsmiljøene har trent den kunstige
intelligensen til å tyde lydene ut fra hvordan lepper, kjeve og tunge er
posisjonert, og som ord består av.
– Men begge studiene viser ganske høy feilrate.
Maskinene foreslo feil ord i omtrent 25 prosent av tilfellene, sier Håberg.
Dette kan forbedres, ved å trene den
kunstige intelligensen mer, mener forskerne.
Tolker signaler
Teknologien kalles hjerne-datamaskin-kobling, eller brain computer interface, BCI.
Den kunstige intelligensen har så trent seg opp til å sette lydsekvensene sammen til ulike ord.
Maskinene bruker både sannsynlighetsregning til å tolke hvilke ord lydene var ment å skulle danne, og sin egne erfaring med studiedeltakeren.
Systemet kan tolke signaler og gjøre dem om til nesten 80 ord i minuttet. Dette er en stor forbedring av den teknologien som hittil har vært tilgjengelig.
Matte med elektroder
I den ene studien opererte forskerne inn et papirtynt rektangel med 253 elektroder over hjernebarken. I den
andre opererte de elektrodene rett inn i hjernebarken.
Begge studiene benyttet det
samme området i hjernebarken, som planlegger og styrer bevegelse av lepper,
tunge og kjeve.
Elektrodene tolker hjernesignalene som ville gått til snakkemusklene hennes hvis hun ikke hadde vært lam. Signalene går i tillegg til ansiktet.
– Dette området ligger på siden av hjernen, rett
over toppen av øret, forklarer Håberg.
Det kalles laryngealsk motor-hjernebark eller Brodmanns
område 6v.
Annonse
Elektrodene ble så koblet til flere datamaskiner via en kabel plugget inn i hodet.
Snakker sakte
Den syntetiske stemmen snakker sakte. De to programmene klarer
bare å produsere henholdsvis 62 og 76 ord per minutt.
– I vanlig tale kan vi si 160 ord per minutt, så
talehastigheten er under halvparten av naturlig tale, sier Håberg.
Det er ikke så veldig imponerende. Men med mer
trening kan talehastigheten øke, antar hun.
Ordforrådet er lite
I den ene studien har forskerne brukt ord og setninger som
har med dagliglivet og pleiesituasjonen til pasienten å gjøre. I den andre har de
øvd maskinen til å lage mer allmenne ord og setninger.
– Disse AI-ene har foreløpig øvd seg på et relativt
lite ordforråd. I dagligtale klarer de fleste mennesker seg med et ordforråd på
4.000 til 5.000 ord, forteller Håberg.
På sikt burde det være mulig å komme dit med
denne teknologien, mener hun.
Slike apparater kan ennå ikke brukes til å føre en avansert
samtale på vegne av pasienten. Men over tid kan de antakelig trenes opp til
det.
Forutsetning at språkområdet er intakt
Disse oppfinnelsene vil bare kunne hjelpe
visse pasientgrupper, understreker Håberg.
Annonse
– Språksentrene og forbindelsene mellom dem må
fortsatt være intakt og uskadd, understreker hun.
Det vil typisk gjelde ALS-pasienter som har muskellammelser,
men uten at selve storhjernen er rammet.
– Slagpasienter er avhengig av at slaget har
rammet andre deler av hjernen enn språksentrene, sier hun.
Maskinlæring
I ukevis har kvinnene trent med forskerne for å få den
kunstige intelligensens algoritmer til å kjenne igjen hjernesignalene deres for tale.
Ulike fraser fra over tusen ord skulle «uttales» gjentatte ganger.
Hjernesignaler ble matet inn i programvaren. Helt til datamaskinen gjenkjente
aktivitetsmønstre som hadde sammenheng med de ulike lydene.
Metoden er en form for kunstig intelligens hvor
man bruker statistiske metoder til å få datamaskiner til å finne mønstre i store
datamengder.
Brukte lydopptak av stemmen
For å lage stemmen laget den ene forskergruppen en algoritme som kan
syntetisere tale. Så gjorde de den mer lik pasientens stemme, ved å bruke et
lydopptak fra hennes eget bryllup.
Avataren ble programmert til å uttrykke bevegelser i ansiktsmusklene. Leppene, kjeven og tungen beveger seg også riktig i forhold til lydene som «uttales».
Den kan også uttrykke glede, tristhet
og overraskelse.
Robotarm
Annonse
Asta Kristine Håberg er ikke veldig overrasket over oppfinnelsene.
– Det er ikke lenge siden det ble utviklet en robotarm, som beveger seg ved at personen tenker på å bevege armen, sier hun.
Changs team har jobbet med å utvikle tale-teknologien i flere tiår.
De har tidligere vist at det er mulig å dekode hjernesignaler hos en mann som også var rammet av hjerneslag og få budskapet hans ut som tekst på en datamaskin.
Forskere har også klart å få personer til å bevege beina ved at hjernesignaler styrer et eksoskjelett, det vil si en slags avstivet drakt utenpå klærne.
Håper det blir godkjent for bruk
Forskerne håper gjennombruddet fører til at programmet blir
godkjent for bruk.
Å gi slagrammede personer muligheten til å snakke ved å bruke programvaren vil gjøre dem mer uavhengig og bedre det sosiale livet
deres, mener forskerne.
Neste skritt blir å lage en trådløs versjon. Da trenger ikke
brukeren å være fysisk koblet til datamaskinen.