Data med barnestemme

Det er utfordrende å få datamaskiner til å gjenkjenne og snakke med barnestemme. Norske forskere har funnet enkle og gode løsninger på begge deler.

Publisert
Barn som trenger taleteknologi skal få bedre hjelpemidler. (Foto: Shutterstock)
Barn som trenger taleteknologi skal få bedre hjelpemidler. (Foto: Shutterstock)

Om prosjektet:

Taleteknologiprosjektet «Stemmestyring i multimodal dialog – SMUDI» har hatt støtte fra Forskningsrådets VERDIKT-program siden høsten 2007 og avsluttes til nyttår. Prosjektet ledes av Morten Tellefsen i Media Lunde Tollefsen A/S (MediaLT). SMUDI-forskerne arrangerte nylig avslutningsseminaret «Snakkis».
 

– Kunstige stemmer likner mer og mer på menneskestemmer, men barn får fortsatt voksenstemmer dersom de trenger hjelpemidler for å snakke, sier Magne Lunde, daglig leder i MediaLT som utvikler hjelpemidler for funksjonshemmede.

– Dette er utgangspunktet for et forskningsprosjekt der vi sammen med bedriften Lingit jobber med å utvikle Norges første kunstige barnestemme, forteller han.
 
Å lage en ny syntetisk stemme er vanligvis svært tidkrevende. Med finansiering fra Forskningsrådets program for IT for funksjonshemmede tester de derfor ut en helt ny metode.

Høres lovende ut

– Vi tar utgangpunkt i en såkalt masterstemme som er bygget opp på innlesninger av flere tusen setninger fra 3–4 voksne talere. Så gjør vi opptak av ett barn som leser inn et mindre antall setninger. Dette bruker vi til å modifisere masterstemmen slik at den høres ut som en barnestemme, sier Torbjørn Nordgård i Lingit.

Han er også professor i språkvitenskap ved Universitetet i Nordland.

Setningene som barnet leser inn er valgt ut for å dekke en del av den relevante fonetiske variasjonen, det vil si lydskriften, man finner i norsk.

– Masterstemmen vil være styrende for intonasjon, det vil si setningsmelodien, og derfor vil nok resultatet bli en temmelig veslevoksen barnerøst, men det er tross alt bedre enn en voksenstemme, sier Nordgård.

Forskerne skal nå i gang med å teste prøveversjoner av barnestemmen.

– Så langt ser det lovende ut, og vi kan ha på plass første versjon av barnestemmen til sommeren, håper Lunde.

Han sier at det er forsket lite på dette også internasjonalt, og at de med denne måten å utvikle kunstige barnestemmer på, ligger langt framme i verdenssammenheng.

Må forstå barnetalen

Lunde og kollegaene forsker også på talestyring på norsk. Det innebærer blant annet å styre PC-en gjennom å snakke til den i form av talekommandoer.

Magne Lunde i MediaLT.  (Foto: Norunn K. Torheim)
Magne Lunde i MediaLT. (Foto: Norunn K. Torheim)

Når vi styrer datamaskiner med tale, må datamaskinen gjenkjenne det vi sier. Det er ekstra utfordrende å få datamaskiner til å forstå unge og eldre.

– Barn og unge har annerledes stemme på grunn av kortere taleorgan. For å lage en talegjenkjenner trenger vi relativt store mengder taledata for at gjenkjenneren skal lære seg hvordan de ulike lydene uttales. Det finnes dessverre lite taledata for barnestemmer, forteller professor Torbjørn Svendsen ved NTNU.

Han er en av nestorene innen norsk taleteknologi og samarbeider med forskerne i prosjektet SMUDI som er støttet av Forskningsrådets VERDIKT-program og Kunnskapsdepartementet.

På et nylig avholdt seminar om taleteknologi fortalte Svendsen hvordan de på en relativt enkel og elegant måte har løst problemene med gjenkjenning av barnetale.

De tok utgangspunkt i at lengden på taleorganet påvirker hvordan energien i talen fordeles i frekvens og brukte en matematisk formel for å få energifordelingen i voksentale til å likne mer på energifordelingen hos barn.

– Den omformede voksentalen ligner også lydmessig mer på tale fra barn. Vi benyttet derfor teknikken på en stor database med voksentale til å lage en kunstig barnedatabase. Denne brukte vi så til å lære opp en talegjenkjenner for barnestemmer, forklarer Svendsen.

– Dette har gitt en kraftig forbedring i gjenkjenning av barnetale. Feilraten er redusert med 50–70 prosent, sier han.

Krevende norsk talegjenkjenning

Ifølge Svendsen er det norske språket generelt en stor utfordring når man jobber med talegjenkjenning.

Torbjørn Svendsen. (Foto: NTNU)
Torbjørn Svendsen. (Foto: NTNU)

 – Språk har så stor variasjon at det er vanskelig å modellere. Det norske språket som har to målformer, mange dialekter, mange tillatte ord, bøyninger, sammensatte ord og som mangler uttalenorm, er ekstra krevende, sier Svendsen.

For å demonstrere den store variasjonen i språket vårt viser han til en rekke måter folk kan si noe så enkelt som et klokkeslett på. For eksempel kan 20.05 sies som fem over åtte, tjue null fem, cirka åtte eller åtte på kvelden.

Svendsen påpeker også hvor vanskelig talegjenkjenning kan være å ta i bruk. En video av to skotter som skal ta en talestyrt engelsk heis, viser poenget på en humoristisk måte.

– Ved innføring av ny teknologi, er det viktig ikke å fjerne gammel teknologi slik som å styre en heis med knapper, selv om det kommer ny taleteknologi, understreker han.