Saken er produsert og finansiert av Norges forskningsråd - Les mer

Data med barnestemme

Det er utfordrende å få datamaskiner til å gjenkjenne og snakke med barnestemme. Norske forskere har funnet enkle og gode løsninger på begge deler.
5.1 2012 05:00


Barn som trenger taleteknologi skal få bedre hjelpemidler. (Foto: Shutterstock)

– Kunstige stemmer likner mer og mer på menneskestemmer, men barn får fortsatt voksenstemmer dersom de trenger hjelpemidler for å snakke, sier Magne Lunde, daglig leder i MediaLT som utvikler hjelpemidler for funksjonshemmede.

– Dette er utgangspunktet for et forskningsprosjekt der vi sammen med bedriften Lingit jobber med å utvikle Norges første kunstige barnestemme, forteller han.
 
Å lage en ny syntetisk stemme er vanligvis svært tidkrevende. Med finansiering fra Forskningsrådets program for IT for funksjonshemmede tester de derfor ut en helt ny metode.

Høres lovende ut

– Vi tar utgangpunkt i en såkalt masterstemme som er bygget opp på innlesninger av flere tusen setninger fra 3–4 voksne talere. Så gjør vi opptak av ett barn som leser inn et mindre antall setninger. Dette bruker vi til å modifisere masterstemmen slik at den høres ut som en barnestemme, sier Torbjørn Nordgård i Lingit.

Han er også professor i språkvitenskap ved Universitetet i Nordland.

Setningene som barnet leser inn er valgt ut for å dekke en del av den relevante fonetiske variasjonen, det vil si lydskriften, man finner i norsk.

– Masterstemmen vil være styrende for intonasjon, det vil si setningsmelodien, og derfor vil nok resultatet bli en temmelig veslevoksen barnerøst, men det er tross alt bedre enn en voksenstemme, sier Nordgård.

Forskerne skal nå i gang med å teste prøveversjoner av barnestemmen.

– Så langt ser det lovende ut, og vi kan ha på plass første versjon av barnestemmen til sommeren, håper Lunde.

Han sier at det er forsket lite på dette også internasjonalt, og at de med denne måten å utvikle kunstige barnestemmer på, ligger langt framme i verdenssammenheng.

Må forstå barnetalen

Lunde og kollegaene forsker også på talestyring på norsk. Det innebærer blant annet å styre PC-en gjennom å snakke til den i form av talekommandoer.

Når vi styrer datamaskiner med tale, må datamaskinen gjenkjenne det vi sier. Det er ekstra utfordrende å få datamaskiner til å forstå unge og eldre.


Magne Lunde i MediaLT. (Foto: Norunn K. Torheim)

– Barn og unge har annerledes stemme på grunn av kortere taleorgan. For å lage en talegjenkjenner trenger vi relativt store mengder taledata for at gjenkjenneren skal lære seg hvordan de ulike lydene uttales. Det finnes dessverre lite taledata for barnestemmer, forteller professor Torbjørn Svendsen ved NTNU.

Han er en av nestorene innen norsk taleteknologi og samarbeider med forskerne i prosjektet SMUDI som er støttet av Forskningsrådets VERDIKT-program og Kunnskapsdepartementet.

På et nylig avholdt seminar om taleteknologi fortalte Svendsen hvordan de på en relativt enkel og elegant måte har løst problemene med gjenkjenning av barnetale.

De tok utgangspunkt i at lengden på taleorganet påvirker hvordan energien i talen fordeles i frekvens og brukte en matematisk formel for å få energifordelingen i voksentale til å likne mer på energifordelingen hos barn.

– Den omformede voksentalen ligner også lydmessig mer på tale fra barn. Vi benyttet derfor teknikken på en stor database med voksentale til å lage en kunstig barnedatabase. Denne brukte vi så til å lære opp en talegjenkjenner for barnestemmer, forklarer Svendsen.

– Dette har gitt en kraftig forbedring i gjenkjenning av barnetale. Feilraten er redusert med 50–70 prosent, sier han.

Krevende norsk talegjenkjenning

Ifølge Svendsen er det norske språket generelt en stor utfordring når man jobber med talegjenkjenning.


Torbjørn Svendsen. (Foto: NTNU)

 – Språk har så stor variasjon at det er vanskelig å modellere. Det norske språket som har to målformer, mange dialekter, mange tillatte ord, bøyninger, sammensatte ord og som mangler uttalenorm, er ekstra krevende, sier Svendsen.

For å demonstrere den store variasjonen i språket vårt viser han til en rekke måter folk kan si noe så enkelt som et klokkeslett på. For eksempel kan 20.05 sies som fem over åtte, tjue null fem, cirka åtte eller åtte på kvelden.

Svendsen påpeker også hvor vanskelig talegjenkjenning kan være å ta i bruk. En video av to skotter som skal ta en talestyrt engelsk heis, viser poenget på en humoristisk måte.

– Ved innføring av ny teknologi, er det viktig ikke å fjerne gammel teknologi slik som å styre en heis med knapper, selv om det kommer ny taleteknologi, understreker han.

forskning.no ønsker en åpen og saklig debatt. Vi forbeholder oss retten til å fjerne innlegg. Du må bruke ditt fulle navn. Vis regler

Regler for leserkommentarer på forskning.no:

  1. Diskuter sak, ikke person. Det er ikke tillatt å trakassere navngitte personer eller andre debattanter.
  2. Rasistiske og andre diskriminerende innlegg vil bli fjernet.
  3. Vi anbefaler at du skriver kort.
  4. forskning.no har redaktøraransvar for alt som publiseres, men den enkelte kommentator er også personlig ansvarlig for innholdet i innlegget.
  5. Publisering av opphavsrettsbeskyttet materiale er ikke tillatt. Du kan sitere korte utdrag av andre tekster eller artikler, men husk kildehenvisning.
  6. Alle innlegg blir kontrollert etter at de er lagt inn.
  7. Du kan selv melde inn innlegg som du mener er upassende.
  8. Du må bruke fullt navn. Anonyme innlegg vil bli slettet.

Annonse

Om prosjektet:

Taleteknologiprosjektet «Stemmestyring i multimodal dialog – SMUDI» har hatt støtte fra Forskningsrådets VERDIKT-program siden høsten 2007 og avsluttes til nyttår. Prosjektet ledes av Morten Tellefsen i Media Lunde Tollefsen A/S (MediaLT). SMUDI-forskerne arrangerte nylig avslutningsseminaret «Snakkis».
 

Emneord

Saker fra våre eiere

NTNU

Vi tror kanskje at isbjørnangrep er den største faren på Svalbard. Men snøskred tar flere liv enn det bjørnen gjør. Snøskredforskere og teknologer jobber med å finne løsninger på problemet.

Handelshøyskolen BI

Terror er væpnet propaganda og er sjelden eller aldri er en trussel mot stater, hevder professor.

Framsenteret

På tross av tidligere rapporter så er tilstanden i den svenske reindriften bedre enn forventet – det er få tegn på en kollaps eller krise i den svenske reindrifta, viser ny studie.

Saker fra våre eiere

Universitetet i Stavanger

En lang og hengslete polymerkjede har i seg potensialet til å sikre norsk velferd. Utfordringen er at polymerer blir fort stresset og oppfører seg som en meitemark.

Norges forskningsråd

Boligpriser og boliglån er blitt noe av det viktigste i mange nordmenns liv. Nå bruker mange boliglån til å finansiere forbruket sitt.

Universitetet i Oslo

Er du usikker på hvorfor du er så tørr i munnen? Nå har forskere funnet en metode som på sikt kan gjøre det enklere å diagnostisere Sjögrens syndrom.

Hjernen får karakteristiske trekk allerede før symptomene melder seg, ifølge en ny studie.

Hvalen som døde med magen full av plast har fått mange til å tenke miljø. En ny studie viser hvordan vi kan lære barn i barnehagealder om miljøvern.