Tettere på oppklaring av talens gåte

Dansk forskergruppe undersøker hvordan vi lærer å snakke. Resultatene bruker de i arbeidet med å finne opp et nytt, intelligent høreapparat.

Publisert
Danske forskere forsøker å forstå hvordan barn lærer å snakke og avkode hva som er viktigst i en talestrøm. (Foto: Colourbox)
Danske forskere forsøker å forstå hvordan barn lærer å snakke og avkode hva som er viktigst i en talestrøm. (Foto: Colourbox)

Om prosjektet

Forskningsprosjektet «Automatic Reconstruction of Speech Events» er støttet av Det Frie Forskningsråd (FKK), Carlsbergfondet, Det Nordiske Ministerråd (NorFA), CBS World Class Research Environment, samt diverse private fond.

Forskningsprosjektet er ledet av Peter Juel Henrichsen. Resten av gruppen består av:

Thomas Ulrich Christiansen, førsteamanuensis ved DTU

Jan Heegård Petersen, lingvist

Maya Borges, ph.d.-student

Ruben Schachtenhaufen, ph.d.-student

Marcus Uneson, Lund Universitet (gjesteforsker)

Violaine Michel, Genève Universitet (gjesteforsker)

Forferdelige historier og bilder fra rumenske barnehjem dukket opp i mediene etter at diktatoren Ceauşescu ble styrtet.

Noen av barna hadde nærmest vokst opp i bur, og det var ingen voksne som hadde snakket med dem. Likevel hadde mange av barna lært seg å snakke.

– Ved å lytte til det folk rundt dem sa til hverandre, hadde de plukket opp bruddstykker av språk. Naturligvis var de ikke like flinke som barn som blir stimulert av foreldrene sine, men de snakket nærmest mirakuløst godt.

– Det var en øyeåpner for meg, sier Peter Juel Henrichsen, førsteamanuensis ved Institut for Internationale Sprogstudier og Vidensteknologi, Copenhagen Business School (CBS).

Historien fikk ham til å sette spørsmålstegn ved den nåværende forskningen om innlæring av språk.

Den tar ofte utgangspunkt i en rekke teoretiske, pedagogiske og fonetiske ideer som ikke tar høyde for at innlæringen av språk foregår uten at barn vet noe som helst om teori og grammatikk, forklarer han.

Henrichsens forskningsgruppe har derfor nærmest startet fra begynnelsen igjen.

Forskningen deres baserer seg særlig på 150 språkprøver, som leses inn i dataprogrammer.

Forskerne arbeider med å forstå hvordan hjernen lærer å identifisere de meningsbærende ordene, selv om de uttales forskjellig avhengig av avsenderen. Akkurat som når et barn lærer å prioritere viktige ord, som mat, fra andre ord.

Målet er å bruke kunnskapen til å finne opp et intelligent høreapparat som kan etterligne evnene i øret og hjernen.

Videnskab.dk som forsøkskanin

Peter Juel Henrichsen lar Videnskab.dks journalist være forsøksperson i et enkelt forsøk i et nesten lydtett rom (ekkofritt) som er isolert med dyner fra gulv til tak.

Eksperimentet handler om å beskrive 13 geometriske figurer som til sammen danner et kors til en annen person (som ikke kan se tegningen). For eksempel:

– Nederst er det en blå firkant. Over firkanten er det en grønn sirkel.

Basert på språkprøven, som er utviklet av Nina Grønnum, kan man blant annet høre at det stor forskjell på hvordan ordet «firkant» uttales når forsøkspersonen regner det som hovedbudskapet, som i den første setningen, og når det sies oppsummerende, som i den andree setningen, hvor «sirkel» er det meningsbærende ordet.

Språkprøven viser at det er stor forskjell på folks personlige stil. Noen går langt mer i detalj enn andre.

– Det utrolige er at øret og hjernen er i stand til å avkode disse helt forskjellige lydene og likevel trekke ut de samme opplysningene, sier Peter Juel Henrichsen.

Programmer på datamaskinen danner en egen akustisk profil, som blant annet avkoder intonasjonen hos hver enkelt når et ord blir tillagt særlig betydning.

Det er stor forskjell på vår personlige stil. Forskeren spiller eksempler.

Forståelsesforsterker

Dagens høreapparater forsterker all lyd like mye. Tunghørte får derfor problemer når mange mennesker snakker samtidig, for eksempel i et selskap.

Hjernen vår sorterer uten problemer viktige opplysningene fra mindre viktige, og den funksjonen vil forskningsgruppen nå kopiere.

Slik ser ordet sirkel ut når det omsettes til grafikk av datamaskinen. X- og Y-verdier svarer til lydens energi i to utvalgte frekvensbånd (800 og 1300 Hz). Fargekodene illustrerer hvilket tempo som brukes i ulike deler av ordet. (Illustrasjon: Peter Juel Henrichsen)
Slik ser ordet sirkel ut når det omsettes til grafikk av datamaskinen. X- og Y-verdier svarer til lydens energi i to utvalgte frekvensbånd (800 og 1300 Hz). Fargekodene illustrerer hvilket tempo som brukes i ulike deler av ordet. (Illustrasjon: Peter Juel Henrichsen)

– Det fungerer allerede i dag: Vi kan spille flere stemmer samtidig og be datamaskinen om å velge ut en bestemt profil, sier Henrichsen.

Det er ikke bare i festsituasjoner bakgrunnsstøy kan være et problem.

Forskerens egen far er tunghørt, og når han for eksempel går ned etter avisen, roper kona etter at ham at han skal «ta med posten opp».

Men de ordene er ikke høyere enn støyen i oppgangen eller på gaten, så det hører han ikke. Det problemet skal det intelligente høreapparatet kunne løse.

På et intelligent høreapparat skal man kunne trykke på en knapp som velger at apparatet nå er stilt inn på for eksempel partnerens akustiske profil.

For som Henrichsen sier:

– Når ens partner sier noe, så er det jo alltid interessant.

Mens det klassiske høreapparatet er en lydforsterker, skal det nye, intelligente høreapparatet være en forsterker av forståelsen og en sorteringsmaskin av den viktigste lyden, forklarer forskeren.

Dyner i øregangen

Danmark har i mange år hatt en ledende posisjon innenfor lydforskning og høreapparater.

Københavns Universitet på Amager ble på 70-tallet bygget rundt et lydtett rom. Det hvilte på vann for å skape optimal akustikk og kostet mange millioner.

I dag er det langt mindre som skal til. «Øregangen», som den smale gangen med kontorer der forskningen på innlæring av tale foregår kalles, ser ganske vanlig ut.

Dynerommet har kostet rundt 2500 kroner. Moderne teknologi har gjort det unødvendig med kostbare konstruksjoner.

– Til disse forsøkene, hvor vi bruker opptak av stemmer, er dynene nok til å sikre kvaliteten av opptakene, sier Henrichsen.

Talens gåte skal omsettes til datamodell

Forskningen i innlæring av tale er grunnforskning og veien til en patent på det intelligente høreapparatet er lang.

Foreløpig er flere funksjoner altfor langsomme. Algoritmene kan ikke bruke mer enn ti millisekunder på å avkode hva som er betydningsfullt i en talestrøm. Så langt har ikke forskerne kommet.

Men flere av de store høreapparatfirmaene er interesserte i prosjektet, og Henrichsen er optimistisk.

– Det er ikke helt urealistisk at vi kan lykkes. Når et spedbarn klarer det, så må vi ha en mulighet, sier han.

___________________

© videnskab.dk. Oversatt av Lars Nygård for forskning.no

Referanse:

DanPASS – Danish Phonetically Annotated Spontaneous Speech