Lager dataprogram som kjenner igjen alle språk

Ny teknologi som gjør at datamaskiner kjenner igjen alle språk, uten at de må lære hvert språk først, kan revolusjonere automatisk talegjenkjenning.

Denne artikkelen er over ti år gammel og kan inneholde utdatert informasjon.

Flere kan allerede snakke med mobilen sin. (Foto: Shutterstock)

Om prosjektet

Prosjektet «Spoken Information Retrieval by Knowledge Utilization in Statistical speech processing – SIRKUS» har hatt støtte fra Forskningsrådets program VERDIKT fra 1.9.2006 til 31.12.2011.

Prosjektleder: Torbjørn Svendsen ved Institutt for elektronikk og telekommunikasjon ved Norges teknisk-naturvitenskapelige universitet (NTNU).

VERDIKT

Forskningsrådets program VERDIKT (Kjernekompetanse og verdiskaping i IKT) fremmer forskning og utvikling av IKT-løsninger som kan møte utfordringer knyttet til bl.a. klima og miljø, energibehov, verdiskaping, eldrebølge, helse og velferd.

Dersom maskiner blir bedre til å gjenkjenne det vi sier, kan vi diktere maskinen istedenfor å bruke tastatur.

Teknologien kan også brukes til å søke i lydarkiv, noe det er et økende behov for etter som bruken av lydfiler og film på internett, øker.

Talegjenkjenning er vanskelig fordi vi uttrykker oss annerledes muntlig enn skriftlig.

I tillegg kan det være store variasjoner fra person til person blant annet på grunn av ulike dialekter.

Forskere har jobbet med automatisk talegjenkjenning (automatic speech recognition – ASR) i femti år.

Gjør mer feil enn mennesker

– Det har skjedd en enorm utvikling innenfor talegjenkjenning i løpet av denne perioden, først og fremst på grunn av at vi har fått mer taledata til å trene opp maskinen med og kraftigere maskiner, forteller professor Torbjørn Svendsen ved NTNU.

Svendsen viser til iPhone-appen Siri, som gjør at vi kan bruke stemmen og stille spørsmål til mobilen på samme måte som til et menneske, uten å være avhengig av streng syntaks og stil.

For eksempel vil spørsmålet «The weather tomorrow?» gi opplysninger om morgendagens vær der du er. Et «dummere» system ville ha krevd en spørsmålsstilling som «What is the weather forecast for Trondheim tomorrow?».

Det som gjør Siri så enkel å bruke, er ifølge Svendsen at det ligger en mengde intelligent programmering bak.

– Nå ser vi imidlertid at forbedringene begynner å stoppe opp, og på så godt som alle områder gjør maskiner ti ganger så mange feil som mennesker. Derfor har vi sett etter alternative måter å løse problemet på, forteller Svendsen.

Produserer lyd likt

I framtida kan du også bruke tale for å finne det du leter etter. (Foto: Shutterstock)

Sammen med forskerkolleger har Svendsen i et prosjekt støttet av Forskningsrådet, testet ut en helt ny tilnærming for å utvikle neste generasjons talegjenkjenningsteknologi.

De har vist at den grunnleggende måten å produsere tale på er lik for alle språk. Derfor vil deres teknologi kunne brukes for alle språk uten at talegjenkjenneren må læres opp med taledata fra hvert enkelt språk slik de må i dag.

Forskerne har tatt utgangspunkt i fonetikken, det vil si læren om hvordan tale og lyd produseres. I tillegg har de gitt systemet mer kunnskap om tale og språk, som sammenhengen mellom lydfrekvens og ord og hvordan vi setter sammen ord til setninger.

Når vi snakker, er det taleorganet som produserer lyden. Måten vi bruker leppene, tungen, kjeven og stemmebåndet på, bestemmer hvilke lyder vi lager. Ved å identifisere hvilke produksjonstrekk som er til stede, kan vi gjenkjenne hva som sies.

– Vi får datamaskinen til å finne ut hvilke deler av taleorganet som er i aktivitet ut fra analyse av den akustiske trykkbølgen som fanges av mikrofonen, forteller Svendsen.

To tidligere tilnærminger

Det har hittil vært vanlig å lage talegjenkjenningssystem med to ulike tilnærminger. Begge baserer seg på bruk av en mengde taledata og tekst for å lære datamaskinen å gjenkjenne ulike språk.

Den ene tilnærmingen er at mennesker observerer ord og lyder og trekker ut regler som de legger inn på datamaskinen. Om en lyd er stemt eller ikke avhenger for eksempel av om stemmebåndet vibrerer.

– Hvis vi for eksempel analyserer et lite utsnitt av tale og finner ut at det er stemt og at talen har resonanstopper ved 750 og 1200 hertz (Hz), er det trolig at lyden er en a. Hvis resonanstoppene ligger ved 350 og 800 Hz er det trolig at lyden er en u, forklarer Svendsen.

Den andre tilnærmingen er å la datamaskinen selv lære av en stor mengde eksempler.

– I en slik statistisk tilnærming er i utgangspunkt alle hendelser like sannsynlige. Etter hvert som maskinlæringen skrider fram, vil hyppig forekommende hendelser få økt sannsynlighet mens sjeldent forekommende hendelser vil få redusert sannsynlighet, sier Svendsen.

– Ved en slik tilnærming kan man benytte mye mer taledata enn når man baserer seg på menneskelige observasjoner, for det er begrenset hvor mye mennesket kan tolke, sier Svendsen.

Klassifiserer lydene

Torbjørn Svendsen. (Foto: NTNU)

Svendsen og hans kolleger har valgt å legge seg et sted midt imellom disse to tilnærmingene.

– Vi har tro på den statistiske tilnærmingen. Det er imidlertid en viss lovmessighet i hvordan vi snakker i det virkelige liv, sier Svendsen.

De legger inn kunnskapen om dette for å lage regler i maskinlæringen.

Mye variasjon i tale er naturlig på grunn av at vi blant annet har ulik fysiologi, dialekt, utdanning og helsetilstand. Alt dette påvirker stemmen vår og hvordan vi bygger opp setninger. For at maskinen skal forstå tale må den håndtere de vanligste variasjonene i normaltale og språk.

– Vi lager et dataprogram som finner sannsynligheten for om ulike produksjonstrekk slik som om stemmebåndet vibrerer, er til stede eller ikke. På den måten klassifiserer vi lyder, utdyper han.

Avslører språk på sekunder

Nå vil Svendsen jobbe videre sammen med internasjonale samarbeidspartnere for å utvikle en språkuavhengig modell som kan brukes for å lage konkurransedyktige talegjenkjenningsprodukter.

– Det vil være både tids- og kostnadsbesparende, ikke minst for små språk som vårt eget. Her i landet har vi råd til å kjøpe oss løsninger som koster litt, men det finnes veldig mange andre språk med bare noen få millioner brukere som vil ha glede av en slik teknologi, sier Svendsen.

Teknologien vil dessuten kunne brukes i tilfeller der man blander språk fordi den trenger bare fra tre til tretti sekunder for å avgjøre hvilket språk det er.

– I Norge blander vi ikke inn så mye andre språk, det er verre i Danmark, men det kan også brukes der man har sitater på originalspråk innimellom. I tillegg kan det være nyttig i etterretningsarbeid for å finne ut hvilket språk en person snakker.

Powered by Labrador CMS