DENNE ARTIKKELEN ER PRODUSERT OG FINANSIERT AV nasjonalbiblioteket - LES MER.
I talegjenkjenning blir lyd først omdannet til en visuell versjon av lyden. Det hjelper datamaskiner med å forstå og oversette tale til tekst.(Foto: Rudi Pedersen / Nasjonalbiblioteket)
Nå tekster kunstig intelligens norsk tale nesten like godt som et menneske
De nyeste systemene for talegjenkjenning forstår alle norske dialekter godt og er snart på høyde med mennesker i å gjøre norsk tale om til tekst.
Dette vil kunne lette arbeidet og frigjøre store ressurser i både privat og offentlig sektor.
Store mengder materiale vil raskt og enkelt kunne gjøres tilgjengelig for mennesker med funksjonsnedsettelser.
Det er Språkbanken ved
Nasjonalbiblioteket som har testet hvor gode systemer for talegjenkjenning er til å transkribere norsk tale til bokmål og
nynorsk. Dette er gjort på oppdrag fra Språkrådet.
Kvalitetshopp
De siste par årene har det skjedd et kvalitetshopp i norsk talegjenkjenning
basert på kunstig intelligens (KI).
– Ny teknologi og økt tilgang på norske
treningsdata gjør at de beste systemene nå transkriberer veldig godt både på
bokmål og nynorsk. De får en mye bedre score enn
noen systemer har fått tidligere, sier språkteknolog ved
Nasjonalbiblioteket, Marie Iversdatter Røsok.
Testen viser at faktorer
som dialekt, kjønn, bakgrunnsstøy og dårlig opptakskvalitet hadde lite å si for resultatet. Dette ville tidligere påvirket talegjenkjenningen.
– Det overrasket oss
hvor godt systemene håndterte dette, sier Røsok.
– Det som gjenstår, og som
trekker resultatene ned, er overlappende tale. Det vil si vanlige samtaler hvor
flere personer snakker fritt sammen, forteller hun.
Henter ut meningen
i det du sier
Nasjonalbibliotekets språkmodeller, NB-Whisper, viser seg å produsere de beste
transkripsjonene på begge målformer. Disse modellene er basert på Whisper-teknologien. Den kommer fra OpenAI. Det er de samme som
står bak ChatGPT.
– Det som er veldig
spennende med systemene basert på Whisper-teknologien, er at de gir oss
undertekstlignende transkripsjoner. De klarer å omforme ustrukturerte, talte
setninger til kortere, grammatisk riktige setninger som allikevel gjengir
meningsinnholdet godt. Dette er revolusjonerende. Systemene transkriberer på en måte
ikke det man sier, men det man mener, sier Røsok.
Det finnes mange
eksempler på dette i testen. Her er et av dem:
Sagt i testsettet: «Og
da var min bror og pappa der inne hos mamma, og så ringte de etter en time og
sa at nå må du komme.»
NB-Whisper sin
transkripsjon: «Min
bror og pappa var hos mamma. De ringte etter en time og sa at jeg måtte komme.»
– Her ser vi at systemet
snur perspektivet, omformulerer og gjengir meningsinnholdet med færre ord. Det
er ganske imponerende, sier Røsok.
Automatisk teksting
De undertekstlignende transkripsjonene gjør det mulig å ta i bruk automatisk
teksting. Det både letter arbeid og frigjør ressurser.
Annonse
– Selv om systemer som gjengir talen nøyaktig, hadde transkribert
alle ord helt perfekt, måtte man allikevel omformet det til kortere, grammatisk
riktige setninger for at de skulle fungere som undertekst, sier Røsok.
– Det at
vi nå har undertekstlignende transkripsjoner gjør at vi ikke trenger det.
Viktig for universell utforming
Pålitelig automatisk transkripsjon for norsk gjør at materiale på
en enkel og billig måte vil kunne tekstes samtidig som det publiseres. Dette er
svært viktig for universell utforming.
– Muligheten for å ta i bruk automatisk teksting vil kunne utgjøre
en enorm forskjell for mennesker med funksjonsnedsettelser. Det er både med hensyn til
hvor mye materiale som tekstes og hvor raskt de vil få tilgang på det, sier
Marie Iversdatter Røsok.
Flere systemer vil
fortsatt transkribere ordrett.
– Nå har vi både systemer som transkriberer ordrett og systemer
som gir undertekstlignende transkripsjoner. Det betyr at man kan bruke
forskjellige systemer til forskjellig bruk. I fremtiden vil vi mest
sannsynlig se at systemene blir mer spesialiserte innenfor ulike områder, sier
Røsok.
Dette kan bli bedre
Systemer
som støtter begge skriftspråk, produserer av og til nynorskord når de skriver
bokmål eller bokmålsord når de skriver nynorsk.
Lydfiler med
overlappende tale blir gjennomgående dårligere transkribert enn lydfiler hvor det
er én som snakker om gangen.
Systemene er bedre på
noen dialekter enn andre. Dette gjelder særlig for transkripsjoner til nynorsk,
der nynorsknære dialekter blir transkribert bedre enn bokmålsnære.
Systemene som
produserer ikke-ordrette transkripsjoner fjerner noen ganger for mye av det som
opprinnelig ble sagt.
Noen systemer
hallusinerer, det vil si at de produserer transkripsjoner som ikke samsvarer
med lydfila, eller fletter inn ord på andre språk enn norsk.
Tilgjengelighet
NB-Whisper er fritt tilgjengelig for alle som utvikler
apper for talegjenkjenning. VG har allerede lagt den inn i sin app Jojo. Den kan lastes ned gratis til Mac.
Mel-spektogram er grafisk framstilling av lyd
I talegjenkjenning omformes først tale til et mel-spektogram. Det er en visuell framstilling av lyd som forsøker å etterligne hvordan mennesker
oppfatter lyden. Dette skaper en rik, visuell representasjon av lyden som
maskinlæringsmodellen kan bruke for å omdanne tale til tekst.