Annonse

DENNE ARTIKKELEN ER PRODUSERT OG FINANSIERT AV nasjonalbiblioteket - LES MER.

I talegjenkjenning blir lyd først omdannet til en visuell versjon av lyden. Det hjelper datamaskiner med å forstå og oversette tale til tekst.

Nå tekster kunstig intelligens norsk tale nesten like godt som et menneske

De nyeste systemene for talegjenkjenning forstår alle norske dialekter godt og er snart på høyde med mennesker i å gjøre norsk tale om til tekst. 

Publisert

Dette vil kunne lette arbeidet og frigjøre store ressurser i både privat og offentlig sektor. 

Store mengder materiale vil raskt og enkelt kunne gjøres tilgjengelig for mennesker med funksjonsnedsettelser.

Det er Språkbanken ved Nasjonalbiblioteket som har testet hvor gode systemer for talegjenkjenning er til å transkribere norsk tale til bokmål og nynorsk. Dette er gjort på oppdrag fra Språkrådet.

Kvalitetshopp 

De siste par årene har det skjedd et kvalitetshopp i norsk talegjenkjenning basert på kunstig intelligens (KI).

– Ny teknologi og økt tilgang på norske treningsdata gjør at de beste systemene nå transkriberer veldig godt både på bokmål og nynorsk. De får en mye bedre score enn noen systemer har fått tidligere, sier språkteknolog ved Nasjonalbiblioteket, Marie Iversdatter Røsok.

– Dette er revolusjonerende fordi systemene på en måte ikke transkriberer det man sier, men det man mener, sier språkteknolog Marie Iversdatter Røsok.

Testen viser at faktorer som dialekt, kjønn, bakgrunnsstøy og dårlig opptakskvalitet hadde lite å si for resultatet. Dette ville tidligere påvirket talegjenkjenningen.

– Det overrasket oss hvor godt systemene håndterte dette, sier Røsok. 

– Det som gjenstår, og som trekker resultatene ned, er overlappende tale. Det vil si vanlige samtaler hvor flere personer snakker fritt sammen, forteller hun. 

Henter ut meningen i det du sier

Nasjonalbibliotekets språkmodeller, NB-Whisper, viser seg å produsere de beste transkripsjonene på begge målformer. Disse modellene er basert på Whisper-teknologien. Den kommer fra OpenAI. Det er de samme som står bak ChatGPT.

– Det som er veldig spennende med systemene basert på Whisper-teknologien, er at de gir oss undertekstlignende transkripsjoner. De klarer å omforme ustrukturerte, talte setninger til kortere, grammatisk riktige setninger som allikevel gjengir meningsinnholdet godt. Dette er revolusjonerende. Systemene transkriberer på en måte ikke det man sier, men det man mener, sier Røsok.

Det finnes mange eksempler på dette i testen. Her er et av dem:

Sagt i testsettet: «Og da var min bror og pappa der inne hos mamma, og så ringte de etter en time og sa at nå må du komme.»

NB-Whisper sin transkripsjon: «Min bror og pappa var hos mamma. De ringte etter en time og sa at jeg måtte komme.»

– Her ser vi at systemet snur perspektivet, omformulerer og gjengir meningsinnholdet med færre ord. Det er ganske imponerende, sier Røsok.

Automatisk teksting

 De undertekstlignende transkripsjonene gjør det mulig å ta i bruk automatisk teksting. Det både letter arbeid og frigjør ressurser.

– Selv om systemer som gjengir talen nøyaktig, hadde transkribert alle ord helt perfekt, måtte man allikevel omformet det til kortere, grammatisk riktige setninger for at de skulle fungere som undertekst, sier Røsok. 

– Det at vi nå har undertekstlignende transkripsjoner gjør at vi ikke trenger det.

Viktig for universell utforming

Pålitelig automatisk transkripsjon for norsk gjør at materiale på en enkel og billig måte vil kunne tekstes samtidig som det publiseres. Dette er svært viktig for universell utforming.

– Muligheten for å ta i bruk automatisk teksting vil kunne utgjøre en enorm forskjell for mennesker med funksjonsnedsettelser. Det er både med hensyn til hvor mye materiale som tekstes og hvor raskt de vil få tilgang på det, sier Marie Iversdatter Røsok.

Flere systemer vil fortsatt transkribere ordrett.

– Nå har vi både systemer som transkriberer ordrett og systemer som gir undertekstlignende transkripsjoner. Det betyr at man kan bruke forskjellige systemer til forskjellig bruk. I fremtiden vil vi mest sannsynlig se at systemene blir mer spesialiserte innenfor ulike områder, sier Røsok.

Dette kan bli bedre

  • Systemer som støtter begge skriftspråk, produserer av og til nynorskord når de skriver bokmål eller bokmålsord når de skriver nynorsk.
  •  Lydfiler med overlappende tale blir gjennomgående dårligere transkribert enn lydfiler hvor det er én som snakker om gangen.
  • Systemene er bedre på noen dialekter enn andre. Dette gjelder særlig for transkripsjoner til nynorsk, der nynorsknære dialekter blir transkribert bedre enn bokmålsnære.
  • Systemene som produserer ikke-ordrette transkripsjoner fjerner noen ganger for mye av det som opprinnelig ble sagt.
  • Noen systemer hallusinerer, det vil si at de produserer transkripsjoner som ikke samsvarer med lydfila, eller fletter inn ord på andre språk enn norsk.

Tilgjengelighet

NB-Whisper er fritt tilgjengelig for alle som utvikler apper for talegjenkjenning. VG har allerede lagt den inn i sin app Jojo. Den kan lastes ned gratis til Mac.

Mel-spektogram er grafisk framstilling av lyd

I talegjenkjenning omformes først tale til et mel-spektogram. Det er en visuell framstilling av lyd som forsøker å etterligne hvordan mennesker oppfatter lyden. Dette skaper en rik, visuell representasjon av lyden som maskinlæringsmodellen kan bruke for å omdanne tale til tekst. 

 

Powered by Labrador CMS