DENNE ARTIKKELEN ER PRODUSERT OG FINANSIERT AV nasjonalbiblioteket - LES MER.

Nasjonalbiblioteket deler kunstig intelligens som skjøner norske dialekter og gjer tale om til tekst
– Dette sikrar at kunstige intelligensar, språkmodellar og reiskap for alt frå helse til utdanning fungerer på norsk i framtida, seier nasjonalbibliotekar Aslak Sira Myhre.
På Nasjonalbiblioteket har dei dei siste åra jobba med å lage eit såkalla språkkorpus som gjer at kunstige intelligensar, talemaskinar og omsetjingsprogram kan skjøne norsk.
Eit språkkorpus er ei avgrensa mengde med tekst og/eller tale. Det kan til dømes vere alle aviser gitt ut i Noreg frå eit årstal til eit anna eller alle Dagsnytt 18-sendingane i eit visst tidsrom.
Nasjonalbiblioteket sit på eit enormt språkkorpus, med alt dei har digitalisert av det som er publisert i Noreg gjennom tidene i aviser, bøker, radio og så vidare.
Fritt tilgjengeleg
No har dei brukt desse ressursane til å trene opp eit program for automatisk konvertering av norsk tale til tekst.
Maskinlæringsprogrammet NB Whisper har ei betre forståing av norsk tale og norske dialekter enn liknande program som har vore utvikla fram til no.
– Dette
er eit viktig arbeid for å sikre at kunstige intelligensar, språkmodellar og
reiskap for alt frå helse til utdanning fungerer på norsk i framtida, seier
nasjonalbibliotekar Aslak Sira Myhre.
Programmet, som er ein ny modell av Whisper, er no fritt tilgjengeleg i ein betaversjon.
– Vi deler alt vi gjer. Dermed vert dei ressursane vi lagar, ei plattform for utvikling av norsk språk i maskinane si verd. Språkmodellen er langt frå feilfri, men han er betre rusta til å forstå norsk tale og dialekter enn andre program som er tilgjengelege, seier nasjonalbibliotekaren.
Kan forbetre program for transkripsjon
Han seier dei ønskjer at så mange som mogleg vil ta han i bruk, gje tilbakemeldingar og med det bidra til å gjere han enda betre.
Aslak Sira Myhre vonar at universitet, offentleg sektor og private aktørar vil ta i bruk NB Whisper. Norske mediebedrifter kan nytte modellen til å forbetre transkripsjonsprogram dei sjølve har utvikla.
Nasjonalbiblioteket ønskjer å bruke programmet for å gjere samlinga enda meir tilgjengeleg for publikum.
– Vi har eit håp om å bruke denne modellen på våre eigne arkiv. Om vi til dømes kan transkribere radioarkivet, vil det bli søkbart. Dermed blir det opent på ein heilt annan måte for folk, seier Sira Myhre.
Nasjonalbibliotekets arbeid med språkteknologi
Nasjonalbiblioteket bidreg til å utvikle språkteknologi som det ville vore svært kostnadskrevjande for dei store teknologiselskapa å gjere sjølve.
Arbeidet med ressursar på norsk er eit viktig språkpolitisk verktøy. Det sikrar at digitale tenester og programvarer finst på norsk – som har eit stort mangfald av dialekter og i verdssamanheng er eit veldig lite språk.
Nasjonalbiblioteket har òg trent ein modell for å støtta nordsamisk språk. Så langt har dei for lite data til at modellen yter like godt som på bokmål og nynorsk.
Les også disse sakene fra Nasjonalbiblioteket:
-
Sovjetiske spionkart over Norge avslører omfattende etterretning og mystiske tabber
-
Hvordan sang de på 1600-tallet?
-
I middelalderen var øst øverst på kartet – og folk trodde ikke at jorden er flat
-
Nå tekster kunstig intelligens norsk tale nesten like godt som et menneske
-
Nå skriver norsk-tamilene sin egen historie
-
Vibeke Løkkebergs ukjente dokumentarfilm møter publikum etter 50 år
forskning.no vil gjerne høre fra deg!
Har du en tilbakemeld ing, spørsmål, ros eller kritikk? TA KONTAKT HER