Nynorsk pressekontor (NPK) oversetter mange
artikler skrevet av NTB fra bokmål til nynorsk. Før gjorde de det manuelt. Ord
for ord, kun med hjelp av stavekontroll.
Så ble en tanke født i 2018. NPK-Journalist Hallvard
Østrem og kollegene tenkte at teknologien hadde kommet langt – så det måtte jo
være mulig å automatisere noe av prosessen og gjøre det enklere?
Flere ord og setninger
Østrem og kollegene undersøkte først
om det var mulig å bruke noen form for maskinlæring for å oversette fra bokmål til
nynorsk. Kunstig intelligens, altså, slik som ChatGPT.
– Da fant vi ut at tekstgrunnlaget var
altfor tynt. Det fantes for lite parallelltekster til det formålet.
Paralleltekster, eller setningspar, er når du har eksempelvis en setning på bokmål og den samme på nynorsk. Det kan brukes i et oversettelsesprogram.
Mye feil i starten
Gjennom programmet Apertium begynte de
jobben med å lage et bedre tekstgrunnlag. Flere ord og flere setninger.
Apertium er et oversettelsesprogram som kan tilpasses etter hvem som bruker
den. Det er gratis og tilgjengelig for alle.
Allerede da NPK startet arbeidet var det muligheter for å
oversette fra bokmål til nynorsk i programmet, men omtrent 12 prosent av
det som ble oversatt, var feil.
– Siden da har vi jobbet møysommelig
med å forbedre oversettelsen, sier Østrem.
Alle justeringene er sendt inn til
Språkbanken hos Nasjonalbiblioteket. Der har de nå passert en million setningspar med nynorsk.
Kompetente nynorskbrukere finner
fortsatt feil
I tekstene som NPK oversetter er de nå nede på omtrent en prosent feil. Det er et grovt overslag, understreker Østrem.
Det er takket være denne millionen med setningspar på bokmål og nynorsk som er innarbeidet i oversetteren.
Vi legger inn en lenke i programmet og
får det til å oversette en hel forskning.no-side. Det ser ut som korrekt
nynorsk. Østrem anbefaler likevel å korrekturlese tekstene som blir
oversatt.
– En kompetent nynorskbruker vil finne
en del feil og noen halvfeil, altså ord og uttrykk som ikke er den
beste løsningen, men som formelt kan være korrekt.
Begynnelsen på slutten for nynorsken?
Roboten gjør det lettere å oversette
fra bokmål til nynorsk. Som journalist vil man ikke være nødt til å skrive
nynorsk selv for å kunne publisere en artikkel på nynorsk.
Annonse
På samme måte vil elever i skolen
kunne skrive en nynorsk innlevering på bokmål, for så å få den oversatt til
nynorsk.
– Vi vet at vi har forstyrret
norskundervisningen i skolen med dette, sier Østrem. Diskusjonen går om hvordan
elevene skal bruke den nye teknologien.
Kan forbedrede oversettelsesprogrammer
bety slutten for nynorsken – når folk med bokmål som hovedmål ikke behøver å
praktisere sidemålet i like stor grad?
Mer effektiv oversettelse = mer
nynorsk?
– Målet vårt er å utbre nynorsken, og
en sånn robot kan jo føre til at det blir mer synlig nynorsk i samfunnet. Vi tror allerede den har hatt noe av den effekten.
Han forklarer det med at det blir
mulig å produsere mer nynorsk på kortere tid.
Østrem sier det har vært et problem å
skaffe lærebøker på nynorsk. Loven
sier at alle læremidler skal finnes på begge målformer.
– Nynorskutgaven har gjerne kommet lenge etter bokmålsutgaven. En slik robot kan
gjøre at oversettelsesarbeidet går mye fortere.
I tillegg blir det lettere for folk
med liten kompetanse i nynorsk å få til en brukbar tekst, poengterer han.
– Noen lærere har ment at det må bli
slutt på sidemål. Da mener de gjerne nynorsk og ikke andre veien. Andre lærere har
brukt den mer konstruktivt og tatt den i bruk som læremiddel. Det er det vi
liker best, sier Østrem.
Frykter ikke tøff konkurranse
De siste månedene har mange blitt
kjent med ChatGPT. Kunstig intelligens som kan produsere tekst, men også
oversette. En spennende utvikling, syns Østrem.
Annonse
Han frykter ikke at slike programmer
vil utkonkurrere nynorskroboten med det første.
– Slik vi ser det, er ikke ChatGPT god
eller pålitelig. Det kan være veldig variabel kvalitet på den, så vi tror ikke
den vil utkonkurrere vår robot på noen måte.
– Nynorsken trenger statlige midler
Alt tekstmaterialet fra Nynorsk Pressekontor går til forskningsbibliotekar Magnus Breder Birkenes og kollegene hans i Språkbanken på Nasjonalbiblioteket.
Han tilrettelegger materialet slik at det kan brukes i utvikling av mer språkteknologi, for eksempel i automatisk oversettelse mellom bokmål og nynorsk.
– Tanken med ressursen fra vår side er å muliggjøre bedre språklige modeller og å få opp nynorskandelen. Det mangler interesse for å støtte nynorsk blant store kommersielle selskaper, og for å opprettholde støtte for nynorsk må det derfor komme inn statlige midler, sier Birkenes til forskning.no.
– Jo mer materiale, desto bedre
Nasjonalbiblioteket har store tanker for hva slags språklige modeller de kan bruke materialet til – i tillegg til oversettelsesprogrammet som allerede er tilgjengelig for alle.
– Tanken fra vår side med tekstbanken er å bruke den til å lage andre oversettelsesmotorer, men også at den kan være en bestanddel i en stor språkmodell. Jo mer materiale, jo bedre.
En slik språkmodell kalles large language model på engelsk.
En large language model er en form for kunstig intelligens. Slik som ChatGPT. Sistnevnte har fortsatt litt å gå på når det kommer til nynorskkunnskaper, skal vi tro Østrem i NPK.
Skal bli mulig å snakke dialekt til teknologien
Annonse
Potensialet strekker seg også utenfor oversettelse av tekst, skal vi tro Birkenes.
– En ting er å forstå tekst og skriftspråk. En større utfordring historisk har vært å forstå hva folk sier muntlig på ulike dialekter eller barn kontra voksne og slike ting, sier han.
Nasjonalbiblioteket har lagt ned mye arbeid for å få talegjenkjenning til å forstå for eksempel trøndersk.
Det kan være viktig for eldre som ikke er så godt kjent med talegjenkjenning at den skjønner deres egen dialekt, forklarer språkteknolog Per Erik Solberg i artikkelen.
– Store og små bedrifter skal utvikle teknologi som skal virke på norsk. Teknologien skal forstå tekst og tale. Byggesteinene for å få til det kan de hente i vår ressurskatalog, sier Birkenes.
Søk etter bedrifter, få treff på verksemder
– En annen ting man kan gjøre med denne ressursen er å lage en ordbok mellom bokmål og nynorsk.
Det kan igjen eksempelvis brukes til å lage parallellsøk på en nettside, sier han.
Om du for eksempel vil søke etter «bedrift», kan du også få treff på «verksemd».
– Det har vært et stort ønske i mange år, men få statlige organer har det implementert.
Det er en ressurs som de håper å ha ferdig innen neste år. I første omgang er det snakk om pilotprosjekt i samarbeid med Språkrådet.
– Språkbanken begynner å bli ganske omfattende, sier Birkenes.
Annonse
Språkbanken er spesielt rettet mot studenter, språkforskere og bedrifter som lager språkteknologi. Slik som talegjenkjenning.
I alt har de omtrent 80 ulike ressurser for norsk. Det er for eksempel store tekstsamlinger, ordbøker og uttaleleksikon som er fritt tilgjengelig for alle. I det hele tatt: Du finner etter hvert de aller fleste ord, uttrykk og varianter av norsk språk hos Nasjonalbiblioteket.
I midten av dette kartet er nynorskens episenter, Møre og Romsdal fylke. Der har nesten halvparten nynorsk som hovedmål. Svært tett på følger Vestland fylke i sør.
Katten til naboen
Fortsatt er det mer å jobbe med,
sier Østrem. Spesielt gjelder det lavfrekvente ord og uttrykksmåter – altså slike som brukes sjelden.
Det kan også være en utfordring med å
oversette substantiv med s-genitiv fra bokmål til nynorsk. Som «naboens katt».
For når bokmål skal gjøres om til nynorsk må denne s-en iblant byttes ut med en preposisjon.
Altså ord som til, på, i, hos, under og over. «Naboens katt» blir «Katten til naboen» på nynorsk. Men det er et vell av preposisjoner,
og roboten sliter noen ganger med å finne det rette.
– Veldig ofte er det en annen
preposisjon som er riktig, og hvis vi skal få til det må vi lage regler for
nesten hvert substantiv i norsk, sier Østrem.
Den utfordringen skal han jobbe
med i tiden som kommer, og han har en tanke om at kunstig intelligens kanskje
kan være til hjelp her.
Språkrådet tror ikke nynorsken vil dø
Kristine Eide jobber som seniorrådgiver i Språkrådet. Hun er positiv til NPK og Nasjonalbibliotekets prosjekt.
– Språkrådet har støttet opp om dette prosjektet nettopp fordi det som ligger åpent tilgjengelig på Apertium-plattformen. Det er et produkt vi trenger og som vi kan nyte godt av alle sammen, sier Eide.
Spesielt glad er hun for at dataene fra NPK gjøres offentlig tilgjengelig i Språkbanken.
– Noe av det vi syns er aller viktigst at man deler språkdataene man har. Fra før har vi ikke veldig mye nynorskdata.
Hun er ikke bekymret for at moderne programmer for oversettelse vil ta knekken på nynorsken. Snarere tvert imot.
– Må fortsatt kunne nynorsk
– Hvis du bruker den automatiske oversettelsen, må du korrekturlese uansett hva slags tekst du produserer, sier Eide.
Det vil ikke bli mulig å ikke kunne nynorsk når man skal produsere en artikkel eller skoleoppgave, mener hun.
– Du må uansett lese over og rette opp de feilene som er.
Det blir andre type feil enn de som et menneske lager. Derfor fanges de kanskje ikke opp av en maskinell korrekturleser heller.
– Det blir ikke stavefeil, men den kan misforstå bokmålsord og oversette med et helt annet ord enn den burde. Derfor fanges de kanskje ikke opp av en maskinell korrekturleser heller.
Det samme gjelder fra engelsk til norsk, poengterer hun. Det har du sikkert sett selv i Google oversetter.
Også Språkrådet tror det blir mer nynorsk
Eide trekker frem den samme fordelen som Birkenes og Østrem nevner: De som skal produsere nynorsk, kan gjøre det mer effektivt.
– Når for eksempel NRK bruker denne kan de publisere flere saker på nynorsk på kortere tid. I tillegg til at journalistene skriver egne saker på nynorsk, kan det da til sammen bli mer nynorsk i mediene.
Eide er ikke ukjent med at folk er skeptiske til hva den nye teknologien vil gjøre både med språket og generelt med undervisning i skolen.
– Det er ingen som ser for seg en skole hvor man ikke lærer å skrive og resonnere selv. Det at noen elever vil bruke ChatGPT eller nynorskroboten på eksamen, er selvfølgelig et problem man må løse. Men når vi først har teknologien, er det viktig at den er så god som mulig – på norsk.
– Kjenner språket vårt best selv
Eide og Språkrådet vil at det skal finnes like god språkteknologi for nynorsk som bokmål.
– Store, internasjonale selskaper tilpasser seg ikke den norske språksituasjonen, i den grad de overhodet kjenner til den. Google translate skiller ikke engang mellom bokmål og nynorsk.
Hun tror bedre løsninger for oversettelse vil gi oss teknologi med bedre språk. I Apertium kan du for eksempel velge om du vil ha bokmålet oversatt til nynorsk med e- eller a-infinitiv.
Vi kjenner språket vårt best selv, sier Eide og derfor mener hun det er positivt med språkteknologi som er lokalprodusert.
– Det er viktig med norskprodusert språkteknologi som tar høyde for norske forhold. Vi må nok lage den selv, for det er ingen andre som gjør det på våre premisser, sier Eide. Hun slår et slag for norsk forskning på og utvikling av språkteknologi.
– Det er viktig at det er så åpent som mulig, og Apertium åpner for at andre aktører kan gå inn og lage sine egne oversettelsesløsninger.
Kan vi i fremtiden velge skriftspråket vi liker best?
Når du legger inn en lenke til en nettside i Apertium, får du alt oversatt. Du kan klikke deg videre fra en artikkel til en annen på forskning.no eller NRK. Plutselig er alt nynorsk.
– Hvis vi bare hadde hatt en oversettelses-knapp på NRK, ville vel alle blitt fornøyd – nynorskbrukere får alt på nynorsk, bokmålsbrukere alt på bokmål?
– Det er ikke spesielt heldig, sier Eide.
– Vi lever i et land med to skriftspråk, og det er viktig at alle møter begge skriftspråkene. Nynorsk skal ikke bli et fremmedspråk.