40 millioner ord i boks

I Norge skriver mellom 80 og 95 prosent av befolkningen bokmål. Nå er tekstene våre samlet i en gedigen database slik at vi - og forskerne - kan se hvordan vi faktisk bruker språket vårt.

Korpuset

Et lingvistisk korpus er en gjennomtenkt sammensatt samling av digitalisert språkmateriale, utvalgt etter visse kriterier som er tilrettelagt for søking.

 

Vil du finne ut om det er forskjell på kvinnelige og mannlige journalisters ordvalg i Klassekampens klimaartikler?

Om Lars Saabye Christensen og Dag Solstad bruker like mange adjektiver?

Eller om unge internettskribenter bruker flere engelske ord enn eldre?

Da er det splitter nye bokmålskorpuset noe for deg. Det ble presentert for fullsatt sal av en stolt liten gjeng av leksikografer og ingeniører ved Institutt for lingvistiske og nordiske studier ved Universitetet i Oslo nylig.

De har jobbet iherdig i åtte år, og kan nå tilby både forskere, ordbokmakere og språkinteresserte generelt en gedigen database som kan søkes i via internett.

Man kan søke på enkeltord, sammenstillinger, forfatter, forfatterkjønn, -alder og sosial bakgrunn, teksttype, kontekst, grammatiske opplysninger og så videre. Og selvfølgelig kombinasjoner av disse.

- Endelig er korpuset på plass, sa prosjektleder Ruth Vatvedt Fjeld. - Det er vi veldig stolte av og svært fornøyd med.

Vil utvide med 60 millioner

Bokmålskorpuset består av tekster fra 1985 og fram til i dag, som til sammen utgjør 40 millioner løpeord. Det er det første balanserte korpuset over moderne norsk noensinne.

 

Hver enkelt ord er merket - tagget - med grammatiske opplysninger og opplysninger om forfatter, teksttype og kontekst. Materialet består av rundt 100 000 unike ord (lemmaer eller grunnformer).

- Dette er et godt utgangspunkt, men på sikt ønsker vi å utvike korpuset til 100 millioner løpeord, sier Fjeld.

- Målet er å utvikle en leksikografisk database som kan være utgangspunkt for å lage et uendelig antall norske korpusbaserte ordbøker - som forkortningsordbøker, slangordbøker, fagordbøker, fraseordbøker og så videre, sier hun.

- Med flere tekster og ord i korpuset blir det dessuten lettere å peke på statistisk signifikante trender, påpeker Fjeld.

Tilfeldig

- Til nå har norske ordbøker blitt til ved at leksikografer mer eller mindre tilfeldig har samlet inn ord og lagt til gamle ordbøker. Såkalt akkumulasjonsforskning, forteller Fjeld.

"Ruth E Vatvedt Fjeld (Foto: Universitetet i Oslo)"
"Ruth E Vatvedt Fjeld (Foto: Universitetet i Oslo)"

- Også språknormeringen her til lands har blitt gjort på dette grunnlaget, hevder hun.

- Ved inngangen til det nye årtusenet syntes vi det var på tide at Norge, i likhet med både Sverige, Danmark og Storbritannia, fikk et balansert tekstkorpus som kan dokumentere moderne norsk skriftspråk i sin fulle bredde, forteller Fjeld.

Mange bruksområder

Databasen er tilgjengelig på internett i et brukervennlig grensesnitt. På grunn av rettighetsspørsmål må man få tildelt brukernavn og passord for å kunne gå inn.

Basen kan ikke brukes til kommersielle formål, men alle språkinteresserte kan få tilgang til å søke rundt i basen.

- Vi håper at språkforskere fra mange felt og land vil bruk basen til forskning på norsk språk.

- Vi tror også korpuset vil være svært viktig for dem som driver med språknormering. Her kan Språkrådet finne ut hvordan ulike ord og uttrykk faktisk blir brukt, sier Fjeld.

Snart nye skrivemåter

Språkrådets direktør, Sylfest Lomheim, er enig.

- Dette nye materialet forteller spennende ting om norsk språk, og er ikke minst viktig for normeringsarbeidet. Fornuftig normering må være basert på fakta, sa Lomheim etter presentasjonen på Universitetet i Oslo.

- Språkrådet har samlet opp nye rettskrivningsnormer i flere år nå, og det er ikke lenge før et sett av nye skrivemåter er klare. I arbeidet med dette vil det nye korpuset stå sentralt, sa Lomheim

Balansert tekstsamling

Innsamlingsarbeidet til bokmålskorpuset har gått til ved at Fjeld og hennes medarbeidere har kontaktet forlag, blader, aviser og kjente og ukjente privatpersoner og bedt om å få tekster elektronisk.

Utfordringen har vært å få et balansert materiale, både når det gjelder teksttyper, kjønn på forfatter, og tidsspenn.

Balansen i forhold til teksttyper skal være slik:

- 20 prosent av tekstene fra aviser og ukeblader
- 45 prosent sakprosa-tekster, for eksempel fagbøker
- 25 prosent skjønnlitteratur
- 5 prosent TV-teksting
- 5 prosent upublisert materiale, som for eksempel debattekster fra internett

- Dette gjenspeiler en gjennomsnittsnordmanns lesevaner, og vi er omtrent der nå, sier Fjeld. Hun er særlig fornøyd med at de har greid å få tak i TV-teksting fra NRK.

- Dette er talemålsnære tekster som er svært interessante å ha med.

Bli ordgiver du også!

I tillegg skal materialet være vektet etter kjønn og årstall.

- Materialet er ok når det gjelder kjønn, men når det gjelder tid, er det et par årstall hvor vi har knapt med tekster. Det er 1991 og 1994, forteller Fjeld.

- Jo lenger tilbake man kommer, jo vanskeligere er det å få tak i elektroniske tekster, sier hun. Men at akkurat disse årstallene mangler tekster, er nok tilfeldig.

Har du elektroniske tekster fra disse årstallene? Eller kan du bidra med tekster fra andre årstall? Ruth Vatvedt Fjeld tar gjerne i mot. Ta kontakt: [email protected]

Lenke:

Bokmålkorpuset skal bare brukes til ikke-kommersielle formål (forskning og undervisning). Er dette relevant for deg, kan du søke om tilgang til korpuset her

Powered by Labrador CMS