Oppdag våre andre nettsteder:

Du leter kanskje etter...

Oppdag våre andre nettsteder:

40 millioner ord i boks

I Norge skriver mellom 80 og 95 prosent av befolkningen bokmål. Nå er tekstene våre samlet i en gedigen database slik at vi - og forskerne - kan se hvordan vi faktisk bruker språket vårt.

Susanne Moen Stephansen frilansjournalist

mandag 18. februar 2008 - 05:00

Denne artikkelen er over ti år gammel og kan inneholde utdatert informasjon.

Korpuset

Et lingvistisk korpus er en gjennomtenkt sammensatt samling av digitalisert språkmateriale, utvalgt etter visse kriterier som er tilrettelagt for søking.

Vil du finne ut om det er forskjell på kvinnelige og mannlige journalisters ordvalg i Klassekampens klimaartikler?

Om Lars Saabye Christensen og Dag Solstad bruker like mange adjektiver?

Eller om unge internettskribenter bruker flere engelske ord enn eldre?

Da er det splitter nye bokmålskorpuset noe for deg. Det ble presentert for fullsatt sal av en stolt liten gjeng av leksikografer og ingeniører ved Institutt for lingvistiske og nordiske studier ved Universitetet i Oslo nylig.

De har jobbet iherdig i åtte år, og kan nå tilby både forskere, ordbokmakere og språkinteresserte generelt en gedigen database som kan søkes i via internett.

Man kan søke på enkeltord, sammenstillinger, forfatter, forfatterkjønn, -alder og sosial bakgrunn, teksttype, kontekst, grammatiske opplysninger og så videre. Og selvfølgelig kombinasjoner av disse.

- Endelig er korpuset på plass, sa prosjektleder Ruth Vatvedt Fjeld. - Det er vi veldig stolte av og svært fornøyd med.

Vil utvide med 60 millioner

Bokmålskorpuset består av tekster fra 1985 og fram til i dag, som til sammen utgjør 40 millioner løpeord. Det er det første balanserte korpuset over moderne norsk noensinne.

Hver enkelt ord er merket - tagget - med grammatiske opplysninger og opplysninger om forfatter, teksttype og kontekst. Materialet består av rundt 100 000 unike ord (lemmaer eller grunnformer).

- Dette er et godt utgangspunkt, men på sikt ønsker vi å utvike korpuset til 100 millioner løpeord, sier Fjeld.

- Målet er å utvikle en leksikografisk database som kan være utgangspunkt for å lage et uendelig antall norske korpusbaserte ordbøker - som forkortningsordbøker, slangordbøker, fagordbøker, fraseordbøker og så videre, sier hun.

- Med flere tekster og ord i korpuset blir det dessuten lettere å peke på statistisk signifikante trender, påpeker Fjeld.

Tilfeldig

- Til nå har norske ordbøker blitt til ved at leksikografer mer eller mindre tilfeldig har samlet inn ord og lagt til gamle ordbøker. Såkalt akkumulasjonsforskning, forteller Fjeld.

"Ruth E Vatvedt Fjeld (Foto: Universitetet i Oslo)"

- Også språknormeringen her til lands har blitt gjort på dette grunnlaget, hevder hun.

- Ved inngangen til det nye årtusenet syntes vi det var på tide at Norge, i likhet med både Sverige, Danmark og Storbritannia, fikk et balansert tekstkorpus som kan dokumentere moderne norsk skriftspråk i sin fulle bredde, forteller Fjeld.

Mange bruksområder

Databasen er tilgjengelig på internett i et brukervennlig grensesnitt. På grunn av rettighetsspørsmål må man få tildelt brukernavn og passord for å kunne gå inn.

Basen kan ikke brukes til kommersielle formål, men alle språkinteresserte kan få tilgang til å søke rundt i basen.

- Vi håper at språkforskere fra mange felt og land vil bruk basen til forskning på norsk språk.

- Vi tror også korpuset vil være svært viktig for dem som driver med språknormering. Her kan Språkrådet finne ut hvordan ulike ord og uttrykk faktisk blir brukt, sier Fjeld.

Snart nye skrivemåter

Språkrådets direktør, Sylfest Lomheim, er enig.

- Dette nye materialet forteller spennende ting om norsk språk, og er ikke minst viktig for normeringsarbeidet. Fornuftig normering må være basert på fakta, sa Lomheim etter presentasjonen på Universitetet i Oslo.

- Språkrådet har samlet opp nye rettskrivningsnormer i flere år nå, og det er ikke lenge før et sett av nye skrivemåter er klare. I arbeidet med dette vil det nye korpuset stå sentralt, sa Lomheim

Balansert tekstsamling

Innsamlingsarbeidet til bokmålskorpuset har gått til ved at Fjeld og hennes medarbeidere har kontaktet forlag, blader, aviser og kjente og ukjente privatpersoner og bedt om å få tekster elektronisk.

Utfordringen har vært å få et balansert materiale, både når det gjelder teksttyper, kjønn på forfatter, og tidsspenn.

Balansen i forhold til teksttyper skal være slik:

- 20 prosent av tekstene fra aviser og ukeblader
- 45 prosent sakprosa-tekster, for eksempel fagbøker
- 25 prosent skjønnlitteratur
- 5 prosent TV-teksting
- 5 prosent upublisert materiale, som for eksempel debattekster fra internett

- Dette gjenspeiler en gjennomsnittsnordmanns lesevaner, og vi er omtrent der nå, sier Fjeld. Hun er særlig fornøyd med at de har greid å få tak i TV-teksting fra NRK.

- Dette er talemålsnære tekster som er svært interessante å ha med.

Bli ordgiver du også!

I tillegg skal materialet være vektet etter kjønn og årstall.

- Materialet er ok når det gjelder kjønn, men når det gjelder tid, er det et par årstall hvor vi har knapt med tekster. Det er 1991 og 1994, forteller Fjeld.

- Jo lenger tilbake man kommer, jo vanskeligere er det å få tak i elektroniske tekster, sier hun. Men at akkurat disse årstallene mangler tekster, er nok tilfeldig.

Har du elektroniske tekster fra disse årstallene? Eller kan du bidra med tekster fra andre årstall? Ruth Vatvedt Fjeld tar gjerne i mot. Ta kontakt: r.e.v.fjeld@iln.uio.no

Lenke:

Bokmålkorpuset skal bare brukes til ikke-kommersielle formål (forskning og undervisning). Er dette relevant for deg, kan du søke om tilgang til korpuset her

SE OGSÅ

Nye ord i bokmål

språk kultur

Du leter kanskje etter...

40 millioner ord i boks

I Norge skriver mellom 80 og 95 prosent av befolkningen bokmål. Nå er tekstene våre samlet i en gedigen database slik at vi - og forskerne - kan se hvordan vi faktisk bruker språket vårt.

Korpuset

Vil utvide med 60 millioner

Tilfeldig

Mange bruksområder

Snart nye skrivemåter

Balansert tekstsamling

Bli ordgiver du også!

Lenke:

SE OGSÅ

Nye ord i bokmål

Fra forsiden

Disse to diettene hjalp mer enn medisiner mot irritabel tarm

KI gjør roboter til gode fotballspillere

Dette er et hittil ukjent dikt av forfatteren bak Narnia-bøkene

De mest aktive barn og unge på sosiale medier, er også mest aktive offline

Det brukes mer eksplosive våpen i verden

Professor in Information Technology / Computer Science

Forsker - arkeologi

Associate professor position in osteology

Doctoral Research Fellowship - National Museum of Art, Architecture and Design

Stillingsannonse hos forskning.no

Finland skal gjemme farlig atomavfall i tusenvis av år. Hvordan skal de advare folk i framtiden?

Kunstig intelligens: Maskiner tenker og utvikler seg ikke som mennesker

Trenger alle like mye søvn? Norsk professor mener seks timer kan være nok for noen

Svensk forsker mener en spesiell stol kan skape bedre lydmiljø i åpne kontorlandskap

Sanger om klima blir ikke veldig populære. Hvorfor ikke?

Voyager 1 ringer hjem etter måneder med uforståelige data

Ny EØS-utredning: Et demokratisk problem at Norge har null innflytelse over regler fra EU

Forskere frykter hetebølge i Paris-OL: – Vi må virkelig ta det på alvor

FHI: Dobling i andelen igangsatte fødsler de siste 20 årene

Hvorfor synker flere store byer?

Alle henger med alle, men familie er viktigst for norske spekkhoggere

Dette gjæret blir til miljøvennlig fôr til laksen

40 millioner ord i boks

I Norge skriver mellom 80 og 95 prosent av befolkningen bokmål. Nå er tekstene våre samlet i en gedigen database slik at vi - og forskerne - kan se hvordan vi faktisk bruker språket vårt.

Korpuset

Vil utvide med 60 millioner

Tilfeldig

Mange bruksområder

Snart nye skrivemåter

Balansert tekstsamling

Bli ordgiver du også!

Lenke:

SE OGSÅ

Nye ord i bokmål

Fra forsiden

Disse to diettene hjalp mer enn medisiner mot irritabel tarm

KI gjør roboter til gode fotballspillere

Dette er et hittil ukjent dikt av forfatteren bak Narnia-bøkene

De mest aktive barn og unge på sosiale medier, er også mest aktive offline

Det brukes mer eksplosive våpen i verden

Ledige stillinger

Professor in Information Technology / Computer Science

Forsker - arkeologi

Associate professor position in osteology

Doctoral Research Fellowship - National Museum of Art, Architecture and Design

Stillingsannonse hos forskning.no

Finland skal gjemme farlig atomavfall i tusenvis av år. Hvordan skal de advare folk i framtiden?

Kunstig intelligens: Maskiner tenker og utvikler seg ikke som mennesker

Trenger alle like mye søvn? Norsk professor mener seks timer kan være nok for noen

Svensk forsker mener en spesiell stol kan skape bedre lydmiljø i åpne kontorlandskap

Sanger om klima blir ikke veldig populære. Hvorfor ikke?

Voyager 1 ringer hjem etter måneder med uforståelige data

Ny EØS-utredning: Et demokratisk problem at Norge har null innflytelse over regler fra EU

Forskere frykter hetebølge i Paris-OL: – Vi må virkelig ta det på alvor

FHI: Dobling i andelen igang­satte fødsler de siste 20 årene

Hvorfor synker flere store byer?

Alle henger med alle, men familie er viktigst for norske spekkhoggere

Dette gjæret blir til miljøvennlig fôr til laksen

FHI: Dobling i andelen igangsatte fødsler de siste 20 årene