– Utdelingen skjer etter prosesser som er svært like den prosessen eksamensoppgaven til Marie Ulven nettopp var gjennom. Noen har skrevet en tekst. Noen eksperter vurderer den etter et sett med kriterier og gir den en karakter, skriver kronikkforfatterne. (Foto: Shutterstock / NTB scanpix)
– Utdelingen skjer etter prosesser som er svært like den prosessen eksamensoppgaven til Marie Ulven nettopp var gjennom. Noen har skrevet en tekst. Noen eksperter vurderer den etter et sett med kriterier og gir den en karakter, skriver kronikkforfatterne. (Foto: Shutterstock / NTB scanpix)

Uenige sensorer og jakten på forskningsmidler

KRONIKK: Utdelingen av forskningsmidler skjer etter prosesser som er svært like den en eksamensoppgave går gjennom.

Publisert

Marie Ulven opplevde nylig å gå fra stryk til toppkarakter etter at hun klaget på sensuren av sin norskeksamen. Svært få opplever slike utfall, men hun er definitivt ikke alene om å oppleve sensorer som ikke klarer å enes om hvordan kvalitet skal vurderes.

Ifølge Utdanningsdirektoratet klaget nesten 11.000 på karakteren sin i fjor vår. I underkant av 20 prosent av disse fikk endret karakter. Tilnærmet alle fikk en høyere karakter, de fleste av dem gikk en karakter opp. Det tyder på høy enighet mellom sensorene, men klagesensuren i videregående skole gjøres på en måte som gjør denne andelen kunstig høy. Sensorene som vurderer besvarelsen på nytt vet nemlig hvilken karakter eleven fikk i den ordinære sensuren.

Blind sensur gir økt uenighet

I 2014 ble det innført “blind klagesensur” ved norske høyskoler og universitet. Det vil si at sensorene som skal vurdere klagen, ikke får vite dette. De får eksamensbesvarelsen og ikke noe annet. Overgangen til blind klagesensur medførte betydelige endringer i utfallet av klagene.

Før overgangen endte 24 prosent av klagene ved Universitetet i Oslo med endret karakter. Ikke ulikt det som i dag er tilfellet ved klager på skriftlig eksamen i videregående. Etter overgangen til blind sensur ble andelen over doblet, til 51 prosent. Før overgangen fikk 11 prosent av de som fikk endret karakter en dårligere karakter. Etter overgangen ble denne andelen nesten tredoblet til 32 prosent.

Kvalitetsvurderinger av tekster er i sin natur subjektive og uenighet mellom sensorer er på ingen måte begrenset til skolevesenet.

Uenighet blant forskere

På vegne av store og små norske helseorganisasjoner fordeler ExtraStiftelsen rundt 300 millioner kroner årlig. I denne sammenhengen er det småpenger. Norges forskningsråd (NFR) deler for eksempel ut rundt 8 milliarder kroner til forsknings- og utviklingsprosjekter og i USA deler National Institute of Health ut rundt 260 milliarder årlig bare til helseforskning.

Utdelingen skjer etter prosesser som er svært like den prosessen eksamensoppgaven til Marie nettopp var gjennom. Noen har skrevet en tekst. Noen eksperter vurderer den etter et sett med kriterier og gir den en karakter.

Og akkurat som i tilfellet med vurderingene i skolesystemet er ikke sensorene alltid enige om hva en god søknad er. En lang rekke med studier har vist at fagpersonene som vurderer forskningssøknader, ofte vurderer dem svært forskjellig.

Upålitelig følelse av enighet

Et paradoks er at sensorene ofte føler at de enige, selv om de ikke er det. Det handler blant annet om at vi har vansker med å ta hensyn til graden av enighet og hvilken rolle tilfeldigheter kan spille.

Se for deg to sensorer som vurderer en norsk eksamen. En gir karakteren 4 og en karakteren 3. Antakelig vil de vurdere seg selv som ganske enige. Men om man anser en forskjell på opptil en karakter som «enig», kan terskelen for enighet bli for lav. Dersom en sensor gir karakteren 4, kan den andre velge fra halve karakterskalaen (3, 4 og 5) og likevel bli vurdert å være «enig» med den første.

Når man analyserer enighet må man derfor bruke statistiske metoder som tar høyde både for at to sensorer kan være enige ved ren tilfeldighet (hadde to sensorer kastet terning, ville de vært helt enige i 17 prosent av tilfellene) og for graden av enighet (om begge setter 4 er det høyere enighet enn om en setter 4 og den andre 5).

En slik metode er det som kalles intraklassekorrelasjon. Den graderer enighet på en skala fra 0 til 1, der 0 betyr at sensorene alltid er så uenige det er mulig å være (en gir 1, den andre gir 6). 1 betyr perfekt enighet mellom sensorer (de setter alltid samme karakter). Det er vanlig å beskrive korrelasjoner mellom 0,4 og 0,75 som «fair» eller «good» og de under 0.4 som «poor».

Det er gjennomført analyser av slike vurderingsprosesser verden over. En gjennomgang av 23.414 vurderinger i det østerrikske forskningsrådet ga for eksempel en intraklassekorrelasjon på 0.26. Dette er problematisk lavt, men langt fra uvanlig.

Hvorfor så uenige?

Årsakene til uenigheten varierer med hva som vurderes og hvordan vurderingene gjennomføres. Tvetydige vurderingskriterier og dårlig opplæring av sensorer er en åpenbar kilde til uenighet. Forskning på menneskelige vurderinger har også avdekket at en rekke irrelevante faktorer får betydning. Rekkefølgen eksamen blir vurdert i spiller for eksempel antakelig en rolle. Vurderes din eksamen etter en rekke sterke, gode oppgaver er det mye som tyder på at sannsynligheten øker for at den blir vurdert strengere enn den ville blitt om den hadde kommet etter svake oppgaver.

Og, som nevnt over, dersom sensoren vet hvilken karakter eksamen din fikk, er sannsynligheten vesentlig større for at den samme karakteren settes igjen.

Uenigheten trenger ikke være et resultat av mangler eller problemer ved kriteriene, prosessen eller sensoren, og en viss grad av uenighet er uunngåelig. Men når uenigheten blir så stor som den gjør i en del av disse tilfellene, avslører den et betydelig potensial for forbedring.

Høgskolelektor Cathrine Krogh skrev sin masteroppgave på norsk eksamenssensur og er selv sensor. I Aftenposten tok hun nylig til orde for at sensorene bør være mer ydmyke. Det er lett å slutte seg til, men om systemene er dårlige er det først og fremst ydmykheten til beslutningstakerne og administratorene vi bør etterspørre.

Trenger forutsigbare og konsistente vurderinger

Siden dette er kostbare prosesser som betyr svært mye for de som utsettes for dem er det på sin plass å gå systematisk til verks med vitenskapelig metodikk for å kartlegge enigheten og å teste ut tiltak for å øke den.

Det har stadig flere viktige aktører innsett. Amerikanske National Science Foundation har de siste årene gjennomført flere mindre studier på egne vurderingsprosesser og NFR har gjennomgått den vitenskapelige litteraturen for å se hvordan de kan forbedre sine prosesser. I ExtraStiftelsen er vi i gang med å gjøre statistiske analyser av tildelingene og har igangsatt vitenskapelige studier av forskjellige måter å lære opp sensorene på.

Felles for alle slike tiltak er å gjøre vurderingene så forutsigbare og konsistente som mulig.

Kanskje har skolevesenet noe å lære av dette?