Kronikk: Nasjonale prøver - en gjøkunge i norsk skole

Fra biologien har vi lært at gjøkunger lett overtar kontrollen over fosterforeldrene, på samme måte som de nasjonale prøvene har tatt kontroll over skolene, skriver Elling Ulvestad i denne kronikken.

Denne artikkelen er over ti år gammel og kan inneholde utdatert informasjon.

På oppfordring fra Stortinget ble det våren 2004 innført nasjonale prøver i skriving, lesing, matematikk og engelsk for alle elever på fire trinn i norsk skole.

Prøvene, som ble innført for å heve kvaliteten av norsk skole, er blitt sterkt kritisert fra elever, lærere og foreldre, og en rekke juridiske, etiske, og pedagogiske problemer knyttet til prøvene synes uavklarte.

I et tidligere innlegg kritiserte jeg prøvene for manglende kvaliteter, noe statsråd Kristin Clemet i sitt tilsvar sa seg delvis enig med meg i. Men hun mente at prøvene kunne videreutvikles og forbedres slik at de på sikt kunne bli et nyttig redskap for forbedring av norsk skole.

Jeg er grunnleggende uenig med utdannings- og forskningsministerens syn, og vil i mitt tilsvar ta et oppgjør med hennes evolusjonære tanke om tester under utvikling.

Mens jeg i min forrige artikkel tok for meg etisk betenkelige konsekvenser av de nasjonale prøver, vil jeg i denne kronikken søke å argumentere for mitt standpunkt først fra en ontologisk og dernest fra en epistemologisk synsvinkel.

Ontologi, som er det fagfelt som søker å avgrense det eksisterende fra det imaginære og dermed ikke-eksisterende, skiller seg fra epistemologi ved at sistnevnte søker å avklare mulighetsbetingelser for erkjennelse av det eksisterende, for eksempel ved å evaluere metoder for hvordan vi tilegner oss kunnskap.

En grunnleggende problemstilling som søkes besvart er om prøvene virkelig innehar kvaliteter som gjør at de kan utvikles videre.

Profilenes ontologiske status

De nasjonale prøver er ikke, slik mange tror, klassiske kunnskapstester. Fra Utdanningsdirektoratets informasjon går det fram at “Rapportering og tilbakemeldinger til eleven fra de nasjonale prøvene skal skje i form av profiler. Profiler vil si markering av elevenes underliggende delkompetanse og en markering av elevenes mestring av ulike elementer”.

Det forutsettes med andre ord at testene for det første kan isolere ut hver enkelt elevs delkompetanser for læring, og dernest måle hvor godt/dårlig eleven skårer på hver enkelt delkompetanse. Universitetslektor Ragna Aarli har tidligere hevdet at profilregistreringen er juridisk betenkelig.

I dette avsnittet vil jeg søke å vise at profilregistreringens ontologiske status er svak, noe som bestyrker de etiske og juridiske betenkeligheter som tidligere er anført mot prøvene.

Siden en test konstrueres for å måle et gitt fenomen tar man det for gitt at testen måler noe reelt. Det er derfor ikke så underlig at spørsmålet om hva disse “underliggende delkompetanser” er for noe ikke er blitt debattert; egenskapene er jo selvsagt det som blir målt ved de nasjonale prøver.

Men siden dette argumentet er sirkulært og derfor meningstomt, er det nødvendig å søke informasjon om fenomenet fra andre kilder. Det har ikke lyktes meg å finne konkrete opplysninger om hvilket teoretisk og empirisk grunnlag de nasjonale prøver bygger på, men det synes rimelig å anta at prøvenes vitenskapelige basis er hentet fra psykologisk forskning.

Fra å se så på læring som et enkelt stimulus-respons fenomen - for eksempel at en hund som sikler ved observasjon av mat etter en tid kan lære seg å sikle når den hører lyden av en bjelle som klinger før maten kommer, har psykologene utviklet stadig mer kompliserte modeller for læring.

For over 20 år siden begynte en gruppe psykologer å se på læring som et adaptivt fenomen, det vil si en egenskap som har utviklet seg ved at de individer som lærte hadde en overlevelses- og formeringsevne som var bedre enn dem som ikke hadde den samme egenskapen. Over flere millioner av år førte dette så til de læringsegenskaper vi har i dag.

Disse evolusjonære psykologene mener å finne forskningsmessig belegg for at mennesket er utstyrt med en rekke delkomponenter for læring. De ser på hjernen som et sett av computere, kanskje flere hundre, som hver for seg er utviklet for å løse oppgaver som våre forfedre stod overfor i sin aktivitet som jegere og samlere.

Oppgavene kan for eksempel være forståelse av sosial interaksjon, forståelse av rom, og beslutninger ved usikker informasjon. De evolusjonære psykologene ser det som sin oppgave å dissekere disse funksjonene i sine enkeltelementer for så å finne ut hvordan de virker, både enkeltvis og sammen.

En annen gruppe psykologer er uenige med denne oppfatningen av virkeligheten, og har lagt fram en annen forklaring på hvordan vi lærer. De hevder at menneskets evne til læring ikke kan oppstykkes, men at læring er en generell kapasitet som utvikles i det enkelte menneske fra unnfangelsen av.

Hjernen er formbar og er derfor følsom for stimuli fra omverdenen. Denne formbarheten er en grunnleggende egenskap som gjør oss i stand til læring, og de multiple medfødte delkomponentene som påvises av evolusjonære psykologer oppstår som følge av denne formbarheten.

De er altså ikke et umiddelbart resultat av evolusjonen; evolusjonen har skapt mulighetsbetingelser for at delkomponentene kan skapes på nytt i hvert individ. Hvilke av disse to retningene som mest korrekt avspeiler virkeligheten er uavklart.

Det er endatil mulig at begge versjoner er korrekte, men at de gjelder for ulike situasjoner. Flere psykologer har derfor tatt til orde for å se de to retningene i sammenheng.

Foreløpig er det de evolusjonære psykologer som har mest vind i seilene, og det finnes relativt mange observasjoner som støtter opp om teorien om den modulerte hjerne.

Men man kan ikke av aprioriske grunner avvise hypotesen om at læreegenskapen er enhetlig. For eksempel har immunsystemet, som er et komplekst adaptivt system på linje med hjernen, utviklet en generell egenskap for læring. Denne egenskapen er kartlagt på molekylært nivå, og viser med tydelighet at en kompleks omverden kan fanges med en generell læringsmekanisme.

Dersom det er riktig at læring ikke er en medfødt modulbasert egenskap, men tvert imot er en egenskap som utvikles som følge av påvirkninger fra miljøet på bestemte kritiske utviklingsstadier, er det vanskelig å se at de nasjonale prøvene vil kunne benyttes til å lage tids- og stedsuavhengige profiler av den enkelte skoleelev.

Grunnleggende ikke-foranderlige profiler eksisterer i tilfelle ikke, og kan derved ikke måles. For eksempel var Albert Einstein sen med å lese og skrive, og han strevde med matematikken. Hans delkompetanse-profil ville utvilsomt vært ufordelaktig dersom han hadde blitt vurdert ut fra de nasjonale prøvene.

Profilenes epistemologiske status

På den annen side, vi kan ikke utelukke at de evolusjonære psykologene har rett og at det virkelig eksisterer identifiserbare kompetansemoduler. Betyr dette i tilfelle at alle problemer med måling av profiler er løst?

Svaret på dette spørsmålet vil avhenge av hvor gode testene er, men også av hvordan resultatene fra testene graderes i forhold til en standard. Spørsmålet om vi har metoder som kan gi oss tilgang til og endatil gi en tilstandsrapport av slike moduler hos den enkelte elev må stilles og besvares tilfredsstillende før vi kan akseptere dem som et “verktøy i utvikling”.

Mens kunnskapstester måler elevens kunnskap sett i relasjon til en mal for hva eleven skal ha lært på et gitt tidspunkt, skal de nasjonale prøver måle psykologiske egenskaper ved hver enkelt elev.

Siden malen for kunnskapsprøver er det pensum eleven har vært gjennom, er de relativt enkle å konstruere. For nasjonale prøver finnes det derimot ingen tilsvarende standard som prøvesvaret kan relateres til, og tolkningsproblemene blir derfor uoverstigelige dersom ikke testene er nøye kalibrert.

Kalibrering består i å innstille måleapparatet slik at det fanger relevante sider ved virkeligheten; for eksempel må mellomrommet mellom tallene i termometerets gradeskala nøye avpasses til om innholdet i glassøylen består av kvikksølv, alkohol eller annet materiale, ellers vil ikke termometeret angi riktig temperatur.

La oss for enkelthetsskyld anta at hver enkelt egenskap som måles ved de nasjonale prøver har mange ulike verdier langs en skala - for eksempel at elevens forståelse av sosial interaksjon kan graderes fra god til dårlig langs en tipunkts skala, men at testen kun brukes til å avgjøre om eleven har en god eller dårlig versjon av egenskapen.

I et slikt tilfelle vil testutviklerens jobb lettes ved at han kan nøye seg med å finne ett enkelt skjæringspunkt som avgjør om eleven har/ikke har egenskapen. Men samtidig vil han gå glipp av vesentlig informasjon ved at han ikke lenger kan angi graden av elevens læringskompetanse.

Tilsvarende kan man ønske å definere temperaturen som kald eller varm - dersom skjæringspunktet settes ved null grader celsius gir dette redusert, men likevel meningsfylt informasjon.

Skjæringspunktet for psykologiske og biologiske tester kalibreres ofte ved å sammenligne individer med og uten egenskapen som måles. Ingen tester er fullkomne, i den forstand at de alltid plasserer et individ i korrekt gruppe.

Alle som arbeider med tester vet derfor at noen individer med nødvendighet vil bli plassert i feil gruppe dersom man kun baserer grupperingen av individer på testresultatet.

Dette ser man enklest ut fra en firefeltstabell. En god test plasserer flest mulig individer i enten sann positiv eller sann negativ kategori. Dersom det blir mange som plasseres i kategoriene falsk positiv eller falsk negativ, har vi en dårlig kalibrert test eller alternativt, at testen i liten grad måler det den skal måle. I begge tilfeller er bruksverdien av testen tvilsom.


 

Det kan være interessant å se hva som skjer når tester anvendes utenfor det bruksområdet de er kalibrert for, for eksempel dersom et termometer anvendes ved svært varme eller kalde temperaturer. Da vil ofte egenskapen som testes måles med mindre presisjon enn i kalibreringssituasjonen.

Tilsvarende gjelder for testing av biologiske og psykologiske egenskaper; dersom en test anvendes på individer med egenskaper som avviker sterkt fra egenskapene til de individene som ble anvendt ved kalibreringen av testen, må testresultatene ofte gis en annen fortolkning.

La oss ta et velkjent eksempel, også denne gangen fra immunologiens verden. Wassermann-testen for syfilis, som ble utviklet tidlig på 1900 tallet, ble til å begynne med anvendt for å identifisere om syke individer hadde syfilis eller ikke.

Kalibreringen av testen ble gjennomført på en slik måte at flest mulig pasienter med syfilis falt i gruppen sann positiv, og flest mulig pasienter uten syfilis falt i gruppen sann negativ. Testen fungerte etter måten godt, og gav et viktig bidrag til identifisering av syfilitikere.

Utover på 1930-tallet kom det i mange land et lovpålegg som påbød alle som skulle gifte seg å teste seg for syfilis. På den måten ønsket myndighetene å kontrollere smitten og dermed hindre at uidentifisert smitte hos mor ble overført til fosteret.

Men dette lovpåbudet om obligatorisk testing gjorde samtidig at testen, som var kalibrert for ett formål, ble anvendt på en populasjon av individer som den ikke var kalibrert for; i stedet for å måle tilstedeværelse av syfilis blant en gruppe kjønnssyke pasienter ble testen nå brukt til å måle tilstedeværelse av syfilis hos en gruppe friske individer.

Denne endringen av undersøkelsesgruppe førte til at en rekke pasienter som åpenbart ikke hadde syfilis likevel avla positiv Wassermann-test; frekvensen av falsk positive resultater økte. Og dette til tross for at testen var den samme.

Årsaken til dette fenomenet fant man på 1940 tallet da nye tester for syfilis ble innført. Det ble da klart at Wassermann-testen egentlig ikke målte det man trodde den målte, syfilisbakterien, men at den målte en egenskap som var relatert til syfilis.

Ved å undersøke individer som avga falskt positive prøver fant man ut at en rekke individer med andre typer sykdommer, også gravide kvinner med normale svangerskap, kunne skåre positivt i Wassermann-testen. Denne erkjennelsen førte i sin tur til at hele strategien for testing av syfilis måtte endres.

Selv om testing for syfilis er noe helt annet enn testing for psykologiske egenskaper, belyser historien et viktig generelt fenomen vedrørende testing.

For det første viser den at myndigheters iver etter å teste befolkningen for en gitt egenskap bør utføres med forsiktighet; det er ikke sikkert at en test som er utviklet for ett formål er egnet for bruk til å måle den samme egenskapen i andre sosiale settinger.

En annen viktig generell lærdom er at uvøren testing kan medføre tilsløring i stedet for avsløring av virkeligheten. Mange kvinner som fikk påvist en positiv syfilistest fikk for eksempel store problemer med å forklare ektemannen hvordan dette kunne ha tilkommet; at testene kunne være falsk positive var det få som visste.

Dersom de nasjonale prøver, i likhet med Wassermann-testen, kun gir oss en betinget sannsynlighet for at eleven har/ikke har en egenskap, risikerer vi at uvøren testing av norske skolebarn for det første gir et feil bilde av fordelingen av delkompetanse i elevpopulasjonen, men også at elever med god kompetanse blir klassifisert som svake og at svake elever blir klassifisert som gode.

Det blir feil resultat både på gruppe- og på individnivå. Tiltakene som skal settes i verk for å hjelpe elevene blir da brukt på feil måte; man over- og underbehandler elevene samtidig, uten å vite om det.

Vil gjøkungen overleve?

Basert på denne gjennomgangen kan det billedlig hevdes at Utdanningsdirektoratet i 2004 plantet et egg i norsk skole; de nasjonale prøvene.

Intensjonene var de beste - egget skulle klekkes med brask og bram og derigjennom bidra til å lyse opp norsk skole. I ettertid har det vist seg at egget var et gjøkeegg, lagt i henhold til evolusjonslovens konkurranseprinsipp der det heter seg at systemer som ikke verper blir kverket.

Egget er nå klekket, og gjøkungens erobringer har begynt å manifestere seg. Som sanne evolusjonære individer prøver elevene og lærerne å tilpasse og forsvare seg mot parasittens vesen; de øver på prøven til bekostning av andre oppgaver i læreplanen. Men derved fjernes fokus fra læring av nytt stoff.

De svakeste blir, som ellers i biologien, tapere. De sterke, de som ikke trenger hjelp, klarer seg som alltid godt; de er evolusjonære vinnere uansett ytre betingelser.

Fra biologien har vi lært at gjøkunger lett overtar kontrollen over fosterforeldrene, på samme måte som de nasjonale prøvene har tatt kontroll over skolene.

Men biologien har også vist veier ut av uføret. Noen veier gir en kortsiktig gevinst, for eksempel har noen fuglearter utviklet evnen til å oppdage gjøkeegg og skyve dem ut av redet.

Som motstrategi har gjøken lært å kamuflere eggen sine slik at de ligner på vertsfamiliens egg. Lenge trodde man at gjøken dermed ble den endelige vinner, men det viser seg nå at en australsk fugleart har utviklet enda en motstrategi mot gjøken; de stikker av.

Flukt fra prøvene har også vært den strategien elever, foreldre og Steinerskolen har anvendt for å tilpasse seg en ubehagelig virkelighet.

Implantering av fremmede fugler i et etablert økosystem fører gjerne til at fuglen overlever men at den ikke klarer å få fram avkom. Så langt har de nasjonale prøver overlevd i ett år, og de har gjennomgått én reproduksjonssyklus.

Det skal bli spennende å se om gjøkungen klarer å erobre økosystemet, eller om den må tilpasse seg en virkelighet bestående av fertile og levedyktige kunnskapsprøver.

Powered by Labrador CMS