Ofte kan det virke som om mediene bruker begrepet statistisk signifikans uten helt å forstå hva det betyr, skriver kronikkforfatteren. (Foto: Scanpix)
Kronikk: At noe er statistisk signifikant betyr ikke at det er sant eller viktig
Hvorvidt en forskjell på seks prosentpoeng er stor eller liten, har ikke nødvendigvis noe med statistisk signifikans å gjøre. Dette må alltid sees i lys av hva andre forskere har funnet ut, og om forskjellen har noen praktiske konsekvenser.
I forskning lurer vi ofte på hva som skjer i en populasjon. Et eksempel på en populasjon er alle mennesker med norsk pass; en annen er alle norske sysselsatte over 18 år. Men av praktiske grunner er det ofte vanskelig å undersøke alle medlemmene i en populasjon, og derfor studerer vi heller et utvalg fra denne.
For å kunne uttale oss om hva som skjer i en populasjon på bakgrunn av å studere et utvalg, er det fundamentalt at utvalget trekkes ved tilfeldighet. Det vil si, at alle i populasjonen har en like stor og kjent sannsynlighet for å bli trukket ut. Det som skjer rent praktisk minner om Lotto-trekning; forskjellen er at alle medlemmene i populasjonen har hver sin kule og at man trekker ut for eksempel 1000 «vinnere» – det vil si de som blir med i utvalget.
Normalt sikrer så tilfeldighetene at utvalget blir en populasjon i miniatyr, det vi gjerne kaller et representativt utvalg.
Tenkt undersøkelse I
En forsker trekker et representativt utvalg på 300 ansatte fra populasjonen av norske sysselsatte. Han får statistikkprogrammet til å telle opp hvor mange menn og kvinner som en eller annen gang har opplevd å bli trakassert på jobben. Blant mennene svarer 11 prosent at de har opplevd dette; for kvinnene er det tilsvarende tallet 17 prosent. Men dessverre for forskeren er ikke denne differansen på seks – 6 – prosentpoeng såkalt statistisk signifikant eller betydelig. Det vil si, forskjellen på seks prosentpoeng er så liten at han ikke tør å konkludere med at den ikke kan skyldes tilfeldighetene som følger av å jobbe med et utvalg – og ikke hele populasjonen. Eller som det heter i sjargongen: Forskjellen ligger innenfor feilmarginen. Dermed opplever han forskningens variant av journalistikkens «hund bet mann», det vil si en ikke-nyhet som ikke får spalteplass.
Tenkt undersøkelse II
En annen forsker gjør dagen etter en tilsvarende undersøkelse – med den forskjellen at utvalget er på 1500 ansatte. Han finner at 10 prosent av mennene svarer de har opplevd trakassering på jobben, mens 16 prosent av kvinnene svarer det samme.
Denne forskjellen – som igjen er på seks prosentpoeng – viser det seg er klart statistisk signifikant. Eller som det heter, forskjellen er større enn feilmarginen. Og vips har man en forskningsnyhet – Kvinner oftere trakassert enn menn! – tilsvarende «mann bet hund» innen journalistikken.
Vi er like kloke!
Jeg lærer mine studenter at vi ikke har blitt noe klokere om sammenhengen mellom kjønn og opplevelse av jobbtrakassering i den andre, tenkte undersøkelsen. Kjønnsforskjellen er uendret og den må fortsatt kalles beskjeden – det eneste som har skjedd er at en forskjell på seks prosentpoeng har gått fra å være statistisk ikke-signifikant til å bli statistisk signifikant. Og den eneste grunnen til dette er at utvalget i den andre undersøkelsen er klart større.
Her kan vi også lære noe generelt: Desto større utvalg, jo mindre må en statistisk forskjell være for at den skal bli statistisk signifikant.
Når man leser det som skrives i aviser og andre medier om statistiske forskjeller mellom grupper, får en ofte følelsen av at denne innsikten er mangelvare. Ja, ofte fremstilles det som at en signifikant effekt automatisk er en viktig eller sterk effekt. Det er, som vist over, ikke nødvendigvis tilfellet – i store utvalg blir helt trivielle statistiske forskjeller signifikante! Og i små utvalg må en statistisk forskjell være ganske stor for at den skal bli signifikant. Det siste er også et problem innen forskning basert på små og mindre utvalg. Problemet er at redaktører for tidsskrifter ofte ikke vil akseptere manus som presenterer ikke-signifikante forskjeller og sammenhenger. Dermed forblir relativt store forskjeller mellom gruppers hemmeligheter for det øvrige forskerfellesskap utelukkende på grunn av små utvalg.
Når signifikanstesting ikke er relevant
Ikke sjelden diskuteres statistisk signifikans når det ikke er nødvendig. Et eksempel er når vi studerer populasjonsdata direkte. Tenk at du faktisk får anledning til å stille spørsmålet om trakassering til alle norske sysselsatte, og så lar statistikkprogrammet telle opp hvor mange kvinner og menn som har opplevd dette. For dette resultatet – som vi i realiteten aldri vet hva er! – er det ingen statistisk usikkerhet. Derfor er det heller ikke noe behov for signifikanstesting.
Men vi har også andre typer populasjoner, for eksempel alle som har fått en parkeringsbot i Oslo i løpet av mars i år. Tenk at vi har et register over alle disse overtredelsene hvor også den bøtelagtes kjønn er registrert. En opptelling viser at 54 prosent av bøtene har gått til menn, mens 48 prosent er gått til kvinner. Igjen har vi altså å gjøre med en forskjell på seks prosentpoeng, og det er fristende å spørre: Er denne forskjellen statistisk signifikant?
Svaret er at statistisk signifikans ikke er relevant i dette tilfellet. For som vi nå vet, dreier statistisk signifikanstesting seg om å ta høyde for usikkerheten som oppstår når vi utaler oss om en populasjon – og om gruppeforskjellene her – mens vi kun har data fra et representativt utvalg fra denne populasjonen. Det er ikke situasjonen i dette tilfellet – her har vi to populasjonsandeler som skal sammenlignes.
Generelt: Hvorvidt en forskjell på seks prosentpoeng er stor eller liten, viktig eller uviktig eller reell eller ikke-reell, har ikke nødvendigvis noe med statistisk signifikans å gjøre. Dette må alltid sees i lys av hva andre forskere har funnet ut, og om forskjellen har noen praktiske konsekvenser. Og hvis forskningen er basert på utvalg, må alltid signifikansvurderinger sees opp mot utvalgsstørrelsen.