Forskerne vil at sammenhengen de peker på i studien sin skal være reell, ikke skyldes tilfeldigheter. (Illustrasjonsfoto: Shutterstock/NTB scanpix)

Hva er p-verdi og hva betyr statistisk signifikant?

Du trenger ikke skamme deg hvis du ikke kjenner uttrykkene «statistisk signifikans» og «p-verdi». En god del forskere som bruker dem daglig, har ikke helt kontroll de heller.

Når forskere skal undersøke noe, må de nesten alltid gjøre et utvalg.

Du kjenner det sikkert igjen fra meningsmålinger der folk blir spurt om hvilket parti de skal stemme ved neste valg. Det er ikke mulig å spørre alle i hele Norge, så forskerne velger ut noen som representerer oss alle.

Målet er å få et representativt utvalg som gjenspeiler variasjonene i den norske befolkningen.

En forsker som vil teste ut en ny smertestillende medisin mot for eksempel hodepine, kan heller ikke teste virkningen på absolutt alle. Hun plukker ut et mindre utvalg.

Forskere har flere måter å gjøre dette utvalget på, men de ønsker selvfølgelig at trekningen skal være tilfeldig og gi et bilde av hele befolkningen, enten det gjelder politisk ståsted eller smerter i hodet.

Og, grundige som de er, har de også metoder for å regne ut hvor trygge de kan være på dette. På hvor sikre de kan være på at resultatene ikke skyldes for eksempel flaks, uflaks eller skjevheter i utvalget.

– Vi vil vite hvor mye resultatet vil variere dersom vi gjør nøyaktig den samme undersøkelsen flere ganger, sier matematiker Simen Gaure ved Frischsenteret.

Pokerflaks

Hvis du spiller poker og får utdelt tre konger blant de fem kortene du har på hånda, betyr ikke det at tre av fem kort i hele kortstokken er konger.

Det betyr bare at du har hatt skikkelig flaks.

Selv om du spiller med en vanlig kortstokk der det er fire toere, fire treere og så videre, vil det av og til skje at du får tre konger på hånda. Det vil, statistisk sett, skje 17 av 10 000 ganger.

Ikke så veldig ofte med andre ord.

Likevel, av og til vil en av deltakerne få utdelt en hånd som kan få motspillerne til å lure på om noen har rigget kortstokken.

Kan feilaktig tro at medisin virker

Slik er det også i forskningen.

Sett at du er forsker og skal undersøke et smertestillende medikament som skal lindre hodepine. Du plukker ut noen personer som går gjennom en undersøkelse.

Selv om medisinen i realiteten ikke har noen effekt, vil du i noen tilfeller ha gjort et utvalg som kan tyde på at den virker positivt.

Dette trenger ikke å skyldes slurv eller uredelighet fra din side. Det er bare sånn det er her i verden, rettere sagt i statistikkverdenen.

– Vi klarer stort sett å lage tilfeldige utvalg, men det kan bli skjevt allikevel. Du kan være uheldig, sier Gaure.

Derfor har vitenskapen utarbeidet det som kalles p-verdi.

Når forskerne skal finne ut om en medisin virker, er det viktig at deltakerne de plukker ut til studien representerer gruppa de skal studere på en god måte. (Illustrasjonsfoto: Gorm Kallestad, NTB scanpix)

Sier ikke noe om sannheten

P-en i p-verdi står egentlig for probability, engelsk for sannsynlighet.

Men p-verdien sier ikke noe om sannsynligheten for at hypotesen din er sann eller ikke.

– Den sier noe om usikkerheten i trekningen av utvalget, sier Gaure.

Det er vanlig å si at den forteller hvor sannsynlig det er at resultatet skyldes tilfeldigheter, flaks eller uflaks. Men selv dette er en litt upresis forklaring, som vi skal komme tilbake til seinere.

Skjevt utvalg

Det kan hende at pasientene du tilfeldig valgte ut til hodepinestudien, av en eller annen ukjent grunn ble bedre uavhengig av medisinen du vil teste ut.

For eksempel kan tilfeldighetene ha gjort det slik at alle disse var på fest dagen før og har skallebank som skyldes et litt for høyt alkoholinntak i løpet av kvelden og natta.

Hvis målet er å teste virkningen på hele befolkningen, vil du heller ikke ha bare folk med kraftig migrene.

Utvalget blir skjevt på en måte som kan påvirke resultatene dine.

Denne usikkerheten kan p-verdien si noe om.

Den kan angis i prosent fra 0 til 100, men vanligvis skrives den med desimaler. 10 prosent usikkerhet skrives 0,10. 5 prosent er det samme som 0,05, og så videre.

Slik tester forskerne

Det forskere gjør, er at de formulerer en såkalt nullhypotese. Denne sier ofte bare at det ikke er noen effekt, for eksempel av medisinen du vil teste. Eller den tar utgangspunkt i eksisterende kunnskap og forskning.

Så setter de opp det som kalles en alternativ hypotese som sier at det er en effekt av medisinen eller at noe ikke er slik det er beskrevet i den rådende oppfatningen. Det er jo denne de egentlig vil teste, men metodeteknisk er det nullhypotesen de tester.

Dette høres kanskje ikke helt intuitivt ut, og det kan være litt vanskelig å henge med.

Se for deg kortstokken igjen. Nullhypotesen kan være at vi har en vanlig kortstokk med fire konger. Den alternative hypotesen kan da være at vi har en stokk med flere enn fire konger.

Så får du utdelt utvalget på fem kort der det er tre konger. Det p-verdien sier noe om er hvor sannsynlig det er å få tre eller flere konger dersom det er sant som nullhypotesen sier at det er fire konger i hele stokken.

Eller med andre ord: Hvis du har en kortstokk med fire konger, hvor sannsynlig er det at du får tre eller fire konger i første utdeling?

I medisineksempelet blir det slik: Sett at medisinen ikke har effekt, hvor sannsynlig er det at du med dette utvalget mennesker likevel skal kunne få et resultat som viser at medisinen virker mot hodepine?

Problemet oppstår når folk blindt fokuserer på p-verdier og tror at dette forteller om noe er sant, forklarer Kristoffer Hellton ved Norsk regnesentral. (Foto: Kari Åse Homme, Norsk regnesentral)

P-verdien er ikke ladet

Som nevnt er det vanlig å omtale p-verdien som sannsynligheten for at et resultat skyldes tilfeldigheter, flaks eller uflaks.

Men vi må egentlig stramme inn enda litt mer.

– P-verdier sier kun noe om sannsynligheten for observasjonene, eller noe verre, gitt at nullhypotesen er sann, forklarer seniorforsker Kristoffer Hellton ved Norsk regnesentral.

– P-verdien sier ikke noe om selve hypotesen er sann eller ikke, men måler kun observasjonene opp mot den spesifikke nullhypotesen, skriver Hellton i en e-post til forskning.no.

Ord som «tilfeldigheter», «flaks» og «uflaks» kan være med på å forklare hvorfor og hvordan dette kan skje. Men da er vi i gang med å tolke p-verdien. Og det er i tolkningene av p-verdien at problemene oppstår.

P-verdien er nemlig egentlig ganske så nøytral og følelsesløs.

Enkel og vanskelig å regne ut

P-verdien er bare et tall, og det ligger selvfølgelig et regnestykke bak.

Et regnestykke som er litt for komplisert til å skrive om her, men som kommer automatisk ut av forskernes statistikkverktøy. Du kan selv finne p-verdien i statistikker du lager i regneark på PC-en din.

Men det er fortsatt bare et tall på usikkerheten i selve undersøkelsen. Det sier ikke noe om styrken i effekten du er ute etter å måle eller om sannhetsgehalten i konklusjonene dine.

Likevel er det mange forskere som bruker det som en bekreftelse på at medisinen har en virkning eller som et bevis på at det ikke er noen effekt. En praksis mange nå advarer mot.

Det er nemlig en tett kobling mellom p-verdien og det som kalles statistisk signifikans, et begrep som kan oppfattes som ladet fordi det kan forstås som at noe er betydningsfullt.

Statistisk signifikans

Det har blitt vanlig å si at en p-verdi som er 0,05 eller lavere, er statistisk signifikant. Og forskere konkluderer da gjerne med at undersøkelsen forkaster nullhypotesen og påviser en effekt.

På samme måte blir en p-verdi over 0,05, som da ikke er statistisk signifikant, brukt til å slå fast at nullhypotesen er sann og at det ikke finnes noen sammenheng.

Men dette sier altså ikke p-verdien noe om. Det er alltid en risiko for at du vil forkaste en nullhypotese som er sann. Og alltid en risiko for at du «bekrefter» en nullhypotese som er usann.

Og grensen kunne like gjerne vært satt et annet sted. Noen ganger blir den det også, for eksempel ved 0,01.

– Problemet oppstår når man blindt fokuserer på p-verdier og tror at dette forteller «om noe er sant», skriver Kristoffer Hellton.

– Signifikant i den statistiske betydningen betyr ikke viktig, betydningsfull, stor eller tydelig. En forskjell kan være statistisk signifikant og likevel være irrelevant i en praktisk setting.

– For eksempel vil enhver ubetydelig forskjell mellom to grupper bli signifikant hvis forskeren studerer store nok grupper.

Falske sammenhenger

P-verdien går automatisk ned når utvalget blir større. Det gir store muligheter i vår tid, der forskere kan sitte på enorme mengder data.

De kan enkelt hente ut informasjon om for eksempel en million Facebook-brukere. Antallet gir lave p-verdier, uten at det sier noe om sannhet eller usannhet.

Når mengden tall er stor nok, vil du alltid finne tilsynelatende sammenhenger når du begynner å lete. Selv om sammenhengene er falske.

– Hvis du leter rundt i store datamengder, vil du finne ting som åpenbart ikke har noe med hverandre å gjøre, men som likevel ser ut til å ha en sammenheng, sier matematikkprofessor Jan Terje Kvaløy ved Universitetet i Stavanger.

Nettstedet tylervigen.com har funnet sammenhenger mellom ting som vi kan være rimelig sikre på at ikke har noe med hverandre å gjøre.

For eksempel mellom amerikansk import av råolje fra Norge og hvor mange bilførere som blir drept i togkollisjoner i USA. Eller mellom hvor mange amerikanere som drukner etter å ha falt i et svømmebasseng og antall filmer Nicolas Cage spiller i.

Norsk olje har neppe noen betydning for trafikkdødsfall i USA. (Illustrasjon: http://tylervigen.com/spurious-correlations)

P-verdi i endring

P-verdien endrer seg også dersom du endrer nullhypotesen din. Og den er avhengig av hva slags statistisk modell du bruker.

Det ligger mange antagelser til grunn for p-verdien i en omfattende vitenskapelig undersøkelse.

Regnestykkene blir ganske kompliserte sammenlignet med det enkle pokereksempelet.

– Men gjør du det ordentlig, får du et godt anslag, sier Simen Gaure.

Resultater som er signifikante blir oftere publisert

0,05-kulturen har inntatt store deler av forskningsverden. I et opprop i tidsskriftet Nature advarer forskere mot hva som kan skje dersom forskere og vitenskapelige tidsskrifter bruker dette tallet som en grense for om et funn er interessant eller ikke.

Det kan i verste fall bære veldig galt av sted.

– Du risikerer at ting forsvinner, sier Gaure.

– Dersom du får en effekt som ikke er signifikant, kan du ikke slå fast at den ikke er der. Du kan ikke bevise nullhypotesen.

En p-verdi på 0,05 for et resultat som viser at en medisin har effekt, sier egentlig at det er fem prosent sannsynlighet for å få akkurat dette resultatet selv om medisinen ikke har effekt.

P-verdien på 0,05 tolkes likevel som at resultatet er riktig og viktig og at døra står åpen til de vitenskapelige tidsskriftene og til små og store medieoppslag.

I vitenskapelige tidsskrifter er det flest artikler som konkluderer med en sammenheng. Du kan sjeldnere lese om studier der forskerne ikke fant noen sammenheng.

19 av 20 studier kan vise noe annet

Hvis du gjør det samme eksperimentet 20 ganger, kan du risikere at 19 av dem viser at medisinen ikke har effekt. Men dersom disse 19 har en p-verdi over 0,05, er det langt fra sikkert at de blir publisert.

– Hvis du tester noe som ikke har effekt 20 ganger, vil du likevel få én undersøkelse som viser effekt. Og den blir publisert, mens de andre 19 ikke blir publisert, hevder Gaure.

Om de 19 andre ikke blir publisert, får vi aldri kjennskap til dem. Verken forskere, politikere eller helsemyndigheter som skal vurdere medisinbruk for den aktuelle sykdommen.

I dette tenkte tilfellet vil alle gå rundt og tro at denne medisinen virker selv om det er gjort 19 forsøk som egentlig peker i motsatt retning.

Vitsetegningen viser tendensen til å løfte fram det ene resultatet som tilsynelatende viser en sammenheng. Spising av grønt godteri kan alltids opptre sammen med kviser, selv om godteriet jelly beans egentlig ikke har noe å gjøre med kvisene. (Illustrasjon: xkcd.com)
Powered by Labrador CMS