Når forskerne ikke finner noen sammenhenger i de statistiske analysene sine, kan det være fristende å lete om igjen. (Illustrasjonsfoto: Shutterstock/NTB scanpix)
Når forskerne ikke finner noen sammenhenger i de statistiske analysene sine, kan det være fristende å lete om igjen. (Illustrasjonsfoto: Shutterstock/NTB scanpix)

P-hacking:
Slik fisker forskere etter resultater

Forskere blir så opptatt av å få et «sikkert» resultat at de – bevisst eller ubevisst – fikler med statistikken for å få det til.

Published

Han ville vise at du kjøper flere og mer usunne varer hvis du handler på tom mage. At folk spiser opp maten de har på tallerkenen selv om de egentlig er mette.

Men den kjente amerikanske spisevaneforskeren Brian Wansink måtte slutte i jobben på grunn av uredelig forskning.

Framgangsmåten hans viser hvor galt det kan gå når forskere fikler med statistikken.

Foruten statistiske selvmotsigelser, selvplagiering og usannsynlige likheter i resultater fra helt forskjellige forsøk, begikk Wansink en ganske vanlig feil.

Han sjekket mange sammenhenger på en gang. Fant han ikke umiddelbart noe interessant blant alle deltakerne i studien sin, lette han på nye måter i mindre grupper.

For eksempel om prisen på buffeen tilsynelatende ikke påvirket hva restaurantgjestene syntes om maten de hadde spist.

Da tok han for seg bare kvinner eller bare menn, de som satt alene eller de som spiste sammen. Og fant sammenhenger, oppsummerer det amerikanske nyhetsnettstedet BuzzFeed.

Misbruker statistikken

Det Wansink drev med, kalles gjerne fisking etter p-verdier eller datafisking.

– Det vanligste er bevisst eller ubevisst å lete litt for mye i datasettene sine, uten å ha en klar plan for det, sier psykolog Jan-Ole Hesselberg, medlem i Den nasjonale forskningsetiske komité for medisin og helsefag.

I tillegg til å konsentrere seg om bare noen av deltakerne i studien er en annen vanlig strategi å fjerne deltakere som skiller seg veldig fra de fleste andre og gjøre analysen på nytt uten dem.

Det er ikke noe galt i å undersøke flere sider av materialet som forskerne har samlet inn, ifølge Hesselberg, som også er ledende fagsjef i ExtraStiftelsen.

Problemet var at Wansink og kollegene lot som om dette var planen hele veien. Mens de egentlig laget spørsmålene sine i etterkant.

– Med en gang du begynner å teste flere ting, må du korrigere for det i analysene. Og du må fortelle hva du har gjort, slik at andre kan ta høyde for at det er gjort flere forskjellige analyser, sier Hesselberg.

Forskere blir fristet til å fiske helt til de har nådd den «magiske» statistiske grensen, ifølge Jan-Ole Hesselberg i de nasjonale forskningsetiske komiteene. (Foto: Nina Fjeldsaa)
Forskere blir fristet til å fiske helt til de har nådd den «magiske» statistiske grensen, ifølge Jan-Ole Hesselberg i de nasjonale forskningsetiske komiteene. (Foto: Nina Fjeldsaa)

Fristes til p-fisking

Det kan være lett å bli revet med i jakten på et spennende resultat. Det er kjedelig ikke å finne noen sammenhenger, og slike resultater publiseres sjeldnere.

I likhet med mange andre forskere var Wansink opptatt av å komme innunder en viss statistisk grense for å kunne slå fast at resultatet var gyldig.

– Du blir fristet til å fiske helt til du har nådd akkurat den terskelen, sier Hesselberg.

Tallet som markerer grensen kalles p-verdi og viser hvor mange prosent sannsynlighet det er for at forskeren får et bestemt resultat i undersøkelsen sin selv om det ikke er slik i hele gruppa som han prøver å si noe om. Er den bare fem prosent, 0,05, er sjansen liten for at han er på bærtur.

Det har dannet seg en kultur – eller kanskje ukultur – i forskerkretser for at sannsynligheten må ligge under fem prosent for å si at et funn er sikkert nok. Slike funn kalles statistisk signifikante.

Forskerne bak et opprop i tidsskriftet Nature mener dette er misbruk av statistikken.

For grensen er tilfeldig satt og forteller dessuten ingenting om hvorvidt funnet er sant.

Når forskere ikke kommer under grensen der p-verdien er 0,05, prøver de kanskje å gjøre analysen om igjen, som denne vitsetegningen viser. Eller å lete i undergrupper blant deltakerne for å oppnå signifikante resultater. Kanskje medisinen virker bare for kvinner eller eldre? (Illustrasjon: xkcd.com)
Når forskere ikke kommer under grensen der p-verdien er 0,05, prøver de kanskje å gjøre analysen om igjen, som denne vitsetegningen viser. Eller å lete i undergrupper blant deltakerne for å oppnå signifikante resultater. Kanskje medisinen virker bare for kvinner eller eldre? (Illustrasjon: xkcd.com)

Forstyrrer funnene

Hva er problemet med at forskerne forteller om funn som de snubler over i studien sin? De kan vel også være interessante, selv om det ikke var akkurat dette forskerne lette etter?

Hvis du gjør mange undersøkelser av de samme menneskene, øker risikoen for at akkurat den sammenhengen som fremstår som gyldig, i realiteten skyldes tilfeldigheter i utvalget av deltakere.

– Begynner du å lete etter sekundære effekter, er det større sannsynlighet for at eventuelle effekter du finner ikke er reelle, sier statistikkprofessor Jan Terje Kvaløy ved Universitetet i Stavanger.

Forskernes antakelser om hva som er sant, kalles hypoteser. Hvis du tester 20 forskjellige hypoteser på det samme datamaterialet, bør du stille strengere krav til hva som er en lav nok p-verdi, mener Kvaløy.

Det er vanlig å definere et funn som signifikant – sikkert nok – dersom p-verdien er lavere enn 0,05. Med 20 hypoteser kan du dele dette tallet på 20.

Kvaløy sier at denne typen justering er grei når forskerne har et moderat antall hypoteser, men blir svært streng dersom antall hypoteser er stort. Da blir p-verdien så lav at den er veldig vanskelig å oppnå. Han forteller at det også finnes andre metoder.

Men det viktigste er at forskere forteller klart og tydelig om de har testet bare én hypotese eller om de har fisket etter lave p-verdier og signifikante resultater, mener Kvaløy.

Kan inspirere til nye undersøkelser

Endrer du fokus underveis, tester du strengt tatt ikke lenger den sammenhengen du sa at du skulle sjekke da du formulerte hypotesen din før du satte i gang.

Sidefunn kan likevel være interessante, mener Kvaløy.

– Ikke alt man finner på slike fisketurer, er tull, sier han.

– Noen ganger vil man kunne finne gullegg når man leter slik. Men du kan ikke si sikkert om det var en tilfeldig eller reell effekt.

Du kan derimot få en pekepinn om hva som kan være lurt å se nærmere på neste gang.

– Funnet bør derfor bare ha status som noe som kan være interessant å undersøke videre i nye, uavhengige studier.

Kvaløy mener forskere må være tydelige dersom de endrer kurs i forskningen. De må heller ikke overdrive betydningen av resultater som ikke er direkte knyttet til hovedhypotesen, altså den hypotesen du først og fremst tester.

Sett at du skal teste en ny blodtrykksmedisin. Underveis oppdager du at den ikke har noen effekt på blodtrykket, men at den derimot ser ut til å fungere mot hodepine.

Skal du gjøre det ordentlig, bør du da sette opp en ny undersøkelse der du sjekker om medisinen faktisk virker mot hodepine.

Det er viktig at forskere forteller klart og tydelig om de har testet bare én hypotese eller om de har fisket etter lave p-verdier og signifikante resultater, mener statistikkprofessor Jan Terje Kvaløy ved Universitetet i Stavanger. (Foto: Kari Borgos Kvaløy)
Det er viktig at forskere forteller klart og tydelig om de har testet bare én hypotese eller om de har fisket etter lave p-verdier og signifikante resultater, mener statistikkprofessor Jan Terje Kvaløy ved Universitetet i Stavanger. (Foto: Kari Borgos Kvaløy)

Avslørte seg selv

Spisevaneforskeren Wansink avslørte på en måte seg selv. Andre forskere begynte å undersøke studiene hans fordi professoren i en blogg mer eller mindre oppmuntret studenter til å bruke tvilsomme teknikker for å fremme forskerkarrieren, ifølge den britiske avisa The Guardian.

Han oppga til og med fem studier der studentene hadde gjort slike ting. Studier som Wansink selv hadde vært med på.

De andre forskerne regnet på om resultatene virket rimelige. Det endte med at flere av Wansinks vitenskapelige artikler ble trukket tilbake.

Dette er p-fisking

Som å spille yatzy uten å vite hvor mange ganger motstanderen kaster terningene Psykolog Jan-Ole Hesselberg sammenligner p-fisking med å spille yatzy skjult, der deltakerne ikke forteller hvor mange kast de bruker. Du får bare se resultatet.

Brukte de tre eller 100 kast på å få yatzy?

– Antallet kast påvirker i høyeste grad sannsynligheten for at de får de resultatene de ønsker seg, sier Hesselberg.

– Ville du spilt med noen når du ikke vet hvor mange kast de tar?

Hvis en terning detter på gulvet og havner i en sprekk som gjør det umulig å se hva terningen viser, er det nødvendig å kaste på nytt.

– Men du må vite hvorfor de måtte kaste på nytt, sier Hesselberg.

Vanskelig å oppdage tvilsomme metoder

Men ofte er det vanskelig å oppdage p-fiskingen.

– Problemet er at det i de fleste tilfeller er umulig å vise at det blir gjort bevisst. Men ser man på totalbildet, blir det tydelig at det er det som gjøres, sier Jan-Ole Hesselberg.

Han viser til en studie publisert i The Quarterly Journal of Experimental Psychology som dokumenterer at påfallende mange psykologiresultater havner akkurat innenfor den «magiske» grensen for statistisk signifikans.

– Det skal ikke skje om alle gjør som planlagt. Men om man fisker etter p-verdier, er det helt naturlig.

Det er ofte ikke godt å vite hva forskeren lette etter i utgangspunktet.

Som leder for kampanjen AllTrials i Norge kjemper Hesselberg for at alle studier skal registreres før de settes i gang. Da blir det lettere å sjekke etterpå om forskerne har gjort det de planla.

En gjennomgang fra prosjektet Compare Trials av studier som faktisk ble forhåndsregistrert, viser at mange forskere endrer plan underveis uten å fortelle om det i den vitenskapelige artikkelen sin.

Ville vise maktspråket

Et viktig prinsipp i forskningen er at flere forskere skal kunne finne ut det samme når de gjør lignende studier. Slik blir de sikrere på at konklusjonene faktisk stemmer.

Men i mange studier får ikke forskerne samme resultat når de prøver å gjøre noen andres studie om igjen.

Det har blitt kalt en reproduksjonskrise, og den er kanskje særlig kjent fra samfunnsforskningen.

Et eksempel på en studie som ikke lot seg gjenta, er et psykologisk eksperiment som tydet på at ditt eget kroppsspråk kan påvirke deg.

Amerikanske Amy Cuddy og kolleger mente å kunne bevise at om du står breibeint eller sitter med beina på skrivebordet, føler du deg mektigere enn før og handler deretter.

De målte også mindre stresshormoner og mer testosteron hos deltakerne som inntok en slik «power pose».

Men andre forskere fikk ikke samme resultater da de prøvde å gjøre studien om igjen. Cuddy fikk massiv kritikk, oppsummerer den amerikanske avisa The New York Times.

Etter hvert tok også av en av kollegene som var med på studien avstand fra konklusjonen. I en uttalelse på sin egen nettside nevnte hun p-fisking.

Tips forskning.no

Kjenner du til tilfeller av p-fisking i Norge?

Vi vil gjerne høre om norske studier der forskerne har drevet med datafisking.

Kontakt oss: [email protected]

Krise i forskningen?

At forskere får en annen p-verdi når de gjentar en studie, betyr likevel ikke nødvendigvis at det forrige resultatet var feil.

Det er nemlig helt naturlig at studier får ulike p-verdier, skriver forskerne bak en artikkel i tidsskriftet The American Statistician.

Forskerne kan ikke konkludere med at den forrige studien ikke kan gjentas fordi de nye resultatene ikke når grensen for signifikans, mener de. Det er tross alt ikke nøyaktig de samme menneskene eller omstendighetene de studerer.

Hva om det ikke er en krise i forskningen likevel? Det er ikke en krise om vi ikke forventer å kunne gjenta studien, hevder forskerne.

Men det er ikke bare p-verdien som antyder at vi har en krise. Ofte er sammenhengen svakere i gjentakelsen enn i den opprinnelige studien. Og styrken på effekten må det gå an å sammenligne fra studie til studie, mener Hesselberg.

Lett å bli avhengig

Når studier gir ulike resultater, kan forskerne bli sikrere på svaret ved å gjøre store oppsamlingsstudier der de regner på resultatene fra flere enkeltstudier samtidig.

Muligheten for oppsamlet kunnskap er også knyttet til hvordan forskningen blir forstått. Når forskere skal presentere studiene sine må de vurdere en rekke andre sider enn p-verdien, understreker forskerne i The American Statistician.

I stedet for å fokusere på usikre resultater bør de beskrive både hvordan studien ble gjennomført, hvilke problemer som oppsto og tallene som kom ut av analysen.

De sammenligner forskernes forhold til statistisk signifikans med alkohol. Den er ikke skadelig brukt på en fornuftig måte, men det er lett å bli avhengig. Både alkohol og statistiske metoder kan gi tro på enkle løsninger uten negative konsekvenser.

Referanse:

Valentin Amrhein mfl: Inferential Statistics as Descriptive Statistics: There Is No Replication Crisis if We Don’t Expect Replication. The American Statistician, vol. 73, nr. 1, online 20. mars 2019. Doi: 10.1080/00031305.2018.1543137.