Når forskerne tester for eksempel hvor godt en medisin virker, er det lett å tro at enkelte statistiske mål forteller mer enn de gjør. 800 forskere advarer i et opprop mot misbruk og misforståelser av statistikken. (Illustrasjonsfoto: Shutterstock/NTB scanpix)
Statistisk signifikans: 800 forskere advarer mot misbruk av metode
– Jeg håper kommentaren i Nature vil gjøre at forskerne endelig våkner opp, skriver Sandra Hamel i en e-post til forskning.no. Hun er førsteamanuensis ved UiT Norges arktiske universitet.
Et vanlig verktøy i forskningen blir misbrukt, mener de.
Lei av misbruk
Det er umulig å bestemme akkurat hvor grensen går for når et forskningsresultat er sikkert nok. Det er en glidende skala av usikkerhet.
Likevel setter forskere ofte en slik grense. Havner resultatet innenfor denne grensen, blir det sett på som gyldig.
Hvis ikke, kaster de gjerne studien sin i søppelbøtta. Andre fikler med statistikken for å komme under grensen – les mer om det i denne artikkelen på forskning.no.
Nettopp dette har mange sett seg lei på: at en tilfeldig valgt grense skal bestemme om et funn er signifikant, og at forskere tolker den som at funnet er sikkert.
Forskerne bak oppropet vil pensjonere begrepet.
«Misbruket av statistisk signifikans har skadet forskningsmiljøene og de som er avhengige av vitenskapelige råd», skriver forskerne som jobber med alt fra biologi til psykologi og medisin.
Kan få konsekvenser for samfunnet
Grensen setter forskerne med et tall som kalles p-verdi. I statistikkens verden viser p-verdien i praksis hvor usikre forskerne er på om det de har funnet ut kan skyldes tilfeldigheter.
De vil for eksempel gjerne vise at det faktisk er flere i Norge som får influensa om vinteren enn om sommeren – ikke at de studerte bare de stakkars få som hadde influensa den vinteren. Det er alltid en fare for at forskerne tilfeldigvis ender opp med å forske på noen som ikke representerer befolkningen.
– Det største problemet er at forskerne, som mange andre, ser verden i svart-hvitt, skriver Hamel, som jobber ved Institutt for arktisk og marin biologi.
Men dette var aldri tanken bak p-verdien, mener hun.
– Det er der det er misbruk.
Noe som egentlig skal vise fram usikkerheten i forskningen, blir altså brukt som et skråsikkert svar.
Annonse
Det kan føre til at politikere som støtter seg til forskning kan ende opp med å ta beslutninger på feil grunnlag. De risikerer også å gå glipp av viktige forskningsresultater som blir sortert bort.
Problemet med p
Hamel og mange med henne har kjempet mot dette i flere år.
Nå har de samlet krefter for å gjøre kål på praksisen.
Forskerne bak oppropet viser til tidsskriftet The American Statistician, som har viet en hel utgave til problemstillingen.
Når forskere i biomedisin oppgir p-verdi i artiklene sine, bruker de den i 96 prosent av artiklene på denne måten – for å slå fast at et funn er gyldig fordi det havner innenfor den mest brukte grensen på fem prosent.
P-verdien er et tall som viser hvor mange prosent sannsynlighet det er for at forskeren får et bestemt resultat i undersøkelsen sin selv om det ikke er slik i hele gruppa som han prøver å si noe om.
Annonse
Er verdien bare fem prosent, er sjansen liten for at han er på bærtur. P-verdien kan være alt mellom 0 og 100 prosent. Jo lavere verdi, desto bedre.
Men hvorfor i all verden skulle et resultat bli regnet som skikkelig solid om sjansen er fire prosent, men ikke om den er seks prosent?
– Man risikerer å forkaste interessante resultater fordi p-verdien ikke «er signifikant», skriver overlege Preben Aavitsland ved Folkehelseinstituttet i en e-post til forskning.no.
Også Aavitsland mener at vi bør slutte å bruke statistisk signifikans.
Forteller ikke sannheten
Det finnes flere sider ved misbruket av p-verdien.
– Når folk hører «statistisk signifikant», tenker de «har betydning», eller «er et viktig resultat», eller noe i den duren. Det er en uheldig sammenblanding, skriver Torstein Låg, som er fagansvarlig ved psykologi- og jusbiblioteket ved UiT. Han har lite til overs for begrepet.
Ofte tolker forskerne selv for mye inn i p-verdien. Den forteller oss nemlig ikke om svaret de har funnet er sant.
«Ingen p-verdi kan avdekke troverdigheten, forekomsten, sannheten eller viktigheten av en sammenheng eller effekt», som The American Statistician melder på lederplass.
Samme resultat – ulik konklusjon
For eksempel sier ikke p-verdien hvor sterk en sammenheng er.
Forskerne bak oppropet viser til et eksempel der forskere skulle måle om noen betennelsesdempende medisiner kunne forstyrre hjerterytmen.
Annonse
To studier fant nøyaktig samme effekt: det var 20 prosent større sjanse for hjerteproblemer hos pasientene som fikk slike medisiner.
Den ene studien konkluderte med at bruk av medisiner og hjerteproblemer var knyttet sammen, mens den andre konkluderte med at det ikke var noen sammenheng.
Hvordan kunne de trekke så ulike konklusjoner?
Fordi forskerne bak den ene studien oppnådde en p-verdi som var statistisk signifikant, mens de andre ikke fikk det.
Ser vi nærmere på usikkerheten rundt resultatene, viser den første studien at de som tar medisinene, har mellom 9 og 33 prosent høyere risiko, mens den andre viser at risikoen er mellom 3 og 48 prosent. Nettopp denne usikkerheten bør forskerne formidle, mener forskerne bak oppropet.
Det første resultatet er altså mer presist enn det andre. Men det andre resultatet viser også en risiko. Det blir feil å konkludere med at medisinene ikke kan forstyrre hjertet.
Vil fokusere mer på effekten
Flere av forskerne som forskning.no har vært i kontakt med, synes de bør konsentrere seg mer om hvor sterk sammenhengen er mellom det de studerer, ikke bare om det finnes en sammenheng.
Øystein Sørensen er førsteamanuensis ved Universitetet i Oslo (UiO) og jobber med psykologi. Han nevner et tenkt eksempel der forskning viser at de som trener, lever lenger enn de som ikke trener.
Om effekten av trening er 0,01 år lengre levetid, betyr det noe helt annet for folkehelsa enn om de som trener lever fem år lenger.
– Dette kan ikke p-verdien fortelle oss noe som helst om, skriver Sørensen i en e-post.
Men den kan være bra brukt på riktig måte, mener han, sammen med andre mål.
Alternativ bruk
Annonse
Vi trenger noen holdepunkter for å kunne avgjøre hva som er god forskning. Hva er alternativet til statistisk signifikans?
Å innse at p-verdien er en flytende størrelse, ikke en definert grense. Og å kombinere den med en rekke andre mål som kan fortelle mer om forskningsfunnet, lyder det i en av artiklene i The American Statistician.
Forskerne bør ikke kvitte seg med p-verdien, understreker forskerne bak oppropet.
Men ofte betyr det mer hvordan studien er laget og hvordan forskerne forklarer funnene sine.
– Må omfavne usikkerheten
Kulturen for signifikanstesting har gjort at mange forskere tar på skylapper og prøver å unngå å håndtere usikkerhet. Men i den virkelige verden sender statistikken ut ganske rotete beskjeder, melder lederartikkelen i The American Statistician.
Forskerne må være flinke til å fortelle at resultatene de presenterer, er usikre. De må lære seg å omfavne usikkerheten, oppfordrer forskerne bak oppropet i Nature.
Simen Gaure mener dette ikke er så lett for oss mennesker. Han er matematiker og forsker på Frischsenteret.
– Folk er ikke komfortable med usikkerhet. De vil helst at forskere skal si ja eller nei, sier Gaure.
– Prinsippet med statistiske undersøkelser er at du skal ta høyde for usikkerhet, og da kan du ikke lage et ja/nei-svar! Vi må godta at verden er vanskelig.
Blakeley B. McShane mfl: Abandon Statistical Significance. The American Statistician, vol. 73, nr. 1, online 20. mars 2019. Doi: 10.1080/00031305.2018.1527253.
Ronald L. Wasserstein mfl: Moving to a World Beyond «p < 0.05». The American Statistician, vol. 73, nr. 1, online 20. mars 2019. Doi: 10.1080/00031305.2019.1583913.