For å kunne stole på et forskningsresultat bør flere studier vise det samme. Forskere snakker om en krise i vitenskapen fordi så mange studier ikke kan gjentas. (Foto: Shutterstock/NTB Scanpix)
For å kunne stole på et forskningsresultat bør flere studier vise det samme. Forskere snakker om en krise i vitenskapen fordi så mange studier ikke kan gjentas. (Foto: Shutterstock/NTB Scanpix)

Krise i forskningen: Klarer fortsatt ikke å bekrefte andres studier

Forskerne prøvde å gjenta 21 samfunnsfaglige studier, men bare 13 av dem ga samme resultat som før.

Published

For at vi skal kunne stole på kunnskapen fra forskning, må forskerne forske på det samme om igjen. Og om igjen. Lærdommen fra én studie er mindre verdt enn mange studier som viser det samme.

Forskerne kan å bli sikrere på svaret ved å gjenta en bestemt studie for å se om de får et lignende resultat på ny.

Det er langt enklere å gjenskape forholdene i en studie av mus på laboratoriet enn på mennesker som lever i et samfunn. Vi er tross alt mye mer forskjellige.

Likevel bør det være mulig å gjenta eksperimenter der forskerne tester ut noe på deltakerne og sammenligner med en lignende gruppe mennesker som ikke får slik behandling.

Det har en forskergruppe fra flere land nå prøvd. De gjentok 21 samfunnsfaglige studier publisert i de prestisjetunge tidsskriftene Science og Nature. Studiene handlet om alt fra religiøse overbevisninger til personlig økonomi.

Men bare 13 av dem ga samme resultater som før. Det tilsvarer 62 prosent av studiene.

Mer enn hver tredje lærdom får forskerne altså ikke bekreftet.

Positive funn publiseres oftere

Det er slett ikke første gang at forskere har hatt problemer med å få samme resultat to ganger.

I alt fra psykologi til kreftforskning er det mange studier som ikke lar seg etterprøve.

Flere snakker om en krise i vitenskapen.

– Dette er et stort problem og viser hvorfor det er så viktig å gjøre studier om igjen. Vi vet at det er mange av forskningsfunnene vi ikke kan stole på, sier psykolog Jan-Ole Hesselberg, som har lest den nye gjennomgangen av samfunnsfagene.

Han er ledende fagsjef i Extrastiftelsen, som gir økonomisk støtte til helseforskning. Som aktivist bak den norske avdelingen av kampanjen AllTrials er han opptatt av at alle forskningsresultater skal offentliggjøres – enten de viser en effekt eller ei.

Psykologen minner om noe forskning.no tidligere har skrevet om i artikkelserien Forskningen du ikke får se: En del forskere løfter fram positive funn og lar være å fortelle om det de gangene de ikke finner noe. Det gir enda en grunn til å gå de tilsynelatende sammenhengene etter i sømmene.

– Det betyr ikke nødvendigvis at det er noe galt med den første studien. Det kan være tilfeldigheter som gir forskjellige resultater. Derfor burde de gjøre studiene enda flere ganger, sier Hesselberg til forskning.no.

Men det er ikke særlig populært å gjøre gamle studier om igjen, selv om det de siste årene har kommet en del forsøk på å gjenta studier innen ulike fagfelt.

Psykolog Jan-Ole Hesselberg synes mange forskere blir opphengt i detaljer når resultatene ikke viser det samme to ganger. – Hovedbildet er at det er for mange studier som ikke lar seg gjenta, sier han. (Foto: Nina Fjeldsaa)
Psykolog Jan-Ole Hesselberg synes mange forskere blir opphengt i detaljer når resultatene ikke viser det samme to ganger. – Hovedbildet er at det er for mange studier som ikke lar seg gjenta, sier han. (Foto: Nina Fjeldsaa)

Få forsøkspersoner

Det kan være flere grunner til at resultatene ikke stemmer overens første og andre gang. Én er studier med få forsøkspersoner. Da øker faren for at et resultat som egentlig oppstår tilfeldig, kan framstå som en tydelig sammenheng.

I den nye gjennomgangen sørget forskerne for å øke kraften i de statistiske analysene ved å studere opptil seks ganger så mange mennesker som i de opprinnelige eksperimentene.

De fant nærmest ingen effekt i de åtte studiene som ikke viste noen statistisk signifikant sammenheng. Det betyr at det overhodet ikke var noen tegn på at det opprinnelige funnet stemte.

Og selv i de 13 studiene som viste en gyldig sammenheng, var effekten svakere enn før. Den var i snitt bare 75 prosent av effekten i de første studiene.

Mange forskere vet nok innerst inne hvilke funn som er usikre. I en spørreundersøkelse forutså 400 samfunnsvitere ganske godt hvor mange av studiene som kom til å vise samme resultater på ny.

Fikler med statistikken

Det kan være lett å bli revet med i jakten på et spennende resultat. Det er kjedelig ikke å finne noen sammenhenger, og slike resultater publiseres sjeldnere.

Den svenske økonomen Magnus Johannesson har vært med på den nye gjennomgangen av samfunnsforskningen. Han peker på at forskerne bevisst eller ubevisst kan manipulere forskningen sin.

De analyserer dataene sine på mange forskjellige måter til de finner en sammenheng.

– Manipulasjonen blir kalt p-hacking, og det er et viktig problem å adressere, sier Johannesson til det danske nettstedet videnskab.dk.

Fikk kritikk for endringer

Skyldes replikasjonskrisen dårlig forskning, juks, slurv eller en hang til å overdrive positive resultater? Eller må forskerne som skal gjenta studiene være mer nøyaktige? Det krangler fagfolkene stadig om.

Den amerikanske forskeren Brian Nosek, som også står bak den nye gjennomgangen av samfunnsforskning, har tidligere etterprøvd psykologistudier og funnet ut at halvparten ikke lot seg gjenta.

Men han og kollegene fikk kritikk fordi studiene ikke lignet helt på de opprinnelige.

For eksempel ble en studie som spurte israelere om å vurdere konsekvensene av militærtjeneste, gjentatt ved å spørre amerikanere om konsekvensene av en bryllupsreise.

Og en studie som opprinnelig undersøkte amerikaneres holdninger til afroamerikanere, ble gjort om igjen i Italia.

Detaljer kan avgjøre

Denne gangen bestreber Nosek og kollegene seg på at studiene skal være så like som mulig. De har blitt enige med forskerne bak alle de opprinnelige studiene, unntatt én, om hvordan gjentakelsen skal gjøres.

Noen av forskerne er fornøyde med resultatet, selv om det ikke støtter deres egne funn. Forskerne bak en av studiene tror ikke lenger at det å se på bilder av skulpturen «Tenkeren» får folk til i mindre grad å si at de er religiøse.

Andre har høylytte innvendinger mot studien som de selv har vært med på å designe. Det ble mindre avvik fra den opprinnelige planen i 13 av gjentakelsene.

Noen mener at Nosek og kollegene likevel ikke har gjentatt studien deres nøyaktig slik de skulle.

I en av studiene skulle deltakerne plukke ut sine favoritter blant ulike musikkalbum og fikk presentert en liste alfabetisert etter albumnavn den første gangen og etter artistnavn den andre gangen.

Det kan ha ødelagt effekten av eksperimentet at deltakerne i gjentakelsen ved en glipp fikk se den samme lista to ganger.

– Men hvis disse effektene er så skjøre, kan man stille spørsmål ved hvor interessante de er, sier psykolog Jan-Ole Hesselberg.

Flisespikkeri?

– Studiene ser ofte på effekter som er ment å være allmennmenneskelige og som du bør kunne finne igjen i flere typer situasjoner og om du spør på en litt annen måte, fortsetter Hesselberg.

Han synes det ofte blir mye fokus på flisespikkeri når et resultat blir avkreftet.

Hesselberg viser til en studie som utfordret et kjent forskningsresultat som tydet på at du blir gladere av å tvinge fram et smil.

Den nye studien fikk ikke samme resultater da deltakerne ble filmet. De ble kanskje for selvbevisste – eller så var det bare ikke så mye i hold i påstanden om at vi kan smile oss til lykken. Du kan lese mer om den vriene avveiningen i denne bloggen på nettstedet til The British Psychological Society.

– Det kan godt hende at de metodiske detaljene er relevante for resultatet i enkeltstudier. Men hovedbildet er uansett at det er for mange studier som ikke lar seg gjenta, sier Hesselberg.

Referanse:

Colin F. Camerer mfl: Evaluating the replicability of social science experiments in Nature and Science between 2010 and 2015. Nature Human Behaviour, 27. august 2018. DOI: 10.1038/s41562-018-0399-z. Sammendrag.