Bare 13 av 21 vitenskapelige studier kunne gjenskapes i ny studie. Er det et problem for vitenskapen? (Foto: Dmytro Gilitukha / Shutterstock / NTB scanpix)
Bare 13 av 21 vitenskapelige studier kunne gjenskapes i ny studie. Er det et problem for vitenskapen? (Foto: Dmytro Gilitukha / Shutterstock / NTB scanpix)

Kan vi stole på samfunnsvitenskapen?

En tredjedel av samfunnsvitenskapelige studier i de to største tidsskriftene stryker. Hva betyr det for forskningen?

Publisert

En tredjedel av samfunnsvitenskapelige studier publisert i verdens største tidsskrifter, Nature og Science, kan ikke gjenskapes.

Det er en av vitenskapens grunnpilarer at eksperimenter må kunne gjentas og gi samme resultat for å være troverdige.

Av de 21 studiene som ble undersøkt, kunne 8 ikke reproduseres, og i 13 av de andre var effekten under halvparten av det som opprinnelig ble rapportert, ifølge studien i Nature.

Kan vi da stole på vitenskapen?

Ja, det kan vi, ifølge Dorthe Berntsen, som er leder av Danmarks Grundforskningsfonds Center for Selvbiografisk Hukommelsesforskning og professor ved Psykologisk Institut ved Aarhus Universitet.

– For det første må vi huske på det bare var en av flere effekter fra en studie som ble testet. For det andre kan det være ulike årsakene til at replikasjonen er mislykket, inkludert forskjeller i de gruppene som ble studert.

Samfunnsvitenskapene og replikasjonskrisen

Den nye studien er del av hel rekke som de siste årene har skapt røre innen samfunnsvitenskapene.

Alt sammen startet for alvor i 2015, da det kom en oppsiktsvekkende studie som satte fokus på problemer med å gjenskape resultatene i psykologiske eksperimenter.

Her hadde forskerne forsøkt å gjenskape 100 eksperimentelle studier. Det viste seg at mens 97 prosent av de originale studiene hadde signifikante resultater, var det falt til bare 36 prosent i replikasjonsstudiene.

Signifikante resultater vil si at de gjør seg gjeldende i så høy grad at tilfeldig variasjon kan utelukkes.

Studien i 2015 satte i gang en diskusjon som har blitt døpt «replikasjonskrisen».

– Det gikk opp for forskningsverdenen at det var et stort problem her. Ikke bare innen psykologi, men alle de samfunnsvitenskapene. Vi har svake måleinstrumenter, og det er vanskelig å skille støy fra effekt. Vi kan ikke forutsi ting på samme måte som naturvitenskapene, sier Jesper Wiborg Schneider, som er professor ved Institut for Statskundskab – Dansk Senter for Forskningsanalyse ved Aarhus Universitet.

Professor: Usunn kultur får forskere til å overdrive resultater

Dorthe Berntsen, som er leder av Danmarks Grundforskningsfonds Center for Selvbiografisk Hukommelsesforskning Psykologisk Institut ved Aarhus Universitet, er ikke enig i at det er en krise, for det kan være mange årsaker til at de omtalte studiene ikke kunne gjentas.

Men hun er enig i at det er visse problemer som må løses.

– Jeg er helt enig i at det kan være en overvurdert effekt i noen studier, som blant annet skyldes publikasjonspress, men det er ikke begrenset til samfunnsvitenskapene. I alle fag handler det om å publisere mye og gjerne med stor nyhetsverdi, sier hun.

Hva er en replikasjonsstudie?

  • En av vitenskapens grunnpilarer er at forsøk skal kunne gjentas uavhengig og vise samme resultat.
  • En replikasjonsstudie er et forsøk på å gjenskape det tidligere forsøket.
  • Ofte er det flere forsøkspersoner i en replikasjonsstudie.
  • Det gjør at man kan måle effekten mer nøyaktig.
  • Mikkel Willum Johansen, som er vitenskapsteoretiker og førsteamanuensis ved Institut for Naturfagenes Didaktik ved Københavns Universitet, påpeker at en studie imidlertid aldri kan gjentas fullstendig.

Mange vitenskapelige tidsskrifter er ifølge Berntsen fokuserte på å utgi studier som finner overraskende effekter, som kan gi medieomtale, mens studier som viser en negativ effekt eller gjentar tidligere funn, nedprioriteres.

Jesper Wiborg Schneider er enig i denne kritikken.

– Det gjør at det kommer en overvekt av studier med overvurderte effekter. Det gir en skjevhet som man må justere for i en litteraturgjennomgang, sier han.

Ikke bare et problem for samfunnsvitenskapene?

Jesper Wiborg Schneider forteller at det for tiden mest er fokus på problemet innen psykologi, økonomi og sosiologi, som beskrives i den nyeste replikasjonsstudien i Nature.

– Vi har gjennomført eksperimenter og funnet signifikante resultater, og så konkludert med at det er slik ute i verden. Nå har man fått øynene opp for at noe må gjøres.

Dorthe Berntsen tror ikke at problemet er begrenset til samfunnsvitenskapene, og hun mener blant annet at psykologi har blitt utsatt fordi det er relativt lett å utføre replikasjonsstudier på området.

– Det er ikke så dyrt eller komplisert å rekruttere en gruppe studenter til å delta i eksperimenter, sammenlignet med for eksempel aper, spedbarn eller alvorlig syke mennesker. En del psykologiske eksperimenter krever heller ikke spesielt dyrt eller avansert utstyr, så man har valgt å gå etter lavthengende frukt, sier hun.

Vitenskapsteoretiker: Umulig å gjenta et forsøk perfekt

Mikkel Willum Johansen, som er vitenskapsteoretiker og førsteamanuensis ved Institut for Naturfagenes Didaktik ved Københavns Universitet, påpeker dessuten at man aldri vil kunne replisere en studie fullstendig.

– Det vil alltid være små forskjeller, og det er ikke alltid at man kan vite hvordan de kan ha innflytelse på resultatet, sier han.

Spesielt når det har med mennesker å gjøre, og derfor må man være varsom med å si at feilen alltid ligger i den opprinnelige studien.

– Man kan godt forestille seg at mennesker er et spesielt vanskelig forskningsfelt. Vi er ulike og reagerer på ulike ting. Derfor er det også veldig lett å komme til å gjøre feil, slik at reproduksjonen ikke blir den samme, sier han.

Pasteur, Pouchet og bakteriene

Mikkel Willum Johansen kommer særlig på én berømt historisk episode som viser at selv små og tilsynelatende ubetydelige endringer kan få store konsekvenser for utfallet i et forsøk.

Da den franske biologen og kjemikeren Louis Pasteur på 1800-tallet argumenterte for at liv ikke kunne oppstå spontant, stilte han opp et forsøk.

Replikasjonskrisen

  • I 2015 utga amerikanske psykologiprofessoren Brian Nosek fra University of Virginia School of Medicine en studie av 100 tidligere eksperimenter.
  • Den gjennomsnittlige effekten var mer enn halvert. 97 prosent av de originale studiene hadde signifikante resultater, mens det bare var 36 prosent i replikasjonene.
  • To år senere utga John Ioannidis, professor i medisin ved Stanford University School of Medicine, en litteraturgjennomgang av 159 eksperimentelle økonomiske studier.
  • Her viste det seg at mer enn 90 prosent av studiene hadde resultater fra inkonsistente forsøk.
  • Mesteparten av resultatene var dessuten overdrevet med minst en faktor på 2, mens en tredjedel av studiene var overdrevet med faktor på 4 eller mer.

Han helte en næringsvæske i en flaske, kokte væsken og satte på lokk. Hvis liv kunne oppstå spontant, uten levende bakterier fra andre steder, ville det kunne oppstå liv i væsken, selv om det var lokk på. Det gjorde det ikke, og forsøket bekreftet Pasteurs påstand.

Men hans vitenskapelige motstander, Félix Pouchet, fikk et annet resultat når han gjennomførte forsøket. Han kokte også en næringsholdig væske og satte på lokk, men her oppsto det levende bakterier i væsken.

Det viste seg imidlertid at Pasteur og Pouchet brukte ulike væsker.

En liten forskjell, som man på det tidspunkt ikke visste om, var utslagsgivende.

I dag vet vi at det finnes termoresistente bakterier – bakterier som kan overleve både høye og lave temperaturer. I Pouchets væske var det altså bakterier som overlevde.

På samme måte kan det i dag være små forskjeller mellom den opprinnelige studien og forsøket på å reprodusere det, mener Mikkel Willum Johansen.

Den franske kjemikeren og biologen Louis Pasteur hadde på 1800-tallet flere sammenstøt med Félix Pouchet. Begge påsto hårdnakket å ha gjennomført samme forsøk, men de fikk ulike resultater. (Maleri: Albert Edelfelt)
Den franske kjemikeren og biologen Louis Pasteur hadde på 1800-tallet flere sammenstøt med Félix Pouchet. Begge påsto hårdnakket å ha gjennomført samme forsøk, men de fikk ulike resultater. (Maleri: Albert Edelfelt)

Eksperimenter kan finne lokale effekter

Johansen forteller dessuten at det er mange eksempler på eksperimenter som vil finne en lokal effekt som ikke gjelder i resten av befolkningen.

– Det gjelder for eksempel en studie om kjønnsstereotyper innen matematikk.

Denne studien, som ble publisert i tidsskriftet Journal of Experimental Social Psychology, bygger på fordommer om at asiater er bedre enn gjennomsnittet i matematikk, mens kvinner er dårligere enn gjennomsnittet.

Her har man tatt en gruppe kvinnelige asiater på et universitet og delt dem opp i tre grupper.

En gruppe som ble minnet om at de var asiater, en gruppe som ble minnet om at de var kvinner, og en gruppe som fikk irrelevante spørsmål.

Resultatet var at gruppen som ble minnet om at de var asiater, klarte seg bedre enn gjennomsnittet, og gruppen som ble minnet om at de var kvinner, klarte seg dårligere.

– To forskergrupper forsøkte i 2014 å reprodusere forsøket. Den ene gruppen kunne til dels reprodusere effekten, mens den andre slett ikke kunne det. Hvorfor, vet man ikke. Kanskje er det ikke noen effekt, og kanskje opptrer den bare hvis bestemte forhold er til stede. For eksempel en bestemt sammensetning av studenter, sier han.

– Det kan bli et startskudd til å undersøke ting nærmere, og hele affæren viser også at man ikke skal være for skråsikker med å konkludere ut fra en enkelt studie.

Professor: Snevre forsøk kan ikke generaliseres

Jesper Wiborg Schneider er enig i at studier som ikke kan repliseres, fortsatt kan ha en verdi. Det er viktig å ikke generalisere for raskt.

– Hvis et eksperiment viser seg å være veldig følsomt overfor endringer, bør man nok være forsiktig med å konkludere med at de gjelder ute i virkeligheten, sier han.

Men studien kan likevel være verdifull.

– Det er jo en del av den vitenskapelige prosessen. Det handler om å hele tiden revidere, sier han.

I de 21 studiene som ble undersøkt i Nature, hadde forskerne i gjennomsnitt brukt fem ganger så mange forsøkspersoner i replikasjonen.

– Det er helt normalt at effektstørrelsene blir mindre når studiene blir sterkere. Det skyldes at forskere smører litt tjukt på for egne studier, sier Jesper Wiborg Schneider.

Han mener utviklingen går i riktig retning.

– Det er veldig fint at det kommer oppmerksomhet om å gjenta forsøk. Det er jo klassisk vitenskapsteori å etterprøve forsøk. Likevel er det først innen de siste årene at det har vært mulig å få slike ting publisert, sier han.

Bør forskerne erklære på forhånd hva de leter etter?

Schneider mener det er positiv med oppmerksomhet om feilene i publiserte studier.

Han mener også at tiltak som replikasjonsstudier og preregistrering kan være bra.

– Når forskerne må erklære på forhånd hva de leter etter, kan de ikke endre kurs underveis hvis ting ikke går som de ønsker. Slik har man for eksempel gjort innen medisin i mange år, sier han.

Dorthe Berntsen mener denne metoden også kan ødelegge mulighetene for nye oppdagelser.

– Noen typer studier passer godt til preregistrering, og der vil åpenheten være gunstig, men det har også ulemper i forhold til mer utforskende tilnærminger, sier hun.

– Noen viktige funn blir oppdaget ved tilfeldigheter, når man ikke på forhånd vet hva man kan forvente.

For eksempel er det ifølge Berntsen et robust og anerkjent funn innen psykologien at mennesker som er over 40 år gamle, husker flere perioder fra ungdomslivet enn fra andre perioder.

– Det fant man ut ved en tilfeldighet. Det var en morsom hump på kurven som man ikke hadde noen hypotese om å finne på forhånd, sier hun.

Professor: Forskere bør være mer selvkritiske

Dorthe Berntsen mener at en del av problemet er en dyrking av høy produktivitet og oppsiktsvekkende resultater.

– Vi må ha en annen insentivstruktur, med mer vekt på kvalitet, sier hun.

Ifølge Berntsen skyldes strukturen blant annet at mange yngre forskere har problemer med å få fast ansettelse, samt et voksende behov for å skaffe eksterne midler.

Men forskerne kan også gjøre noe selv, mener hun.

– Den enkelte forskeren kan også selv bidra ved å være mer kritisk overfor egne resultater. Da får man dempet forventningene, sier hun.

Referanser:

C.F. Camerer mfl: «Evaluating the replicability of social science experiments in Nature and Sciencebetween 2010 and 2015», Nature Human Behaviour (2018), https://doi.org/10.1038/s41562-018-0399-z

J.P.A. Ioannidis mfl: «The Power of Bias in Economics Research», The Economic Journal (2017), DOI: 10.1111/ecoj.12461 Sammendrag

© Videnskab.dk. Oversatt av Lars Nygaard for forskning.no.