10 regler for pålitelig forskning

Store datamengder gir nye utfordringer for mange fagmiljøer. Norske forskere har utarbeidet praktiske tiltak for å etterprøve komplekse beregninger.

Publisert
Biologi og andre fag gjør stadig oftere bruk av komplekse matematiske beregninger. (Foto: (Illustrasjon: Colourbox))
Biologi og andre fag gjør stadig oftere bruk av komplekse matematiske beregninger. (Foto: (Illustrasjon: Colourbox))

Biologi handler ikke bare om pels og tenner og leveområder. Stadig oftere dreier faget seg om analyser av svære datasett, som for eksempel gentester. Da trengs matte og statistikk, og beregningene er blitt komplekse.

Også forskere kan gjøre feil. Derfor må forskningsresultater kunne etterprøves av andre.

Det er ikke en selvfølge. Små feil, slurv eller oppdatering av programvare kan gjøre at nye beregninger og gjennomgang av analyser ikke gir samme resultat som første gangen.

To forskere ved Universitetet i Oslo, Geir Kjetil Sandve og Eivind Hovig og to amerikanske kollegaer, har skrevet en praktisk veiledning for forskere som jobber med matematiske analyser av store datamengder.

Veiledningen gir i ti steg framgangsmåten for hvordan forskere kan sikre at analysene kan gjentas på nøyaktis samme måte som de opprinnelig ble gjennomført.

Viktig å kunne reprodusere forskningsresultater

For å sikre etterprøving må alle vitenskapelige studier ha nøyaktige beskrivelser av metodene som er brukt. I tillegg må datagrunnlaget være tilgjengelig slik at det går an å kontrollere at metodene faktisk produserer de resultatene som er oppgitt.

Det å å legge tilrette for reproduksjon av forskningsresultater er høyt verdsatt i mange fagmiljøer.

I tillegg til at det signaliserer en åpen og ansvarlig holdning, kan det bidra til feilretting, forbedring av metoder og forklare hvorfor forskjellige studier gir ulike resultater.

Innenfor bioinformatikken er det mange som er opptatt av å sikre reproduserbarhet, forteller Sandve:

- Vi jobber med komplekse beregninger, ofte på så store datamengder at manuell analyse ikke er mulig. Selv små feil og justeringer kan gi store utslag i resultatet. Da blir det ekstra viktig at andre kan granske studiene våre, sier Sandve, som er med i forskningsgruppen for biomedisinsk informatikk på UiO.

Når analysemetoden er hovedresultatet

En annen grunn til at reproduserbarhet er nødvendig, er at utvikling av nye beregningsmåter har blitt en viktig del av forskningsvirksomheten i seg selv.

Det å analysere gamle data på nye måter kan gi svært interessante resultater. Når selve metoden er et forskningsresultat, er det viktig at den er nøyaktig beskrevet og kan prøves ut i praksis.

- Vi har et større innslag av datadrevet vitenskap hvor man leter etter interessante funn i etterkant av datagenerering. Mulighetene dette gir for å prøve ut mange ulike teorier, gjør det ekstra viktig at forskningen i seg selv er svært presis og etterprøvbar, sier han..

Et godt eksempel på dette er utforskning av menneskets DNA:

- Det er først nå, flere år etter at mesteparten av rådataene ble samlet inn, at vi har utviklet beregningsmåter som gjør det mulig å utnytte disse dataene fullt ut, sier Sandve.

Stor utfordring

Geir Kjetil Sandve. (Foto: Privat)
Geir Kjetil Sandve. (Foto: Privat)

Dette er en utfordring på mange forskningsområder. Selv når metodene er standardisert, er det mange kilder til unøyaktighet og misforståelser.

Tilgang på datamaterialet kan også være problematisk: Det kan være hemmelig, vanskelig å få tak i og det kan være problemer med personvernet. Det hender også at data går tapt på grunn av slurv eller teknisk svikt.

Forskning på store datamengder krever ekstra påpasselighet. Det kom litt brått på i mange fagmiljøer:

- Jeg tror disse problemstillingene dukker opp innenfor mange fagfelt. Samtidig tror jeg man innenfor bioinformatikken har blitt tatt litt på senga, fordi avanserte beregninger på store datamengder de siste årene fått økt betydning.

Mange har gått i baret

Selv med god tilgang på infrastruktur, et godt samarbeidklima og høye etiske standarder, har også erfarne forskere problemer med å få til dette. Små glipp som vanligvis ikke betyr så mye, har ført til at det har blitt vanskelig å gjenta forskningsprosessene senere.

- For oss selv, kolleger og masterstudenter vi har hatt, så virker det å være regelen snarere enn unntaket at man ikke klarer å reprodusere. Dette gjør det vanskelig både å ivareta plikten til etterprøving og å vite om man henger med rent faglig, sier Sandve.

Slik unngår du de verste tabbene

De ti reglene kan grupperes i tre hovedutfordringer:

For det første må du ta vare på akkurat de verktøyene og metodene du brukte for å få frem forskningsresultatene.

Det kan godt tenkes at nye versjoner av programvaren du bruker i dag kan gi andre resultater i fremtiden. Dette gjelder også skripter og lignende som du utvikler selv. Hvis du ikke tar vare på den opprinnelige versjonen, kan det bli vanskelig å gjenskape den i fremtiden.

For det andre må du ta vare på all informasjon som oppstår og brukes i underveis i prosessen.

Du må passe på at data oppbevares i det opprinnelige formatet slik at du ikke mister desimaler eller lignende. Dette gjør det mulig å gjenskape prosessen steg for steg og gir en ekstra sikkerhet hvis noen av verktøyene skulle bli utilgjengelige.

Til slutt er det viktig at både informasjon og metoder blir permanent og åpent tilgjengelig for alle. Du må også passe på at dette blir knyttet inn i teksten på en slik måte at det blir lett å finne frem til senere.

Veiledningen har blitt svært godt mottatt i mange fagmiljøer:

- Jeg må innrømme at jeg ble overrasket over den veldige responsen på artikkelen. Dette har tydeligvis vært en øyeåpner som mange har satt pris på, sier Sandve.

 Referanse:

Geir Kjetil Sandve mfl: Ten Simple Rules for Reproducible Computational Research. PLoS Computational Biology, oktober 2013.  doi:10.1371/journal.pcbi.1003285