Universitetet i Oslo tar nå et krafttak for at flere forskere skal kunne kombinere og analysere store mengder data og samtidig dele egne forskningsdata med resten av verden. (Foto: Microstock/NTB scanpix)

– Deling av data vil hindre forskningsjuks

Forskerne har gjerne dataene sine gjemt litt her og litt der. Nå skal de deles med hele verden. Det vil hindre juks, håper UiO-rektor.

I mange hundre år har teorier og eksperimenter vært de to grunnpilarene i vitenskapen. For noen tiår siden endret beregningsorientert vitenskap den vitenskapelige metoden. Nå har den dataintensive vitenskapen ført til en ny omveltning.

– Forskere over hele verden genererer enorme mengder data hver dag. Deling av forskningsdata er en helt ny måte å tenke på, forteller forskningsdekan Svein Stølen på Det matematisk-naturvitenskapelige fakultet ved Universitetet i Oslo.

Rektor Ole Petter Ottersen mener at deling av forskningsdata kan gagne hele verdenssamfunnet og være med på å løse store samfunnsproblemer, fra fattigdom og energi til helse og global oppvarming.

– Forskningsdata vil ta over etter oljen som en av våre viktigste og grønneste ressurser. Vi står dessuten foran en unik mulighet til å demokratisere vitenskap og infrastruktur, slik at vi også kan få med de nasjonene som har blitt hengende etter i den økonomiske og teknologiske utviklingen, sier Ottersen.

Når meteorologi kobles med data om japanske gnagere

Professor Nils Christian Stenseth var tidlig ute med å bruke data fra andres forskning. (Foto: Andreas B. Johansen)

Professor Nils Christian Stenseth på Senter for økologisk og evolusjonær syntese (CEES) har svart belte i dataintensiv vitenskap og har vært en foregangsmann på UiO i å kombinere data fra ulike steder i verden.

Allerede i 1992 koblet han meteorologiske data med et stort datasett om japanske gnagere. Han kunne da vise hvordan endringene i lengden på årstidene påvirket gnagerbestanden. De siste femten årene er han blitt verdensanerkjent for sine analyser av torskedata.

– Dette er fantastiske data som har gitt oss dyp innsikt i torskens dynamikk fra år til år og hvordan den er forskjellig mellom ulike regioner. Jeg husker hvordan amerikanske forskere var meget misunnelige på meg fordi jeg hadde fått tilgang på denne typen flotte data.

Rett etter årtusenskiftet fikk han tilgang til sovjetiske pestdata.

– Analysen av disse dataene har gitt oss helt ny innsikt i hvordan klimavariasjoner påvirker epidemier, mener Stenseth.

Ingen bevisst holdning til deling

Noen fagområder genererer enorme mengder data i løpet av et år. Én enkelt DNA-sekvenseringsmaskin produserer tjue ganger mer data i løpet av ett år enn den samlede datamengden i det amerikanske kongressbiblioteket. Et solobservatorium kan i løpet av ett år laste ned tre hundre tusen ganger mer data enn det som er plass til på harddisken din.

Også små datamengder kan volde hodepine.

– Noen forskere har kanskje ikke så mange data, men dataene deres er ofte fordelt i så mange skuffer og skap at de ikke har oversikt over hvor de er og hvilken versjon som gjelder. Så løsningen er ikke bare mer diskplass, men også et bedre system for å systematisere dataene, sier Hans Eide i Seksjon for IT i forskning ved UiO.

– Mer diskplass løser ikke alt. Det er vel så viktig at forskerne får et bedre system til å holde orden på dataene sine, poengterer Hans Eide. (Foto: Yngve Vogt)

I dag blir mye forskningsdata delt i dropbox og tilsvarende gratisløsninger.

– Da deler du kanskje dataene med tjue andre, men ingen andre forskere vet at disse dataene finnes. Så dropbox løser ikke problemet, fremhever Hans Eide.

EU anbefalte i 2012 medlemslandene sine å utvikle retningslinjer for å åpne tilgangen til alle forskningsdata.

Et utvalg ved UiO som nylig har undersøkt hvilke muligheter dataeksplosjonen gir, slår fast at de fleste UiO-forskerne i dag ikke har noen bevisst holdning til lagring og deling av data. Dessuten er kunnskapen deres for liten om hvordan dette kan la seg gjøre.

– Forskerne må få de verktøyene og den kompetansen som trengs for å være med i fremste rekke. Løsningen må fungere globalt og for alle forskere, uansett hvor i verden de befinner seg. Det må være lett å gjenfinne dataene. Og løsningen må dessuten være slik at den enkelte forsker ser større fordeler enn ulemper ved å dele dataene sine, konkluderer utvalgets leder, Svein Stølen.

Kan hindre juks

Når alle forskningsdata bevares, blir det samtidig mulig å dobbeltsjekke resultatene. Lagring av data kan derfor bli en garanti mot forskningsjuks.

– En stor andel av de resultatene som publiseres i dag, lar seg ikke reprodusere når andre forskere etterprøver dem. Dette skader forskningens omdømme. Gode systemer for å lagre og gjøre dataene tilgjengelige er den beste oppskriften på å sikre at forskningen holder høy standard og at den lar seg etterprøve av andre, påpeker Ole Petter Ottersen.

For ni år siden ble Jon Sudbø avslørt for å ha jukset med dataene sine. En del av dataene var oppkonstruerte.

– En av mulighetene med å dele forskningsdata er nettopp å unngå flere Sudbø-skandaler, poengterer Svein Stølen.

I 1998 slo den britiske forskeren Andrew Jeremy Wakefield fast at vaksinen mot meslinger kunne føre til autisme. Saken ble slått opp i det anerkjente, vitenskapelige tidsskriftet Lancet. Wakefield ble fratatt legelisensen i 2010.

– Artikkelen var juks. Hele studien var grunnløs. Wakefield hadde bare tolv forsøkspersoner. Hvis dataene hadde vært lagt ut med en gang, kunne andre umiddelbart ha etterprøvd om resultatet var korrekt eller ei, poengterer rådgiver Margaret Fotland i Seksjon for forvaltning av forskning og utdanning.

Bibliotekarene skal hjelpe til

UiO kan ikke finne opp hjulet alene. Ettersom forskningsdataene skal deles med hele verden, må metadataene merkes etter en internasjonal standard.

En annen stor utfordring er håndteringen av personvern.

– UiO har egne datasystemer som er spesielt tilrettelagt for å ta vare på sensitive data. Spørsmålet er hvordan vi kan anonymisere og dele disse dataene, sier Fotland.

– Når er Norge klar til å dele forskningsdata med hele verden?

– Dette er langsiktig arbeid, så det er umulig å si når alt vil være på plass. Men det er viktig å prioritere dette arbeidet, fordi det vil løfte forskningen ved institusjonen vår, både i omfang og kvalitet. Ikke minst er dette arbeidet viktig for å sikre god dokumentasjon og reproduserbarhet i forskningen, sier Ole Petter Ottersen.

Universitetsbibliotekene skal bli en viktig del av den nye datadelingen. Bibliotekarene er eksperter på å hjelpe forskere med å finne egnet litteratur. Nå skal de også hjelpe forskerne med å finne andres data og lagre egne data.

– Da trengs et datasystem som kan håndtere hvilke vitenskapelige publikasjoner som har brukt hvilke datasett, sier Fotland.

Datasettene må dessuten være lesbare selv om teknologien hele tiden endrer seg.

– Dataene må merkes med metadata, slik at de blir mulig å finne igjen. En av oppgavene våre blir å gi råd til forskerne om hvordan de bør samle inn dataene systematisk. Da er det mye lettere å dele dem etterpå. Arbeidsvanene deres er viktige. Hvis de begynner med kaos, er det vanskeligere å sette på beskrivelser til slutt, forteller universitetsbiblio-tekar Live Kvale ved UiO.

Statssekretær Bjørn Haugstad i Kunnskapsdepartementet forteller at departementet allerede har tatt noen grep, men at det fortsatt gjenstår mye for å sikre lagringen av og dele de vitenskapelige dataene. Samtidig påpeker han det forskningsetiske ansvaret. Alle forskerne må selv kjenne til reglene om taushetsplikt, personvern og opphavsrett, før de bestemmer seg for hvilke data som kan deles.

Powered by Labrador CMS