Når du legger ut noe på Facebook, passerer bomringen eller bruker mobilen, så legger du igjen digitale spor. Norske forskere leter etter nye løsninger for å kunne forske på de enorme datamengdene.
Denne artikkelen er over ti år gammel og kan inneholde utdatert informasjon.
De nasjonale forskningsetiske komiteene er i gang med å revidere normene som skal gjelde for forskning på de store datamengdene.
De trenger å vite mer om hvordan vi kan sikre at dette foregår på en forsvarlig måte og arrangerte nylig et åpent møte om etiske spørsmål knyttet til slik forskning.
Robindra Prabhu er opprinnelig partikkelfysiker. I dag er han ansatt i Teknologirådet og har et overordnet ansvar for problemstillinger knyttet til bruk av store data.
Prabhu er en av ekspertene som holdt innlegg på det åpne møtet.
For tiden leder han et prosjekt som blant annet handler om hvordan politiet kan dra nytte av nye datakilder og analyseverktøy.
- Ikke nytt med store datamengder
Store datamengder er ikke noe nytt fenomen i forskningen, sier Prabhu. Fysikere, astronomer og genetikere har forholdt seg til enorme mengder data i lang tid.
Det nye er at vi har tilgang på slike data om enkeltmennesker. Dette gir store forskningsmuligheter innenfor helt andre fagfelt, for eksempel samfunnsvitenskap:
- Før var man henvist til spørreundersøkelser, offentlige rapporter og annet materiale for å samle inn data. I dag produserer hver enkelt av oss, bevisst eller ubevisst, store mengder data i vår omgang med omgivelsene.
- Hver gang vi bruker mobilen, surfer på nettet, handler i butikken eller kjører gjennom bomringer, legger vi igjen digitale spor, sier Prabhu.
Vanskelig å garantere anonymitet
I forskningssammenheng er det ofte ikke så viktig å vite nøyaktig hvem man har samlet opplysninger om. Da er anonymisering en løsning. Man ivaretar personvernet ved å fjerne informasjon som kan identifisere enkeltpersoner i datamaterialet.
Men det er ikke like enkelt når vi jobber med store data. Hvis et anonymisert datasett er veldig detaljert eller blir sammenstilt med andre datasett, kan det av og til være mulig å reidentifisere personene.
Prabhu forteller at mediebedriften AOL i 2006 ga forskere tilgang til anonymisert søkehistorikk til enkeltbrukere. Selv om forskerne ikke fikk vite hvem brukerne var, viste det seg at flere av dem kunne identifiseres allikevel.
Søkene kunne for eksempel avsløre hvilken by og hvilken aldersgruppe de tilhørte.
- Hvis vi skal få full nytte av store data, er det viktig at vi håndterer risikoen for reidentifisering på en god måte, sier Prabhu.
- Ofte umulig å sikre informert samtykke
Hvis man ikke ikke kan sikre full anonymitet, er hovedregelen at man må innhente informert samtykke fra personene som deltar i undersøkelsen. Det betyr at hver enkelt person må si at det er greit å bli forsket på.
Annonse
Dette kan være svært krevende når forskerne jobber med store mengder data.
- Ofte analyserer vi informasjonen en stund etter at den er samlet inn. Da kan det være vanskelig å gå tilbake for å be om samtykke. Og det blir enda verre når informasjonen er samlet inn av andre enn forskeren selv, sier Prabhu.
Mange tjenesteytere krever samtykke til bruk av data før brukerne får tilgang til tjenesten. I prinsippet har man da lov til å bruke dataene. Spørsmålet er imidlertid om samtykket er tilstrekkelig informert:
- Problemet er at de fleste av oss har utviklet en apati i forhold til slike krav. Vi aksepterer betingelsene uten å tenke over det. Dessuten vil de fleste ha vanskeligheter med å forstå konsekvensene av avanserte statistiske operasjoner og sammenstillinger, sier Prabhu.
Kunne hverken anonymisere eller innhente samtykke
Twitter-meldinger er et godt eksempel på data som er vanskelige å anonymisere samtidig som det er krevende å innhente informert samtykke.
Anders Olof Larsson ved Universitetet i Oslo deltar i et forskningsprosjekt som blant annet handler om hvordan politikere bruker sosiale medier når de driver valgkamp.
De fikk problemer når de skulle forske på Twitter-meldinger. Her var det enkelt å få tak i dataene, men det viste seg å være litt mer utfordrende å få lov til å forske på dem:
- Vi havnet i en situasjon hvor den norske komitéen vurderte å kreve at vi skulle samle inn samtykke fra 9000 twitterbrukere, sier Larsson.
Markører kan erstatte samtykke
Da måtte de tenke nytt: Løsningen ble en metode utviklet av to språkforskere ved Miami University: Heidi A. McKee og James E. Porter. De har identifisert ulike markører som kan hjelpe oss å vurdere om det er nødvendig med informert samtykke eller ikke.
Den viktigste markøren er hvorvidt man kan anta at personene selv oppfatter informasjonen som privat. Det er mange måter å finne ut av dette på. For eksempel er det greiere å bruke data hentet fra et åpent diskusjonsforum enn fra meldingsfunksjonen på Facebook.
Annonse
I tillegg mener de amerikanske forskerne at det er viktig å vurdere hvor sensitiv kommunikasjonen er, hvor intenst den foregår og hvorvidt de som kommuniserer er sårbare, for eksempel på grunn av livssituasjon eller manglende evne til å forstå hva de egentlig gjør.
Twitter-tagger kan signalisere ønske om offentlighet
Metoden løste problemet for Larsson. De hadde bare samlet inn meldinger med tagger som indikerte politiske budskap og da var det rimelig å anta at avsenderne ønsket offentlig innsyn:
- Min vurdering er at hvis en person har tagget en tweet for å synliggjøre den så har de aktivt signalisert at den ikke er privat. Da bør det være relativt uproblematisk å bruke meldingene deres. Dette syns jeg er en god tommelfingerregel.
Dermed kunne de bruke dataene uten å innhente samtykke:
- Etter å ha forklart hvilke praktiske problemer innsamlingen av samtykke ville medføre så slapp vi å gjøre det, sier han.
Catharina Nes er seniorrådgiver ved Datatilsynet. Hun synes det er bra at man finner frem til nye, smartere måter å ivareta folks personvern på.
- Det er viktig at folk føler at de har kontroll over hvordan personopplysningene de legger igjen på nett blir brukt. Hvis folk blir utrygge på dette, risikerer vi en nedkjøling av nettaktiviteten. Det kan gå ut over både ytringsfrihet og utfoldelsesmuligheter, sier hun.
Må fokusere mer på hvordan vi bruker dataene
Prabhu mener at vi har vært for ensidig opptatt av rådataene, hva man kan samle inn, hvordan innsamlingen kan foregå og hvor lenge dataene skal lagres.
Forutsatt at vi klarer å sikre dataene tilstrekkelig, kan vi løsne litt på dette og i stedet fokusere på å ta gode valg etter at de er samlet inn, sier han.
- Fremover tror jeg det blir svært viktig å tenke riktig rundt hva man gjør med dataene. Hvilke operasjoner skal man kunne gjøre på datasett, hvilke slutninger skal man kunne trekke og hvordan skal man få lov til å bruke denne innsikten.
Annonse
Dette gjelder også hvordan man bruker resultatene man kommer frem til:
- Selv når datasettet og analysemetodene er godt forstått, må man ta stilling til hvor tungt et tall fra en datamodell skal veie i en beslutningsproses, sier han.
Referanse og lenker:
Heidi A. McKee & James E. Porter, The Ethics of Internet Research: A Rhetorical, Case-based Process. New York: Peter Lang, 2009