Risikoen for at noen skal få tak i helseopplysninger og lete seg bakover til hvem dataene omhandler, er kanskje større nå enn før. (Foto: TippaPatt, Shutterstock, NTB scanpix)
Sikrer personlige data fra helsestudier mot hacking
Kreftregisteret har testet ut støy-koding av data fra livmorhals-screeningen som bedre sikring mot at uvedkommende finner folks helseopplysninger.
Sett at du har en datakyndig, nysgjerrig nabo som klarer å finne ut at du har livmorhalskreft, ved å identifisere deg blant pasienter i en forskningsstudie.
Pasientdata er generelt svært sikre og re-identifisering er ennå ikke en stor trussel, sier Giske Ursin, direktør i Kreftregisteret.
– Når forskere får tilgang til data, er dette i hovedsak data uten direkte personidentifiserbar informasjon, altså hvor ting som navn, adresse, fødselsnummer er fjernet. Likevel er det en teoretisk mulighet for at personer med onde hensikter skulle klare å gjenkjenne enkeltindivider i datasettet. Derfor må vi gjøre alt vi kan for å senke sannsynligheten for at sensitive data skal kunne tilbakeføres til konkrete personer, sier hun til forskning.no.
Kreftregisteret har derfor testet ut hvor stor risikoen for bakveis identifisering er og hvor godt standardmetoden som introduserer støy reduserer risikoen. Studien er publisert i tidsskriftet Cancer Epidemiology, Biomarkers & Prevention.
Sosiale medier utgjør tilleggsrisiko
Risikoen for at noen skal få tak i helseopplysninger og lete seg bakover til hvem dataene omhandler, er kanskje større nå enn før.
Dette henger sammen med at verktøyene for big data-analyser er blitt mer tilgjengelige, og vår egen bruk av sosiale medier.
Mange poster på Facebook at de har deltatt på en helsescreening. Det kan gi en teoretisk mulighet til at de som kan kombinere datasett kan finne ut hvilken person som har en diagnose.
Derfor er det vesentlig at forskerne klarer å kamuflere opplysninger som postnumre, personnumre og undersøkelsesdatoer best mulig.
Avansert støykoding
Når forskere vil bruke pasientdata fra screeninger eller helseregistere, må de søke om godkjenning fra ulike etiske komiteer og Datatilsynet. Også Kreftregisteret skal gjøre en vurdering av om studien er etisk betenkelig.
Forskere ved Kreftregisteret fikk derfor ideen til å teste ut hvor godt det lar seg gjøre å kamuflere hvilke personer opplysningene omhandler, forklarer Ursin.
– Dette var et initiativ vi tok ut fra et føre-var-prinsipp, sier hun.
Utstyrte helsedata med støy
Annonse
Forskere ved Kreftregisteret tok utgangspunkt i et datasett uten personopplysninger, men med fem millioner pasientopplysninger fra den store livmorhalsscreeningen.
De brukte to metoder for å legge på støy i datasettet. Den ene kalles k-anonymisering, og er en velbrukt metode. Den andre er en ny metode som de kaller fuzz-faktor, eller støyfaktor.
De fant ut at risikoen for å re-identifisere pasienter ble drastisk redusert ved at forskerne endret dataene ved å bruke k-anonymisering.
Forskere må være bevisste
Så tilsatte de støyfaktoren, som endret fødselsmåneden på personene, screeningdatoen samt andre opplysninger. Dette gjorde det vanskeligere for mulige hackere å identifisere enkeltpersoner, sier Ursin.
Verdifulle opplysninger var allikevel i behold for selve forskningsformålet.
– Forskere bør være bevisste på hvilken informasjon de faktisk trenger for å få svar på det de vil forske på, og så bør registeransvarlige legge på støy der det er påkrevd, sier Ursin.
Studien kan få betydning for mange ulike forskningsmiljøer.
G. Ursin mf: Protecting Privacy in Large Datasets—First We Assess the Risk; Then We Fuzzy the Data. Sammendrag. Cancer Epidemiology, Biomarkers & Prevention. 28. juli 2017. DOI: 10.1158/1055-9965.EPI-17-0172