- Forskning på store datasett og sentrale personvernprinsipper som dataminimalisering kan være som å ri to hester, skriver kronikkforfatterne. (Illustrasjonsfoto: Shutterstock / NTB scanpix)
- Forskning på store datasett og sentrale personvernprinsipper som dataminimalisering kan være som å ri to hester, skriver kronikkforfatterne. (Illustrasjonsfoto: Shutterstock / NTB scanpix)

For å forske med kunstig intelligens og maskinlæring må metodene tilpasses virkeligheten

KRONIKK: En ny avklaring fra Datatilsynet kan bane veien for mer metode- og stordataforskning i Norge på en måte som også ivaretar personvernet.

Published

For en tid tilbake planla forskere fra Norsk Regnesentral og Universitetet i Oslo utvikling av nye, generelle metoder for å avdekke trygdesvindel og momsunndragelse.

De ønsket å teste metodikken på ekte data. Slike data vil være personsensitive, selv om man gjør dem så lite identifiserende som mulig. Derfor måtte forskerne søke Datatilsynet om konsesjon.

Selv uten samtykke åpner den gamle og den helt nye personvernlovgivningen for forskning med personopplysninger. Bruken må være til «vitenskapelige formål» og samfunnsnytten må overstige personvernulempene for de impliserte. Søknadene reiste flere prinsipielle spørsmål.

Er metodeforskning forskning?

Datatilsynet behandlet og avslo to konsesjonssøknader fordi «utvikling av metoder/algoritmer ikke er innenfor det som er ment med ‘vitenskapelig formål’ og heller ikke er i kjernen av det som menes med allmenn interesse». Datatilsynet la til grunn en snever forståelse av «forskning» og «allmenn interesse».

Tilsynet mente at den allmenne interessen lå i anvendelsen av algoritmene, ikke utviklingen av dem. Det er imidlertid vanskelig å anvende samfunnsnyttige algoritmer om de ikke kan utvikles først. Avslagene ble påklaget og Datatilsynet endret sin vurdering.

Hva er samfunnsnytten av metodeforskning?

Grunnforskningen skulle gi nye, generelle metoder for å avdekke mønstre i data som statistisk indikerer høyere sannsynlighet for svindel. Svindel med moms og trygdeytelser er et betydelig samfunnsproblem.

En vellykket metodikk kan ikke avsløre svindel, men den kan bistå ved utvelgelse av hvilke saker som krever en manuell kontroll. En mer effektiv kontrollfunksjon gir høyere sannsynlighet for at svindel avsløres, samtidig som unødvendig kontroll av de som har rettmessig krav på økonomisk støtte unngås. Den allmennpreventive virkningen er også relevant her.

Ingen vet helt hvor stort omfanget av trygdesvindel og momsunndragelse egentlig er. Det er imidlertid klart at problemet er stort.

Sannsynligheten for at en person eller bedrift svindler er i utgangspunktet svært lav. Når samfunnsnytten av metodeforskningen skal veies mot de potensielle personvernkonsekvensene, kan man paradoksalt nok argumentere for at nytten av mer treffsikre metoder er høy (som forskerne gjorde) eller for usikker til å rettferdiggjøre behandling av datasettet (som Datatilsynet opprinnelig mente).

Kan man forske på store datasett?

Forskning på store datasett og sentrale personvernprinsipper som dataminimalisering kan være som å ri to hester, men hva er egentlig et stort datasett? Selv om datasettene det ble søkt konsesjon om var relativt store, var de ikke større enn det som er kjent fra helseforskning på registerdata.

Nødvendigheten av hver variabel og variabelgruppe ble begrunnet og tiltak for å anonymisere eller avidentifisere opplysningene ble gjort der det var mulig. I dialog med Datatilsynet ble datasettet redusert i forhold til opprinnelige planer.

Avklaringen

Til slutt konkluderte Datatilsynet med at

  1. Forskning på og utvikling av nye maskinlæringsmetoder kan faktisk være forskning
  2. Metodeforskning er samfunnsnyttig og har allmenn interesse – metodene må utvikles før de kan bli tatt i bruk
  3. Det er mulig å forske også på stordata så lenge personvernulempene ikke er for store sett opp mot den potensielle samfunnsnytten

Med den nye personopplysningsloven («GDPR») har den gamle konsesjonsplikten i hovedsak falt bort. Virksomheter må derfor selv avgjøre om hjemmelsgrunnlaget er tilstrekkelig, og mange må vurdere personvernkonsekvensene (også kalt «DPIA») på forhånd. Noen ganger må også en forhåndsdrøfting med Datatilsynet til.

Selv med et nytt regelverk, har disse sakene avklart prinsipielle spørsmål for bruk av personopplysninger til forskningsformål. Det kan bane veien for mer metode- og stordataforskning i Norge på en måte som også ivaretar personvernet.