Det er ikke så stor forskjell på statistiske metoder selv om de skal brukes på så ulike ting som brystkreft, mobiltrafikk og forsikringspoliser. (Illustrasjon: Colourbox)
Det er ikke så stor forskjell på statistiske metoder selv om de skal brukes på så ulike ting som brystkreft, mobiltrafikk og forsikringspoliser. (Illustrasjon: Colourbox)

Hvordan bekjempe kreft og skattejuks med samme metode?

Nye statistiske metoder skal kunne avdekke alt fra kreft og sjøsikkerhet til skattejuks og forsikringssvindel.

Publisert

Datamengdene i både det private næringslivet og det offentlige er nå blitt så store at det ikke lenger nytter å bruke dagens statistiske metoder til å analysere dem på en best mulig måte.

Med Universitetet i Oslo i spissen har Norsk Regnesentral, Oslo universitetssykehus, NAV og Skatteetaten gått sammen med tunge aktører i næringslivet som Telenor, Gjensidige og DnB om å danne senteret for forskningsdrevet innovasjon, Big Insight.

Senteret skal de neste åtte årene utvikle nye statistiske metoder for å effektivisere det offentlige og gjøre næringslivet bedre og mer konkurransedyktig, ikke bare her i Norge, men også internasjonalt.

– Datamengdene er blitt så enorme at vi nå trenger langt mer sofistikerte, statistiske metoder for å kombinere og tolke de mange typene data som finnes. Ellers får vi bare ut søppel, forteller lederen for det nye forskningssenteret, Arnoldo Frigessi. Han er også professor i statistikk ved Det medisinske fakultet på Universitetet i Oslo.

Allmenngyldige statistiske metoder

Det er vanlig å bruke statistiske modeller til å beskrive hypoteser av virkeligheten. Hvis sannsynligheten er svært liten for at dataene stemmer med hypotesen, blir hypotesen forkastet.

Datamengdene er blitt så enorme at vi nå trenger langt mer sofistikerte, statistiske metoder for å kombinere og tolke de mange typene data som finnes. Ellers får vi bare ut søppel, forklarer Arnoldo Frigessi.  (Foto: Yngve Vogt)
Datamengdene er blitt så enorme at vi nå trenger langt mer sofistikerte, statistiske metoder for å kombinere og tolke de mange typene data som finnes. Ellers får vi bare ut søppel, forklarer Arnoldo Frigessi. (Foto: Yngve Vogt)

– I enormt store datamengder er dataene så detaljerte at det aldri vil være mulig å lage hypoteser som stemmer med alle dataene. Da vil uansett enhver hypotese bli forkastet. Vi må derfor tenke nytt og utvikle helt nye statistiske metoder, forteller Frigessi.

Selv om oppgavene til de ulike samarbeidspartnerne er svært forskjellige, lover han at de nye statistiske metodene vil kunne bli allmenngyldige.

– Det er ikke så stor forskjell på statistiske metoder selv om de skal brukes på så ulike ting som brystkreft, mobiltrafikk og forsikringspoliser.

Frigessi er på jakt etter to typer statistiske løsninger. Den ene skal være en mirakelkur for personaliserte problemstillinger. Den andre skal kunne forutsi når stabile systemer av en eller annen grunn kommer ut av likevekt og begynner å bevege seg i en uvanlig retning.

Persontilpassete løsninger

Ønskene om persontilpassete løsninger er mange:

  • Kreftmedisiner: Hvis du får kreft, hadde det vært best om du kunne få en medisinsk cocktail spesialtilpasset sykdomsgenene dine.

Det store problemet er: Sykdomsgenene dine er helt unike. Du er den eneste i verden som har dem. Hvordan er det da mulig å finne en persontilpasset behandling? Da må sykdomsgenene til alle som har fått den samme krefttypen, sammenlignes. Her er det snakk om å kombinere geninformasjonen fra tusenvis av pasienter som ligner på deg.

  • Mikrolån i u-land: Telenor har allerede 36 millioner mobilkunder i Pakistan. Mange av dem bor svært landlig til, uten tilgang til banker. Telenor ønsker nå å tilby mobilkundene mikrolån.

– Tenk deg at en fyr ringer deg og ønsker å låne 2000 dollar for å kjøpe en ku. Du vet ikke om han har jobb, hus eller barn. Det eneste du vet, er hvordan han har ringt med mobilen, når og hvor han har vært. Basert på hvordan han bruker telefonen, skal du kunne beslutte om han skal kunne få et lån. Da må du bruke statistikk til å estimere risikoen til den enkelte kunde. Kan du stole på personen? Vil han betale tilbake lånet? Hvis Telenor klarer dette, kan de tilby persontilpassete, finansielle løsninger i bankløse områder i Pakistan, forteller Frigessi.

  • Avdekke svindlere: Skatteetaten ønsker å bruke de nye metodene til bedre å finne ut av hvem som betaler den skatten de skal.

– De ønsker altså å finne sannsynligheten for at en skattebetaler sniker seg unna.

NAV deltar i det nye forskningssenteret for å bli i stand til å finne ut av hvem som feilaktig får støtte.

DnB ønsker å bruke de nye metodene til å avdekke hvitvasking av penger.

– Banken må raskt kunne beregne sannsynligheten for at enhver transaksjon over et visst beløp kan være hvitvasking. Løsningen er å finne en algo ritme som automatisk avdekker de få personene som bør sjekkes nærmere manuelt, sier Frigessi.

  • Personlig forsikring: Når du tar kontakt med Gjensidige, ønsker de å bruke de nye metodene på de enorme kundedataene sine for å kunne gi deg individuelle produkter og priser. Da får du en unik forsikringsavtale som er tilpasset deg.

Ute av likevekt

Den andre generelle, statistiske metoden skal forutsi overraskende hendelser for ustabile systemer.

Tenk deg at svært mange sensorer overvåker en pasient, minutt for minutt etter en operasjon.

Overvåkingen skal kombinere all mulig informasjon og sammenligne den med pasientjournalen og automatisk si ifra hvis noe kan gå galt.

– Vi må da ha et system som lærer fra tusenvis av andre pasienter om hva som kan skje.

Store skip på havet blir overvåket av hundrevis av sensorer, som kontinuerlig måler slike ting som trykk, temperatur og lyd i kontrollrommet. Her må mange typer data kobles sammen.

Ett eksempel er lyd. Lyden er forskjellig avhengig av om det blåser eller ei og om båten er i havn eller til sjøs. For å unngå falsk alarm, må sensordataene kobles med posisjonen til skipet og meteorologisk informasjon for å slå fast hva lyden kan være. Poenget er å stoppe skipet i tide før det havarerer.

Konkurransefortrinn

Hele ideen er å utvikle så gode statistiske metoder at samarbeidspartnerne i det nye forskningssenteret skal få et konkurransefortrinn foran alle andre.

– De kan da bruke de nye metodene i to til tre år før de blir publisert vitenskapelig og dermed tilgjengelige for alle. Det gir likevel et stort nok forsprang. Etter noen år må metodene uansett forbedres. Hver gang vi får nye typer data, blir det et kappløp om nye metoder.

Til sammen skal senteret knytte til seg over hundre forskere, derav vel tretti stipendiater og ti postdoktorer.

– Det er ikke nok at vi blir best i Norge. Vi skal i tet internasjonalt. Vi valgte samarbeidspartnere som ikke er konkurrenter, er i front internasjonalt og som har spennende og enormt store datamengder som aldri er blitt skikkelig analysert.

Frigessi ønsker likevel å tone ned forventningene og påpeker at risikoen er stor for at problemene de kaster seg over, ikke lar seg løse.

– Innovasjonsdrevet forskning er umåtelig krevende. Vi må med god fantasi koble sammen data fra mange kilder. Hvis alt lar seg løse, har vi valgt for enkle problemstillinger. Vi skal løse supervanskelige ting og kommer til å feile mange ganger. Kanskje halvparten av prosjektene går galt. Vi må lære av disse feilene og hvorfor vi ikke fikk det til. Sånn er det i vitenskapen, poengterer Frigessi.