Saken er produsert og finansiert av NMBU - Norges miljø- og biovitenskapelige universitet - Les mer
Stordata gjør det mulig å lage ekstremt komplekse systemer som intet menneske ville kunne gjøre uten digital kraft.

Stordata revolusjonerer alt fra undervisning til politikk

Spranget fra undervisning som er skreddersydd din personlighetstype til politisk reklame som er spisset inn mot akkurat dine fordommer er ikke stort, i en verden hvor såkalte stordata skaper nye muligheter.

12.6 2017 04:00

– Men vi må huske at stordata også lett kan misbrukes, sier professor i biostatistikk Solve Sæbø.

Som statistikkprofessor er han over gjennomsnittet interessert i muligheter og fallgruver som ligger i stordata.

– Veien fra statistikk til stordata er ikke lang: for hva er statistikk annet enn å analysere store mengder informasjon og trekke ut enkelte sammenhenger eller regnestykker?

Det som er nytt er at datamengden er så stor, og regnemaskinene er blitt så mye bedre. Stordata har gitt et kvantesprang i nesten all forskning, sier Sæbø.

Skreddersydd undervisning


Solve Sæbø er professor i biostatistikk. (Foto: Håkon Sparre)

Selv forsker Sæbø på læring og på hvordan de ulike personlighetstypene blant oss lærer best. Han samarbeider med psykolog dr. Helge Brovold i å analysere resultatene fra utdanningstesten til Nasjonal senter for realfagsrekruttering, hvor så langt om lag 50 000 unge mennesker frivillig har besvart spørsmål knyttet til realfagsutdanning.

Spørsmålene går på yrkesinteresse, personlighet, ønske om læringsmetode og preferanser for realfag. Sæbø har brukt den samme testen på studentene som tar grunnkurset i statistikk ved NMBU.

En del av forskningen baseres på standardverktøyet Femfaktormodellen, som grupperer mennesker i fem kategorier etter hvor emosjonell, åpen, pliktoppfyllende, utadvendt og omsorgsfull du er.

Hensikten er å finne ut hvordan vanlige forelesninger fungerer for ulike personligheter, sammenlignet med mer aktive undervisningsformer, som det såkalte omvendte klasserommet. Her lærer studentene faget gjennom relevante oppgaver, gruppearbeid og samtaler, altså gjennom seg selv på et vis. I forkant har studentene sett forelesninger i ro og mak på skjerm.

Jazz eller korps

Resultatene så langt tyder på at personlighetstyper som samarbeider og prater seg til kunnskap, kan ha stort utbytte av omvendte klasserom. Det har også mer kreative typer, det Sæbø kaller jazzmusikere.

Personlighetstyper som ikke liker å jenke seg mot midten, de som liker bedre å jobbe individuelt ved å lese og regne oppgaver og de som foretrekker et fast strukturert kursopplegg, kan like godt følge tradisjonelle forelesninger. Disse er mer som korpsmusikanter.

Slik kan denne forskningen, basert på stordata, avdekke hvordan flere av typen jazzmusikere kan lokkes inn i realfag, ikke bare korpsmusikerne som det tradisjonelt har vært flest av.

Kan gå galt

Stordata er informasjon med høyt volum, hastighet og variasjon.

Analysen av mengdene med data er selvfølgelig veldig mye enklere når en maskin kan gjøre jobben og lete etter mønstre for oss. Vi kan jo tenke oss hvilken kjempejobb det ville vært å telle, notere og sammenstille de ulike svarene fra 50 000 personer som i realfagsundersøkelsen.

– Slik er det i veldig mange forskningsprosjekter om dagen. Dataene kan samles inn på utrolig lettvinte måter og analyseres på ymse vis. Og det her er kunnskap om statistikk kommer inn, for slike analyser kan også føre helt vilt av sted, understreker Sæbø.

Årsaken til gikt

Det er viktig å vite forskjellen på om noe forårsaker noe annet (kausalitet) eller om to ting eksisterer side om side (korrelasjon). Det kan komme mange falske nyheter ut av å misforstå dette.

Begrenset økonomi i et forskningsprosjekt kan være nok til å gi falske årsaksforhold. Forskere er ofte avhengig av mange testobjekter eller personer.

Sæbø nevner som eksempel et forskningsteam som vil undersøke om årsaken til reumatisme er å finne i genmaterialet til personene som får sykdommen.

De genetiske analysemetodene er nå blitt så avanserte at forskerne kan teste for si 500 000 ulike gen-variasjoner i en vevsprøve. Forskerne tar vevsprøve av 20 personer, ti friske og ti syke. Det er tid- og arbeidskrevende, og de har ikke økonomisk ramme til å teste flere.

De analyserer prøvene for 500 000 forskjellige markører og finner typisk at flere slike genetiske markører samsvarer med det å ha gikt. Her er det lett å gå i fella dersom man ikke tar høyde for et statistisk problem kjent som multippel testing, sier Sæbø:

– Fordi de tester så mange variabler er det stor sannsynlighet for at en eller flere helt tilfeldige markører har målinger som går opp på de syke og ned på de friske. Forskerne tror dermed at de tilfeldige markørene er en indikasjon eller i verste fall årsaken til sykdommen.

– Dette kan enkelt avsløres ved å hente inn data fra 20 nye personer for å sjekke akkurat disse markørene, men svært ofte blir dessverre ikke en slik oppfølgende studie gjort som en del av hovedstudien.

Farvel til privatlivet?

Stordata gjør det mulig å lage ekstremt komplekse systemer som intet menneske ville kunne gjøre uten digital kraft. Kombinasjonen av stordata og kunstig intelligens gir oss stadig flere hjelpemidler i hverdagen, fra selvkjørende biler og automatiserte jordbruksmaskiner til avanserte proteser og automatisk ansiktsgjenkjenning på mobilen. Mulighetene er nærmest ubegrensede.

Dessverre kan disse redskapene brukes med mindre edle hensikter enn å skape god undervisning eller å bringe ny og nyttig kunnskap til torgs gjennom forskning, innvender Sæbø.

– Tenk for eksempel på all informasjon om oss selv vi legger ut i sosiale medier. Facebook selv analyserer våre preferanser og gir oss reklame for ting vi har vist oss interessert i.

Oversikt over hva vi liker på Facebook og søker på Google kan gi avslørende personlighetsprofiler helt ned på individnivå, såfremt statistikkekspertisen er på plass. Dette kan brukes til ekstremt spisset markedsføring mot enkeltpersoner.

Kunnskap er makt

Hvis analytikerne har veldig mange objekter, si alle Facebook-brukerne i USA, og veldig mange variabler i form av likes, klikkmønster og meningsytringer, kan stordata ha en skremmende treffsikkerhet.

Analyser av våre Facebook og Twitter-kontoer avdekker avslørende kunnskap av hvem vi er eller i hvert fall de delene av oss vi velger å legge ut på nett – og noen legger ut veldig mye.

Det ligger enorme muligheter i stordata: Innen forskning, undervisning, innovasjon og - manipulasjon. Vi må forbli skeptiske og årvåkne – og det hjelper veldig å kunne litt statistikk.

Solve Sæbø avslutter lakonisk:

– Det er i dag fremdeles som Francis Bacon sa det på 1500-tallet: «Kunnskap er makt».

forskning.no ønsker en åpen og saklig debatt. Vi forbeholder oss retten til å fjerne innlegg. Du må bruke ditt fulle navn. Vis regler

Regler for leserkommentarer på forskning.no:

  1. Diskuter sak, ikke person. Det er ikke tillatt å trakassere navngitte personer eller andre debattanter.
  2. Rasistiske og andre diskriminerende innlegg vil bli fjernet.
  3. Vi anbefaler at du skriver kort.
  4. forskning.no har redaktøraransvar for alt som publiseres, men den enkelte kommentator er også personlig ansvarlig for innholdet i innlegget.
  5. Publisering av opphavsrettsbeskyttet materiale er ikke tillatt. Du kan sitere korte utdrag av andre tekster eller artikler, men husk kildehenvisning.
  6. Alle innlegg blir kontrollert etter at de er lagt inn.
  7. Du kan selv melde inn innlegg som du mener er upassende.
  8. Du må bruke fullt navn. Anonyme innlegg vil bli slettet.

Annonse

Big data

Big Data er data som kan kjennetegnes ved tre V’er:

• Volume (volum): Tilgjengelig data øker i omfang – IBM estimerer at det innen 2020 kommer til å genereres 2,3 trillioner gigabyte data hver dag, som tilsvarer 107 millioner blue-ray disker eller 4,2 milliarder fulle CD-er.

• Variety (variasjon): Ulike typer data er tilgjengelig fra en rekke ulike datakilder - 400 millioner Twitter-meldinger sendes hver dag, og stadig flere datakilder kobles opp mot internett og genererer informasjon.

• Velocity (hastighet): Data er tilgjengelig raskere enn før og vi ønsker at dataene er tilgjengelige i tilnærmet sanntid.

IBM har valgt å ta med enda en V i sin definisjon av Big Data, Veracity (pålitelighet) – usikkerhet knyttet til kvalitet i dataene, og viktigheten av å kunne stole på dataene.

Kilde: PWC