Når vennene dine blir tagget automatisk på Facebook, er det en type kunstig intelligens ved navn dyp læring, som har gjenkjent ansiktene. Disse facebook-algoritmene vurderer over en milliard bilder hver dag. (Foto: ShotPrime Studio / Shutterstock / NTB scanpix)
Det er enkelt å gå seg vill i algoritmeverden
DEBATT: Uansett hvor flinke forskerne er, trenger de virkelig gode algoritmene store mengder data.
Anders Løland skriver i en kronikk på forskning.no at enkelte forskere går seg vill i frykten for datatørke. Jeg har ikke gått meg vill.
Løland har helt rett i at algoritmer er dataprogrammer som kan lære av små eller store mengder data. Det han ikke forteller, er at de virkelige gode algoritmene lærer av store mengder data. Da snakker vi om en form for kunstig intelligens-algoritmer som ofte går under navnet dyp læring.
Dype algoritmer trenger mye data
I 2017 trente Harvard-forskere opp dype læringsalgoritmer med en rekke bilder av hudkreft og en rekke bilder av vanlige føflekker. Ambisjonen var at dataprogrammet skulle kunne oppdage føflekkreft og hjelpe hudleger. Algoritmen ble god. Virkelig god! For å få det til brukte forskerne 129 450 bilder.
Til sammenligning var det 2222 tilfeller av hudkreft i Norge i 2017. Hvis jeg skulle gjentatt eksperimentet med norske pasienter, og hadde fått tilgang til et bilde fra hver kreftpasient, måtte jeg ventet nesten 60 år. Jeg måtte i tillegg spurt hver pasient om samtykke. Det kan jeg bare drømme om.
Selvsagt har Løland rett i at Facebook og de andre store amerikanske IT-firmaene får til mye bra kunstig intelligens fordi de har ansatt flinke folk. En av dem heter Yann LeCun og er i tillegg til sjef for Facebook sin kunstige intelligens-gruppe en akademisk megastjerne. Yann LeCun fikk til noe som forskere verden over hadde forsøkt siden datamaskinens opprinnelse. Han klarte å lage algoritmer som automatisk oppdaget hva det var på bilder. Hvis han matet algoritmene med et bilde av en katt, spyttet algoritmen ut «katt». Det fikk han til med nettopp dype læringsalgoritmer.
Alle hadde feilet da de forsøkte å kategorisere bilder automatisk, men Yann LeCun fikk det til. Dette skjedde allerede i 1989. Det var derimot først da datamaskinene ble kraftigere og datamengden ble stor, at disse algoritmene viste seg å være virkelige gode. Nå brukes de overalt.
Algoritmene er som svarte bokser med et enormt databehov
Uansett hvor flinke forskerne er, trenger disse dype læringsalgoritmene mye data for å bli gode. Det er slike dype læringsalgoritmer som automatisk tagger dine venner på Facebook. Algoritmene vurderer mer enn en milliard bilder daglig. Facebook bygger mange datasenter, blant annet utenfor Odense i Danmark til en verdi av 100 millioner dollar. Det skal brukes til å lagre data og kjøre dype læringsalgoritmer.
Den store ulempen med de dype algoritmene er at de er vanskelig å forstå hva de gjør. De kan ikke forklare seg. De kan kategorisere venner på Facebook eller oppdage hudkreft veldig nøyaktig, men de kan ikke forklare hvorfor. Dette virker som et paradoks. Algoritmene har de seneste årene blitt flinkere til å kategorisere, men vi har vanskeligere for å forstå hva de gjør.
De forklarende algoritmer er på vei
8. januar i år kom tre forskere fra Shanghai og California et steg videre. De lanserte en forklarende dyp algoritme. Mange har forsøkt det samme, men disse forskerne har kommet lengst. For å få det til brukte de blant annet tusenvis av bilder med hunder og katter. Algoritmen kan i tillegg til å oppdage at det er en katt i et bilde forklare hvorfor. Dette er helt fantastisk!
Tenkt deg en algoritme som istedenfor å forklare hvorfor bildet inneholder en katt, men isteden forklarer hvorfor føflekk blir kategorisert som kreft. Dataene vi trenger, ligger lagret blant annet i norske pasientjournaler, men hverken Løland eller jeg får tilgang.
Jeg kan derimot sende en e-post til min kinesiske kollega og få nesten samme data i kveld.
Forstår du ikke fristelsen?