Systemet kan forutsi hvordan en bestemt scene ser ut fra andre vinkler, forklarer en av forskerne i denne videoen. (Video: Google Deepmind)

Kunstig intelligens lærer å se uten hjelp fra mennesker

Forskere har klart å gi kunstig intelligens en enkel romforståelse.

Published

Forskere ved Google Deepmind har kommet et skritt nærmere kunstig intelligens som kan se og forstå rom på en enkel måte.

Deepmind kan nå danne seg bilder av hele rom eller gjenstander, selv om den bare har sett dem på bilder.

Det imponerende er at forskerne har greid å omgå den omstendelige prosessen det er å forklare systemet hva som skjer.

– Det er ganske smart at de har laget en form for flaskehals som kontrollerer hvilken informasjon som kommer gjennom nettverket. Det gjør at nettverket selv blir tvunget til å finne ut hva som er det essensielle i scenen, sier Ole Winther, som er professor ved Institut for Matematik og Computer Science ved DTU.

– Tidligere har det vært nødvendig å fortelle den hva det essensielle er.

Forskningen har nettopp blitt publisert i det vitenskapelige tidsskriftet Science.

Denne illustrasjonen viser hvordan den kunstige intelligensen ut fra todimensjonale bilder forstår hvordan hele rom er innredet:

(GIF: Eslami et al. 2018)

Forstår virtuelle rom

Forskerne har trent systemet ved å presentere det for en rekke virtuelle rom med tre ulike objekter.

Etter å ha sett mange nok rom, har nettverket blitt i stand til å danne seg et bilde av hvordan resten av rommet ser ut, selv om den bare har sett ett bilde fra ett tilfeldig sted i rommet.

Hvis den ser et rom med en firkant plassert foran en sirkel og trekant, forstår den at sirkelen og trekanten står foran hvis man står i den motsatte enden av rommet.

Dette er faktisk et stort fremskritt, forklarer Akshay Pai, som er forsker ved Science AI Centre ved Københavns Universitet.

– Nettverket har selv lært hva som er i bildet og gjenskapt det fra en annen vinkel, uten at forskerne måtte fortelle om objektene. Den gjetter det ut fra tidligere erfaringer, sier han.

Kan brukes til selvkjørende biler og hjerneskanninger

Nettverket har altså oppnådd en viss romforståelse. Men det har foregått i veldig enkle og virtuelle rom.

Ifølge forskerne kan teknikken brukes til mye. For eksempel selvkjørende biler.

– Selvkjørende biler bruker data fra video til å styre, bremse og akselerere. Slike modeller vil egne seg godt til å forutsi hva som skjer om kort tid. For eksempel hvis en person er på vei ut i veien, sier Ole Winther.

Ole Winther forestiller seg at Google Deepminds teknikk kan brukes i selvkjørende biler, for å forutsi hva andre trafikanter vil foreta seg. (Illustrasjon: Pavel Vinnik / Shutterstock / NTB scanpix )
Ole Winther forestiller seg at Google Deepminds teknikk kan brukes i selvkjørende biler, for å forutsi hva andre trafikanter vil foreta seg. (Illustrasjon: Pavel Vinnik / Shutterstock / NTB scanpix )

Akshay Pai, som selv arbeider med billedgenererende teknologi innen medisin, ser store muligheter for å bruke teknikken hos hjernepasienter.

I dag må legene bruke kontrastvæske for å ta hjerneskanninger av pasienter med svulster, og det har bivirkninger, forklarer Pai.

– Men denne teknikken kan man forutsi hvordan bildet ser ut i stedet, sier han.

Han forestiller seg at teknologien kan brukes til å gjenskape for eksempel arkeologiske utgravinger. Ole Winther er enig, men mener det vil ta tid.

– Vi har nok vært litt naive i den måten vi har laget slike modeller. Men dette kan vise seg å være en smart måte å gjøre det på.

Referanse:

S.M. Eslami mfl: «Nevral scene representation and rendering», Science (2018), doi: 10.1126/science.aar6170

© Videnskab.dk. Oversatt av Lars Nygaard for forskning.no.