Datamaskiner tar til fornuften

Er det en sitron eller en tennisball? De fleste mennesker vil svare tennisball, ut fra sammenhengen. Nå har forskere tatt i bruk et mindre kjent Google-program for å lære dataprogrammer å forstå bilder utfra sammenhenger.

Denne artikkelen er over ti år gammel og kan inneholde utdatert informasjon.

Forskere og teknologer arbeider hardt for å lære datamaskiner å forstå bilder. Mulighetene og gevinstene er mange.

En industrirobot trenger å kjenne igjen verktøy og arbeidsmaterialer. Et automatisk overvåkingssystem kan selv varsle om en ettersøkt person. Store bildearkiv kan automatisk katalogiseres.

Systemene blir bedre og bedre til å kjenne igjen elementer i bilder, og nå har forskere fra University of California i San Diego og Los Angeles lært datamaskinene å identifisere billedelementer ved å se på sammenhenger - det store bildet.

Sunn fornuft på nettet

For å se sammenhenger, tar forskerne i bruk et mindre kjent Google-program som du også kan teste ut på din egen maskin. Programmet heter Google Sets. Det virker slik at du taster inn noen få ord, for eksempel Opel, Ford og Golf. Så gjetter Google Sets på flere ord som passer i samme kategori, for eksempel Toyota, Mazda og Pegueot.

Google Sets har altså “skjønt” hva slags kategori du er ute etter, nemlig bilmerker. Dette er en simulering av sunn fornuft, en liten brikke i det store spillet som går ut på å gi datamaskiner kunstig intelligens.

Tre trinn til sikrere bildegjenkjenning

Nå kobler altså forskerne denne “sunne fornuften” til bildegjenkjenning. Først blir bildet delt opp i elementer som analyseres hver for seg. I vårt tilfelle er elementene en tennissspiller, en tennisracket og en tennisball.

"T.v: Hva er den gule flekken, en sitron eller tennisball? Midten: Først finner dataprogrammet hvert element, og prøver å tolke det for seg. T.h: Først etter å ha sett tolkningene i sammenheng finner programmet ut at sitron må være feil, og at tennisball trolig er riktig. Sammenhengen viser at personen også trolig er en tennisspiller. (Illustrasjon: forskning.no)"


 

Så lager dataprogrammet en liste over hva hvert av elementene i bildet kan være. Er det et godt program, så vil “person” og “tennisracket” komme øverst på lista. Men isolert sett kan tennisballen like godt være en sitron.

Det er nå den sunne fornuften kommer inn i bildet. Ved å kjøre tolkningslistene mot Google Sets, blir det klart at personen trolig er en tennisspiller og at den gule flekken er en tennisball.

Merkbar forbedring

Forskerne kunne øke påliteligheten i bildegjenkjenningen enda mer ved først å delen inn bildet i underavdelinger med sine enkeltelementer. Noen av underavdelingene var “bænkers”, og da ble disse sikre områdene brukt til å øke påliteligheten i der det var vanskeligere å gjenkjenne noe.

I de to bildesettene som forskerne analyserte, ble resultatene merkbart forbedret ved å analysere sammenhengen med Google Sets. I ett tilfelle var forbedringen ti prosent, i et annet tilfelle to prosent.

Hva er over og hva er under?

Forskerne planlegger nå neste skritt i bruk av sammenhenger for å tolke bilder. De vil la datamaskinene analysere hvor bildeelementene er plassert i forhold til hverandre. Hva er innerst og hva er ytterst? Hva er under og hva er oppå?

For eksempel vil et menneske oppå et dyr tyde på at dyret snarere er en hest enn en hund.

Men hva ville bildegjenkjenningsprogrammet gjøre med et bilde fra det norske eventyret om pannekaka og grisen?

Referanser

Object in Context. (Andrew Rabinovich, Garolina Galleguillos, Eric Wiewiora and Serge Belonguie, Department of Computer Science and Enginering, UCSD Jacobs School of Engineering. Andrea Vedaldi, Demartment of Computer Science, UCLA)

Pressemelding fra University of California, San Diego

Google Sets

Powered by Labrador CMS