Er det en sitron eller en tennisball? De fleste mennesker vil svare tennisball, ut fra sammenhengen. Nå har forskere tatt i bruk et mindre kjent Google-program for å lære dataprogrammer å forstå bilder utfra sammenhenger.
Denne artikkelen er over ti år gammel og kan inneholde utdatert informasjon.
Forskere og teknologer arbeider hardt for å lære datamaskiner å forstå bilder. Mulighetene og gevinstene er mange.
En industrirobot trenger å kjenne igjen verktøy og arbeidsmaterialer. Et automatisk overvåkingssystem kan selv varsle om en ettersøkt person. Store bildearkiv kan automatisk katalogiseres.
Systemene blir bedre og bedre til å kjenne igjen elementer i bilder, og nå har forskere fra University of California i San Diego og Los Angeles lært datamaskinene å identifisere billedelementer ved å se på sammenhenger - det store bildet.
Sunn fornuft på nettet
For å se sammenhenger, tar forskerne i bruk et mindre kjent Google-program som du også kan teste ut på din egen maskin. Programmet heter Google Sets. Det virker slik at du taster inn noen få ord, for eksempel Opel, Ford og Golf. Så gjetter Google Sets på flere ord som passer i samme kategori, for eksempel Toyota, Mazda og Pegueot.
Google Sets har altså “skjønt” hva slags kategori du er ute etter, nemlig bilmerker. Dette er en simulering av sunn fornuft, en liten brikke i det store spillet som går ut på å gi datamaskiner kunstig intelligens.
Tre trinn til sikrere bildegjenkjenning
Nå kobler altså forskerne denne “sunne fornuften” til bildegjenkjenning. Først blir bildet delt opp i elementer som analyseres hver for seg. I vårt tilfelle er elementene en tennissspiller, en tennisracket og en tennisball.
Så lager dataprogrammet en liste over hva hvert av elementene i bildet kan være. Er det et godt program, så vil “person” og “tennisracket” komme øverst på lista. Men isolert sett kan tennisballen like godt være en sitron.
Det er nå den sunne fornuften kommer inn i bildet. Ved å kjøre tolkningslistene mot Google Sets, blir det klart at personen trolig er en tennisspiller og at den gule flekken er en tennisball.
Merkbar forbedring
Forskerne kunne øke påliteligheten i bildegjenkjenningen enda mer ved først å delen inn bildet i underavdelinger med sine enkeltelementer. Noen av underavdelingene var “bænkers”, og da ble disse sikre områdene brukt til å øke påliteligheten i der det var vanskeligere å gjenkjenne noe.
I de to bildesettene som forskerne analyserte, ble resultatene merkbart forbedret ved å analysere sammenhengen med Google Sets. I ett tilfelle var forbedringen ti prosent, i et annet tilfelle to prosent.
Hva er over og hva er under?
Forskerne planlegger nå neste skritt i bruk av sammenhenger for å tolke bilder. De vil la datamaskinene analysere hvor bildeelementene er plassert i forhold til hverandre. Hva er innerst og hva er ytterst? Hva er under og hva er oppå?
For eksempel vil et menneske oppå et dyr tyde på at dyret snarere er en hest enn en hund.
Men hva ville bildegjenkjenningsprogrammet gjøre med et bilde fra det norske eventyret om pannekaka og grisen?