En illustrasjon som viser forskjellige strategier disse kunstige intelligensene brukte når de spilte. (Bilde: DeepMind)

Forskere har laget kunstig intelligens som har blitt god til å samarbeide i dataspill

Den samme gjengen som lagde nesten uslåelige sjakk- og go-programmer har kastet seg over førstepersons-skytespill. Men hvordan gikk det når dataprogrammet spilte mot gode, menneskelige spillere?

Hva er begrensningene til nåværende kunstig intelligens? Kunstig intelligens-selskapet Deepmind, som eies av Google, har fått mye oppmerksomhet for sine brettspill-algoritmer.

For eksempel brukte sjakkprogrammet deres Alphazero bare fire timer på å lære seg selv opp til å bli så god i sjakk at den slo Stockfish, det beste sjakkprogrammet i 2017, ifølge Chess.com.

Deepminds programmer lærer ved at de spiller mot seg selv, uten noen særlig innblandning fra mennesker. Programmet får vite reglene, og så spiller programmet gjennom millioner av mulige spill og stillinger på kort tid. Dermed utvikler det sine egne strategier, som programmet aldri har blitt lært av mennesker.

Dette kalles maskinlæring, eller mer nøyaktig: forsterkningslæring.

Quake III

Forskerne ved Deepmind har nå brukt denne metoden til å lære opp algoritmer til å spille førstepersons-skytespill. Det er snakk om en variant av det klassiske multiplayerspillet Quake III Team arena som kom i 1999, men som fortsatt spilles.

Deepmind har laget en egen modifikasjon som de bruker til å lære opp såkalte «agenter», spillere som egentlig styres av kunstig intelligens.

Utfordringen er å få separate, kunstig intelligens-agenter til å samarbeide som et lag og jobbe mot et felles mål. Forskerne mener de har klart å få til dette, og forskningen er beskrevet i en ny artikkel i tidsskriftet Science.

De har konsentrert seg om spillmodusen capture the flag. -spillmodusen. Det går ut på at flere lag konkurrerer om å ta motstanderens flagg fra deres base, og så ta med seg flagget tilbake til egen base. På veien kan spillerne «skyte» hverandre, noe som gjør at de blir flyttet tilbake til sin egen base.

Forskernes modifikasjon er en ikke-voldelig variant, så spillerne tar på hverandre som i sisten istedenfor å skyte.

Under kan du se en demonstrasjon fra prosjektet, hvor agentene skal ta et flagg fra motstanderen.

Turneringer med kunstig intelligens

Forskerne trente opp de forskjellige agentene på samme måte som tidligere. De fikk vite målet og ble satt til å spille mot hverandre i mange tusen omganger på mange forskjellige typer kart. Agentene fikk den samme informasjonen som vanlige menneskelige spillere, et videosignal av spillingen og hvor mange poeng de hadde scoret.

Forskerne mener at agentene etter hvert ble svært gode til å spille, og de utviklet egne strategier som har vært brukt av menneskelige lag i denne typen spill i lang tid.

Forskerne testet ut dette ved å arrangere en turnering for agentene, hvor de spilte på forskjellige lag mot hverandre.

Etterhvert satte forskerne den kunstige intelligensen opp mot lag med menneskelige, høyt rangerte spillere for å se hvordan de kunstige spillerne klarte oppgaven. Alle kampene foregikk på tilfeldig genererte kart, så både maskiner og mennesker måtte orientere seg i et nytt miljø.

Stort sett var den kunstige intelligensen bedre enn menneskene, som bare vant 25 prosent av kampene, selv etter mange timer med trening.

Men de kunstige agentene hadde en stor fordel: De hadde betydelig raskere reaksjonstid enn menneskene. Forskerne prøvde dermed å legge inn en forsinkelse hos de kunstige spillerne som omtrent tilsvarte menneskelig reaksjonstid.

De kunstige spillerne var fortsatt overlegne, og menneskene vant bare 30 prosent av gangene etter denne endringen.

Menneskene hadde likevel en fordel - de var bedre til å skyte på lang avstand, noe forskerne mener henger sammen med observasjonsevne. Menneskene var også bedre på finjustert kontroll. Men robotene var langt mer nøyaktige - 80 prosent treffrate mot menneskenes 48 prosent.

De kunstige spillerne klarte også å samarbeide med mennesker når de ble satt på samme lag. Dette mener forskerne betyr at dataprogrammene selv har skaffet seg evnen til å samarbeide med ukjente spillere.

Forskerne mener de har demonstrert at maskinlæring kan brukes til å trene opp kunstige intelligenser som samarbeider, og at avansert oppførsel var et av resultatene.

Referanse:

Jaderberg mfl: Human-level performance in 3D multiplayer games with population-based reinforcement learning. Science, 2019. DOi: 10.1126/science.aau6249. Sammendrag

Powered by Labrador CMS