Deltakerne så bildene på toppen mens de fikk hjernen scannet. Den kunstige intelligensen lagde bildene i bunnen, basert på hjerneavbildningene.(Foto: Yu Takagi & Shinji Nishimoto, bioRxiv, 2022, CC BY 4.0)
Deltakerne fikk se de øverste bildene. Så gjenskapte AI bildene under, basert på hjerneaktivitet
I programmer som DALL·E 2 og Midjourney kan du skrive inn hva slags bilde du vil ha, og den kunstige intelligensen lager et unikt bilde basert på ønsket.
Du kan be programmene lage et bilde av en fisk med solbriller eller en malerisk vakker skog.
Nå har forskere fra Japan brukt samme type teknologi til å få kunstig intelligens (AI) til å generere bilder ut fra hjerneaktivitet. Det melder tidsskriftet Science.
AI-en klarte å gjenskape omtrent hva en testperson hadde sett, basert på hjerneaktiviteten.
Hvis denne teknologien utvikles, kan det i fremtiden kanskje bli mulig å se hva folk drømmer eller å undersøke hvordan dyr oppfatter verden, foreslår forskerne.
Men foreløpig er det flere begrensninger. AI-en trenger mye trening basert på bruk av dyrt utstyr for hjerneavbildning. Det poengteres i en sak fra New Scientist.
Foreløpig må AI-en også tilpasses hver person.
Studien er gjort av Yu Takagi og Shinji Nishimoto ved Osaka University i Japan.
Studien er ikke publisert i et tidsskrift, men er forhåndspublisert på nettstedet bioRxiv. Arbeidet skal også presenteres på en kommende konferanse.
– Gikk på toalettet og så meg i speilet
AI-en er trent på et allerede eksisterende datasett. Fire testpersoner fikk se 10.000 bilder av for eksempel landskap, personer og objekter. Imens ble hjerneaktiviteten deres ble målt med funksjonell MR (fMRI).
Denne teknikken måler hjerneaktivert basert på blodgjennomstrømning og oksygenforbruk i forskjellige områder av hjernen.
1.000 av bildemotivene i datasettet ble ikke vist til AI-en. Isteden ble de brukt i en test.
Da fikk AI-en kun se resultatene av hjernemålingene og skulle tegne bilder basert på dem.
AI-en klarte å gjengi komposisjon og elementer i bildene, slik at de til en viss grad matchet originalbildene.
Yu Takagi ble selv forbløffet over resultatene.
Annonse
– Jeg kunne ikke tro mine egne øyne, jeg gikk på toalettet og tok en titt i speilet og gikk så tilbake til skrivebordet mitt for å se igjen, sier han til New Scientist.
– Spennende
Morten Goodwin er professor ved Universitetet i Agder og nestleder for Centre for Artificial Intelligence Research.
– Jeg synes det er en kjempespennende artikkel. Det var overraskende at de fikk til å lese fMRI på den måten. Men når jeg leser artikkelen, så er det åpenbart at de har fått det til.
Goodwin sier at dette kan begynne å minne om tankelesning. Men foreløpig er det flere begrensninger.
Begrenset til hva som er i treningsdataene
Studien er bare gjort på fire personer. Det er ikke sikkert det fungerer like godt på andre personer. I tillegg kan AI-en bare tegne ting som den har sett i treningsdataene.
– Den er begrenset til de 10.000 bildene som var i studien. Det er ikke sånn at den kan «lese» alt jeg tenker på.
Goodwin tror likevel det er en midlertidig begrensning.
– Vi så det samme med de første kreative algoritmene. De første kunne bare tegne katter, for eksempel. Så kunne de tegne fugler og katter, og så videre.
I dag kan de tegne så godt som alt.
Hvis den typen AI fra den nye studien trenes på mer og mer materiale og databasene med hjernedata utvides, kan det være den også kan tegne det meste til slutt.
Annonse
Fra abstrakt til gjenkjennbart
En justering av modellen måtte til for at AI-en skulle klare å lage gjenkjennbare gjenstander.
Ved kun å se på hjerneaktiviteten, kunne AI-en lage bilder som hadde noen trekk fra originalbildet.
Hvis det var et landskap, kunne linjene i bildet være på plass. Men bildet var ofte abstrakt.
For at AI-en skulle lage et bilde av for eksempel et klokketårn og ikke bare en høy, abstrakt figur, trengte den mer informasjon.
Koblet til stikkord
Forskerne lot AI-en også se på stikkord som hørte til de originale bildene i treningsdataene.
Treningsbilder med stikkordet klokketårn hadde kanskje et spesielt mønster i hjernemålingene. Det kunne AI-en lære seg å kjenne igjen og finne i hjernebildet den skulle gi en representasjon av, ifølge artikkelen hos Science.
Objektet klokketårn kunne da tegnes inn, mens komposisjonen og linjene i det nye bildet ble beholdt.
Lage suppe
Forskerne brukte en kunstig intelligens kalt Stable Diffusion som ble sluppet av selskapet Stability AI i 2022.
Det er en modell som kan lage bilder basert på tekst, i likhet med for eksempel DALL·E 2.
Annonse
Men i den nye studien er det hjernescanninger som puttes inn istedenfor tekst.
Måten tekst-til-bilde-generatorer forenklet fungerer på, er at de får tekst og reduserer kvaliteten på teksten så drastisk at den ikke lenger er gjenkjennbar, sier Goodwin.
– Men den er gjenkjennbar for den kunstige intelligensen.
Så lærer den kunstige intelligensen seg hvordan den skal oversette den diffuse teksten til et bilde.
Goodwin sammenligner det med å lage suppe og så koke den ned til det bare er en gugge igjen. Så kan du tilsette vann, og det blir en suppe igjen.
Goodwin tenker at teknologien kan ha mange bruksområder dersom dette utvikles videre. For eksempel for å få en bedre forståelse av hvordan dyr ser verden.
– Det er vanskelig å spørre ei ku hva den tenker.
Han nevner også det å registrere drømmer, hjelpe folk uten taleevne og at det kanskje kan brukes som en form for løgndetektor.
Foreløpig har teknologien et smalt bruksområde.
Modellen måtte tilpasses hvert individ. Den kan lage bilder ut fra noen få testpersoner sine omfattende hjernemålinger.
– Fordi formen på hjernen er forskjellig fra ett individ til et annet, er det ikke mulig direkte å bruke en modell laget for ett individ på et annet, svarer forskerne på sin FAQ-side.
Det er imidlertid foreslått flere metoder for å kompensere for disse forskjellene, fortsetter de.
Annonse
– Det ville vært mulig å bruke slike metoder for å overføre modeller på tvers av individer med en viss grad av nøyaktighet.
Lignende studier der AI generer bilder fra hjernedata, er gjort før.
Den nye tilnærmingen skiller seg fra tidligere ved at den er mer effektiv, trenger mindre finjustering og mindre treningsdata, forteller Takagi til Science.
Referanse:
Yu Takagi & Shinji Nishimoto: «High-resolution image reconstruction with latent diffusion models from human brain activity». Tilgjengelig på bioRxiv. Doi: https://doi.org/10.1101/2022.11.18.517004