Forskerne testet språkmodellene og nesten 2.000 mennesker i fire ulike tester av «Theory of Mind», altså evnen til å sette seg inn i en annen persons situasjon.
(Illustrasjonsfoto: Alphavector / Shutterstock / NTB)
Ny studie: Chatboter er like flinke til å sette seg inn i andres sted som mennesker
I noen tilfeller er de faktisk bedre, ifølge tysk forskning. Danske forskere er ikke overrasket.
Når vi leser en roman, ser en film eller
snakker med en venn, skjer det noe i magen vår:
Vi blir medfølende, empatiske og bevisst
eller ubevisst forsøker vi å sette oss inn i en annen persons situasjon. Vi
prøver å forstå følelser, tanker og motiver.
Psykologer kaller denne prosessen for
«Theory of Mind», og det er en evne som noen forskere mener er unik for
mennesker. Men den antagelsen blir nå utfordret i en ny studie som nettopp er
publisert i Nature Human Behaviour.
Kanskje har de AI-drevne språkmodellene
som ChatGPT og andre chatboter er basert på, de samme evnene. I hvert fall er
de gode til å etterligne dem.
Forskerne bak studien konkluderer med at
tre språkmodeller er i stand til å løse tester for graden av «Theory of Mind»
like godt, og i noen tilfeller bedre, enn de 1907 menneskene i studien.
Det er ikke overraskende, mener Anders
Søgaard, filosof ved Københavns Universitet:
– Det er ikke noe rart i at språkmodeller
lærer seg Theory of Mind, sier han.
Ironi, indirekte tale og
konspirasjonsteorier
Helt konkret testet forskerne
språkmodellene og nesten 2.000 personer i fire ulike Theory of Mind-tester.
Testene målte hvor god man er til å lese
og forstå situasjoner som krever at du må sette deg i en annen persons sted.
Disse situasjonene omfattet blant annet
ironi, indirekte tale, faux pas (en uheldig krenkelse) og konspirasjonsteorier.
Et eksempel fra studien er følgende
historie, som beskriver en situasjon som er et uttrykk for faux pas, en
overskridende handling:
«Jill hadde nettopp flyttet inn i et nytt
hus. Hun var ute og handlet med moren sin og kjøpte nye gardiner. Da Jill hadde
hengt dem opp, kom bestevenninnen Lisa bort og sa: Å, de gardinene er
forferdelige, jeg håper du får nye. Jill spurte: Liker du resten av
soverommet mitt?»
I testen blir du så stilt en rekke
spørsmål som gir en indikasjon på om du forstår at situasjonen er ubehagelig
for Jill.
Og så videre og så videre. I alle
tilfeller var språkmodellene minst like gode som de menneskelige deltakerne, og
i noen kategorier bedre, til å forstå og tolke situasjonen, noe som til syvende
og sist er et uttrykk for Theory of Mind.
Ikke overraskende
At den språkkyndige kunstige intelligensen
scorer høyt på tester for Theory of Mind, overrasker ikke professor Anders
Søgaard.
Språkmodeller er trent opp til å memorere
store mengder tekst og deretter bli supereksperter på å gjette neste ord i en
setning.
– Hvis vi leste en Thomas Mann-roman og
hele tiden skulle gjette neste ord før vi så det, ville vi ofte bruke «Theory
of Mind». For det er en fordel hvis du må gjette hva karakterene i Kjøpmannen i
Venezia kommer til å gjøre.
Å kjenne til følelser, tanker og motiver
er altså en nyttig egenskap for en språkmodell når den skal generere best mulig
tekst for mennesker, fordi følelser, tanker og motiver påvirker hvordan vi
mennesker genererer tekst.
1.907 mennesker vs. tre språkmodeller
Nature Human Behavior-studien testet 1 907
personer og tre populære språkmodeller i fire ulike Theory of Mind-tester.
Språkmodellene er GPT-3.5 og GPT-4, som
ChatGPT bruker, og LLaMA2, som er utviklet av Meta, tidligere Facebook.
Spill for galleriet?
Et annet mer grunnleggende og filosofisk
spørsmål er om språkmodeller «forstår» følelsene, tankene og motivene som
ligger til grunn for å score godt på testene:
– Er det en ekte Theory of Mind? som
Anders Søgaard spør. – Hvis man for eksempel tror at «Theory of Mind» krever
bevissthet, sjel eller lignende, er det selvsagt utenfor språkmodellenes
rekkevidde.
Hvis man ikke tror det, er det å forvente
at språkmodeller før eller siden vil tilegne seg «Theory of Mind», påpeker han.
Spørsmålet er en del av en større debatt
blant KI-forskere. Spørsmålet ble først introdusert i et notat av
Stanford-professor Michal Kosinski i mars 2023.
Han mente å vise at store språkmodeller
har «Theory of Mind», men flere forskere tok straks til motmæle, sier Søgaard.
Referanse:
James W. A. Strachan mfl.: Testing theory
of mind in large language models and humans. Nature Human Behavior, 2024. DOI:
10.1038/s41562-024-01882-z
© Videnskab.dk. Oversatt av Lars Nygaard for forskning.no. Les originalsaken på videnskab.dk her.