Likevel har forskerne håp om at dette skal bli mulig i fremtiden. For å få det til trenger den kunstige intelligensen litt mer hjelp.
Forsker Ghadi Al Hajj ved Universitetet i Oslo skal finne ut hvordan han kan hjelpe maskinlæringen (KI) å lære.
Han forklarer at den klassiske måten å gå fram på er å gi algoritmen et stort datasett og samtidig gi den en pekepinn om når den får rett svar. Utfordringen er at dette ikke fungerer så godt for komplekse problemer slik som immunsykdommer.
Det er flere årsaker til dette:
– Det algoritmen skal finne, er veldig lite i forhold til størrelsen på datasettet, forklarer han.
I tillegg er det slik at samme immunsykdom slik som cøliaki eller glutenintoleranse, kan være forskjellig fra person til person. Det betyr at det den skal finne, ikke er det samme fra gang til gang.
Dette er forskernes mål
I fremtiden ser forskerne for seg at det skal fungere på denne måten: En pasient kommer til sykehuset med immunrelaterte plager. De tar en blodprøve, og prøven sendes til et analyseverktøy – en kunstig intelligens.
Dette verktøyet har blitt trent på tidligere blodprøver og kan kjenne igjen stoffer i blodet til pasienten. På grunnlag av dette kan analyseverktøyet si at plagene skyldes glutenallergi for eksempel.
Det var forskernes mål.
Det finnes tusenvis av ulike immunsykdommer. Felles for dem er at de trigger immunforsvaret vårt på ulike måter. Selv om det er noe felles, er det også store forskjeller – blant annet fordi vi mennesker genetisk sett er forskjellige. Da kan immunsykdommene være det også. Derfor sliter KI med å identifisere immunsykdommer med dagens metoder.
– Det vi gjør, er å ha store datasett som vi gir til KI-modellen. Ut ifra det skal den finne ut hvorvidt en person har en gitt sykdom eller ikke. Det er en eksisterende modell som kalles for DeepRC – Deep Repertoire Classification, forklarer Al Hajj.
Maskinen leter etter sykdomstegn som er bestemte sekvenser av aminosyrer, deler av et bestemt protein, hvor hver slik sekvens typisk er rundt 20 aminosyrer lang. Det er gjerne bare et fåtall relevante sekvenser blant et datasett som totalt kan inneholde mange hundre tusen sekvenser totalt.
– Det analysen skal finne, er veldig lite i forhold til det den skal lete gjennom, sier Al Hajj. Fordi det den skal finne er så lite, er det veldig vanskelig å få modellen til å fungere.
Han legger til at algoritmen ikke vet hva den leter etter. Den skal finne fellestegn for en gitt sykdom, men tegnene kan variere litt fra person til person. Derfor trenger den hjelp.
Problemet forklart med et dokument-eksempel
Han forklarer problemet slik:
– La oss si at du har en advokat som skal lese 100 dokumenter. Oppgaven hans er å finne ut hvilke dokumenter som er forfalskede og ikke. Hvert dokument har 100 sider, og på hver side er det 10 avsnitt. Det er 100.000 avsnitt. Advokaten får vite hvilke dokumenter som inneholder forfalskede avsnitt, men ikke hvilket av avsnittene, forklarer Al Hajj.
Annonse
Han forteller at det første problemet er at antall paragrafer i ett dokument som er forfalsket, kan være lite. La oss si at det bare er ett avsnitt.
Det andre problemet er at det er mulig å forfalske avsnittene på mange ulike måter.
Dersom advokaten kunne funnet likheter mellom alle dokumentene som har forfalskede avsnitt i seg, ville det gjøre jobben enklere, men det er ikke nødvendigvis slik.
– Dette likner på vårt problem, sier han.
Slik vil forskerne hjelpe til
Ved å gi algoritmen en idé om hva den skal lete etter, så kan den lære raskere, mener Al Hajj.
– Hvis vi for eksempel skal få den til å diagnostisere personer med cøliaki eller glutenintoleranse, kan vi gi den data fra lab-eksperimenter av immunceller som reagerer med gluten, forklarer han.
Det vil gi den en pekepinn om hva den skal lete etter.
Al Hajj mener at det er flere fordeler med metoden. Han forklarer at det gjør at datasettet de trener modellen på, kan være svært mye mindre. Dette sparer både tid og energiressurser ettersom trening av KI-modeller krever mye energi.
– Hvis vi sammenlikner med advokat-problemet, blir det som å si at vi peker på hvilke dokumenter som inneholder avsnitt som er forfalskede. I tillegg er man i noen tilfeller i stand til å peke spesifikt på hvilke avsnitt det gjelder. Da vet modellen i større grad hva den skal se etter, forklarer Al Hajj.
Foreløpig er den ekstra formen for veiledning testet med kunstige data. På sikt håper han at de kan trene på ekte helsedata og på flere ulike typer immunsykdommer.
Referanse:
Annonse
Ghadi S. Al Hajj mfl.: Incorporating probabilistic domain knowledge into deep multiple instance learning. International Conference on Machine Learning (ICML), 2024. (Sammendrag)