Forskere ved Nasjonalt senter for e-helseforskning har nå klart å utvikle den første norske kliniske språkmodellen, kalt NorDeClin-BERT.
Modellen er basert på naturlig språkbehandling. Med disse kan datamaskiner forstå og bearbeide menneskelig språk.
Den nye modellen henter kunnskap fra såkalte kliniske tekster. Det er tekst fra for eksempel en legejournal og annen skriftlig tekst som leger og helsepersonell bruker i pasientbehandling.
Modellen åpner for nye muligheter innen helseforskning og pasientbehandling.
Men
først må forskerne anonymisere data fra deg som
pasient for å utvikle tjenesten.
Språkmodellen er trent i den norske generelle språkmodellen NorBERT.
BERT er et system som kan forstå sammenhenger i tekst. NorBERT er trent på norsk tekst for å kunne håndtere norsk språk.
Forskerne har brukt data fra gastrokirurgisk avdeling ved Universitetssykehuset Nord-Norge. Informasjonen herfra er pseudonymisert. Det
betyr at det potensielt er vanskelig å identifisere personopplysninger.
– Målet er å få modellen godkjent snart slik at flere kan ta den i bruk og dermed gi uvurderlig hjelp i helsetjenesten.
Det sier forsker Phuong Dinh Ngo i avdeling for helsedata og analyse ved Nasjonalt senter for e-helseforskning.
Språkteknologi
Språkmodellen er basert på teknologi som opprinnelig ble utviklet av Google i 2018.
Den er trent på norske kliniske tekster. Den kan forstå medisinske termer og i hvilke sammenheng disse er brukt i. Dette er avgjørende for at modellen skal kunne tas i bruk i helsesektoren. Presis og riktig forståelse av tekst kan være
livsviktig.
– Kunstig
intelligens bidrar allerede til å løse noen oppgaver i helsetjenestene. Dette prosjektet er et skritt videre for bruk av KI i helsetjenestene. Jeg er
opptatt av trygg bruk av KI, og her har vi en språkmodell trent på ekte norske
helsedata. Det er bra, sier statssekretær i Helse- og omsorgsdepartementet, Ellen Rønning-Arnesen (Ap).
Hun gratulerer Nasjonalt
senter for e-helseforskning for å ha utviklet en KI-modell som ivaretar
kultur og språk i norsk helsetjeneste.
NorDeClin-BERT
BERT er
en forkortelse for Bidirectional Encoder Representations from
Transformers og er navnet på en familie av språkmodeller som ble
utviklet av Google-forskere og lansert i 2018.
Fra
før finnes det andre BERT-er som leser norsk språk: NorBERT1-3 fra
Universitetet i Oslo og nb-BERT fra Nasjonalbiblioteket. Disse har god generell
forståelse av tekst, men mindre forståelse for klinisk medisinsk tekst.
Prosjektet
skal etter planen være ferdig 2025, men første modell skal allerede være
tilgjengelig i andre del av 2024.
Utfordringer
og løsninger
En av
de største utfordringene ved utviklingen har vært tilgangen
til data.
Kliniske tekster inneholder sensitive personopplysninger. Det kreves omfattende godkjenninger for å bruke disse dataene til forskning.
Annonse
Forskere ved Nasjonalt senter for e-helseforskning har jobbet i fire til fem år
for å få tilgang til nødvendige data. De også har utviklet metoder som ivaretar personvernet.
– Det har vært en lang prosess å få
tilgang til klinisk tekst og deretter fjerne sensitiv informasjon i den. Nå
gjenstår det å få de nødvendige godkjenningene i boks får å ta i bruk språkmodellen, sier forsker Miguel Angel Tejedor Hernandez i Nasjonalt senter for
e-helseforskning.
Revolusjon for helsesektoren?
Forskerne mener modellen har potensial til å revolusjonere hvordan helsepersonell håndterer klinisk
informasjon.
Modellen kan bidra til automatisk koding av diagnoser. Den kan identifisere navn på legemidler i tekster og også anonymisere tekst.
Raskere og mer nøyaktig oversikt over pasientinformasjon kan forbedre pasientsikkerheten. Det kan også effektivisere administrasjon av sykehus.
– Klinisk tekst er forskjellig fra
vanlig norsk tekst på den måten at leger og helsepersonell kanskje skriver
dette på forskjellige måter. De kan bruke forskjellige navn med forskjellige
betydninger. En modell som er i stand til å dekode og forstå språket fra helsepersonell
er derfor en viktig
innovasjon for å forbedre både pasientbehandling og effektiviteten i
helsesektoren, mener
Phuong Dinh Ngo.
Konkurranse og samarbeid
Forskerne har nå utviklet den første kliniske språkmodell innen gastrokirurgi. Men også andre institusjoner jobber med lignende prosjekte, som for eksempel Helse Vest IKT, Helse Bergen, Helse Fonna, Helse Stavanger,
Helse Førde og DIPS.
– Med
KI vil helsepersonell kunne bruke tiden sin mer effektivt. Det kan bidra til mer
arbeidsbesparende prosesser, sier statssekretær Rønning-Arnesen.
Dette kan handle om mer effektivt og bedre innhold i
journaler. KI kan støtte legen ved å sette sammen informasjon fra blodprøver, bildeundersøkelser og journaltekst. Systemet kan hente inn ny forskningsbasert kunnskap. Det kan også for
eksempel foreslå mulige diagnoser og støtte legen i å vurdere risiko i
behandlingen,
NorDeClin-BERT
har dratt nytte av samarbeid med den svenske forskningsinfrastrukturen Health Bank ved
Stockholms universitet. Forskerne har også samarbeidet med gastrokirurgisk avdeling
ved Universitetssykehuset Nord-Norge.
Annonse
Veien videre
Professor
Hercules Dalianis ved Nasjonalt senter for e-helseforskning forklarer at modellen
blir mye tryggere når man bruker både norsk allmennspråk fra NorBERT sammen med anonymisert norsk klinisk tekst. Dette er bedre enn bare klinisk tekst alene.
Forskerne
har søkt om godkjenning av språkmodellen. Målet er å dele den med
andre forskere og helseinstitusjoner.
De håper også å implementere systemet ved noen sykehus for å
se hvordan dette ser ut i en ekte behandlingsprosess.
– Prosjektet
er planlagt ferdigstilt i 2025, men allerede i andre halvdel av 2024 håper og forventer
vi at den første versjonen av NorDeClin-BERT vil være tilgjengelig for bruk i
helsesektoren,
sier Miguel Angel Tejedor Hernandez.
Målet
er at modellen skal bli en ressurs for hele helse-Norge med mulighet for
videreutvikling og tilpasning til flere medisinske fagfelt.
Klinisk tekst
Klinisk tekst er skriftlig
dokumentasjon som brukes i helsesektoren og inneholder informasjon om
pasienters helsetilstand, diagnoser, behandlinger, medisiner og annen relevant
medisinsk informasjon. Dette inkluderer blant annet:
Journalnotater: Dokumentasjon skrevet av leger, sykepleiere og annet helsepersonell under pasientens behandling.
Epikriser: Oppsummeringer av pasientens sykehistorie, diagnose og behandling som blir skrevet ved utskrivelse fra sykehuset.
Henvisninger: Skriftlig informasjon som sendes fra en lege til en spesialist eller annen behandlingsinstans.
Diagnoser og ICD-koder: Kategorisering og koding av sykdommer og medisinske tilstander.
Resepter: Skriftlige foreskrivelser av medisiner og behandlingsplaner.
Klinisk tekst er ofte komplekst og
teknisk, med spesialiserte medisinske termer og uttrykk som kan variere
avhengig av konteksten. Presis og korrekt forståelse av denne teksten er
avgjørende for riktig behandling og pleie av pasienter. Det er her kliniske
språkmodeller, som NorDeClin-BERT, kan spille en viktig rolle ved å
automatisere og forbedre prosessen med å tolke og anvende informasjon fra
kliniske tekster.
Rettelogg 16. september: Setningen «Det betyr at det er umulig å avsløre identiteten til enkeltpersoner» som forklaring på pseudonymisert, er endret til «Det betyr at det potensielt er vanskelig å identifisere personopplysninger».