Annonse

Denne artikkelen er produsert og finansiert av Nasjonalt senter for e-helseforskning - les mer.

NorDeClin-BERT er en språkmodell basert på teknologi opprinnelig utviklet av Google i 2018.

KI kan forstå legejournalen din: En ny språkmodell kan revolusjonere helsesektoren 

Forskerne mener at Norge nå har tatt et betydelig skritt framover innenfor bruk av kunstig intelligens (KI) i helsesektoren. 

Publisert

Forskere ved Nasjonalt senter for e-helseforskning har nå klart å utvikle den første norske kliniske språkmodellen, kalt NorDeClin-BERT. 

Modellen er basert på naturlig språkbehandling. Med disse kan datamaskiner forstå og bearbeide menneskelig språk.

Den nye modellen henter kunnskap fra såkalte kliniske tekster. Det er tekst fra for eksempel en legejournal og annen skriftlig tekst som leger og helsepersonell bruker i pasientbehandling.

Modellen åpner for nye muligheter innen helseforskning og pasientbehandling. 

Men først må forskerne anonymisere data fra deg som pasient for å utvikle tjenesten.

– En modell som er i stand til å dekode og forstå språket fra helsepersonell er en viktig innovasjons, sier Phuong Dinh Ngo.

Språkmodellen er trent i den norske generelle språkmodellen NorBERT.  

BERT er et system som kan forstå sammenhenger i tekst. NorBERT er trent på norsk tekst for å kunne håndtere norsk språk.

Forskerne har brukt data fra gastrokirurgisk avdeling ved Universitetssykehuset Nord-Norge. Informasjonen herfra er pseudonymisert. Det betyr at det potensielt er vanskelig å identifisere personopplysninger.

– Målet er å få modellen godkjent snart slik at flere kan ta den i bruk og dermed gi uvurderlig hjelp i helsetjenesten. 

Det sier forsker Phuong Dinh Ngo i avdeling for helsedata og analyse ved Nasjonalt senter for e-helseforskning.

Språkteknologi

Språkmodellen er basert på teknologi som opprinnelig ble utviklet av Google i 2018.

Den er trent på norske kliniske tekster. Den kan forstå medisinske termer og i hvilke sammenheng disse er brukt i. Dette er avgjørende for at modellen skal kunne tas i bruk i helsesektoren. Presis og riktig forståelse av tekst kan være livsviktig.

– Kunstig intelligens bidrar allerede til å løse noen oppgaver i helsetjenestene. Dette prosjektet er et skritt videre for bruk av KI i helsetjenestene. Jeg er opptatt av trygg bruk av KI, og her har vi en språkmodell trent på ekte norske helsedata. Det er bra,  sier statssekretær i Helse- og omsorgsdepartementet, Ellen Rønning-Arnesen (Ap).

Hun gratulerer Nasjonalt senter for e-helseforskning for å ha utviklet en KI-modell som ivaretar kultur og språk i norsk helsetjeneste. 

– Med KI vil helsepersonell kunne bruke tiden sin mer effektivt, sier statssekretær i Helse- og omsorgsdepartementet, Ellen Rønning-Arnesen (Ap).

NorDeClin-BERT

BERT er en forkortelse for Bidirectional Encoder Representations from Transformers og er navnet på en familie av språkmodeller som ble utviklet av Google-forskere og lansert i 2018.

Fra før finnes det andre BERT-er som leser norsk språk: NorBERT1-3 fra Universitetet i Oslo og nb-BERT fra Nasjonalbiblioteket. Disse har god generell forståelse av tekst, men mindre forståelse for klinisk medisinsk tekst.

Prosjektet skal etter planen være ferdig 2025, men første modell skal allerede være tilgjengelig i andre del av 2024.

Utfordringer og løsninger 

En av de største utfordringene ved utviklingen har vært tilgangen til data. 

Kliniske tekster inneholder sensitive personopplysninger. Det kreves omfattende godkjenninger for å bruke disse dataene til forskning. 

Forskere ved Nasjonalt senter for e-helseforskning har jobbet i fire til fem år for å få tilgang til nødvendige data. De også har utviklet metoder som ivaretar personvernet.

– Det har vært en lang prosess å få tilgang til klinisk tekst og deretter fjerne sensitiv informasjon i den. Nå gjenstår det å få de nødvendige godkjenningene i boks får å ta i bruk språkmodellen, sier forsker Miguel Angel Tejedor Hernandez i Nasjonalt senter for e-helseforskning.

– Nå gjenstår det å få de nødvendige godkjenningene i boks, sier Miguel Angel Tejedor Hernandez.

Revolusjon for helsesektoren? 

Forskerne mener modellen har potensial til å revolusjonere hvordan helsepersonell håndterer klinisk informasjon. 

Modellen kan bidra til automatisk koding av diagnoser. Den kan  identifisere navn på  legemidler i tekster og også anonymisere tekst.

Raskere og mer nøyaktig oversikt over pasientinformasjon kan forbedre pasientsikkerheten. Det kan også  effektivisere administrasjon av sykehus.

– Klinisk tekst er forskjellig fra vanlig norsk tekst på den måten at leger og helsepersonell kanskje skriver dette på forskjellige måter. De kan bruke forskjellige navn med forskjellige betydninger. En modell som er i stand til å dekode og forstå språket fra helsepersonell er derfor en viktig innovasjon for å forbedre både pasientbehandling og effektiviteten i helsesektoren, mener Phuong Dinh Ngo.

Konkurranse og samarbeid 

Forskerne har nå utviklet den første kliniske språkmodell innen gastrokirurgi. Men også andre institusjoner jobber med lignende prosjekte, som for eksempel Helse Vest IKT, Helse Bergen, Helse Fonna, Helse Stavanger, Helse Førde og DIPS.

– Med KI vil helsepersonell kunne bruke tiden sin mer effektivt. Det kan bidra til mer arbeidsbesparende prosesser, sier statssekretær Rønning-Arnesen.

Dette kan handle om mer effektivt og bedre innhold i journaler. KI kan støtte legen ved å sette sammen informasjon fra blodprøver, bildeundersøkelser og journaltekst. Systemet kan hente inn ny forskningsbasert kunnskap. Det kan også for eksempel  foreslå mulige diagnoser og støtte legen i å vurdere risiko i behandlingen,

NorDeClin-BERT har dratt nytte av samarbeid med den svenske forskningsinfrastrukturen Health Bank ved Stockholms universitet. Forskerne har også samarbeidet med gastrokirurgisk avdeling ved Universitetssykehuset Nord-Norge.

Veien videre 

Professor Hercules Dalianis ved Nasjonalt senter for e-helseforskning forklarer at modellen blir mye tryggere når man bruker både norsk allmennspråk fra NorBERT sammen med anonymisert norsk klinisk tekst. Dette er bedre enn bare klinisk tekst alene.

Språkmodellen er en miks av vanlig norsk og fagspråket til helsepersonell, ifølge professor Hercules Dalianis.

Forskerne har søkt om godkjenning av språkmodellen. Målet er å dele den med andre forskere og helseinstitusjoner. 

De håper også å implementere systemet ved noen sykehus for å se hvordan dette ser ut i en ekte behandlingsprosess.

– Prosjektet er planlagt ferdigstilt i 2025, men allerede i andre halvdel av 2024 håper og forventer vi at den første versjonen av NorDeClin-BERT vil være tilgjengelig for bruk i helsesektoren, sier Miguel Angel Tejedor Hernandez.

Målet er at modellen skal bli en ressurs for hele helse-Norge med mulighet for videreutvikling og tilpasning til flere medisinske fagfelt.

Klinisk tekst

Klinisk tekst er skriftlig dokumentasjon som brukes i helsesektoren og inneholder informasjon om pasienters helsetilstand, diagnoser, behandlinger, medisiner og annen relevant medisinsk informasjon. Dette inkluderer blant annet:

  • Journalnotater: Dokumentasjon skrevet av leger, sykepleiere og annet helsepersonell under pasientens behandling.
  • Epikriser: Oppsummeringer av pasientens sykehistorie, diagnose og behandling som blir skrevet ved utskrivelse fra sykehuset.
  • Henvisninger: Skriftlig informasjon som sendes fra en lege til en spesialist eller annen behandlingsinstans.
  • Diagnoser og ICD-koder: Kategorisering og koding av sykdommer og medisinske tilstander.
  • Resepter: Skriftlige foreskrivelser av medisiner og behandlingsplaner.

Klinisk tekst er ofte komplekst og teknisk, med spesialiserte medisinske termer og uttrykk som kan variere avhengig av konteksten. Presis og korrekt forståelse av denne teksten er avgjørende for riktig behandling og pleie av pasienter. Det er her kliniske språkmodeller, som NorDeClin-BERT, kan spille en viktig rolle ved å automatisere og forbedre prosessen med å tolke og anvende informasjon fra kliniske tekster.

Rettelogg 16. september: Setningen «Det betyr at det er umulig å avsløre identiteten til enkeltpersoner» som forklaring på pseudonymisert, er endret til «Det betyr at det potensielt er vanskelig å identifisere personopplysninger».

Powered by Labrador CMS