Et nytt verktøy gjør det nå mulig å analysere de enorme mengdene med data som allerede finnes i helseregistrene våre. Målet er å forstå hvilke faktorer som disponerer for sykdomsutvikling
HAPLIN er et dataprogram for analyse av datasett som består av barn og to foreldre (triader). Programmet er skrevet av professor Håkon K. Gjessing ved Nasjonalt folkehelseinstitutt.
Gjessing har sammen med professor Rolv Terje Lie ved Seksjon for epidemiologi og medisinsk statistikk ved Institutt for samfunnsmedisinske fag, UiB, beskrevet metodene som brukes i HAPLIN i en artikkel i Annals of Human Genetics 2006.
Både HAPLIN og programmeringsspråket det er skrevet i (R) er gratis og fritt tilgjengelig for nedlasting fra internett. HAPLIN kan videreutvikles både for å utføre mer effektive beregninger på store datamengder, og for å inkludere andre typer datastrukturer.
Norge har omfattende og gode biobanker med opplysninger om arveanlegg og levesett for store deler av befolkningen. I dette materialet kan det ligge mye kunnskap om hvordan sykdommer henger sammen med både arv og miljø.
Men datamengden er enorm. Hvordan får vi analysert materialet på en effektiv måte?
Nå har professor Håkon K. Gjessing ved Nasjonalt folkehelseinstitutt laget HAPLIN, et nytt dataprogram som er utviklet for å gjøre genetiske epidemiologiske studier på datamateriale av den typen man har i de store helseregistrene i Norge.
Programmet skal ikke bare påvise om det er en sammenheng mellom en bestemt genvariant og en sykdom, men også kvantifisere hvor sterk sammenhengen er, det vil si hvor stor risiko for sykdom genvarianten medfører.
En gang i framtiden kan det kanskje bli mulig å lage personlige, genetisk betingede, risikoprofiler med tilhørende skreddersydde forebyggende tiltak til den enkelte.
Har data, søker verktøy
- Utgangspunktet er at Norge har store og gode biobanker, biobanker som dekker hele befolkningen eller hele fylker, sier professor Rolv Terje Lie ved Seksjon for epidemiologi og medisinsk statistikk ved Institutt for samfunnsmedisinske fag ved Universitetet i Bergen.
Han var den som først etterlyste et verktøy som HAPLIN, og som inspirerte kollegaen Håkon Gjessing til å lage programmet.
HAPLIN er tilpasset den datastrukturen som brukes i mange helseregistre, for eksempel i den norske mor og barn-undersøkelsen: Man samler inn data om barn og deres foreldre, en såkalt triadedesign.
Dette registeret dekker i dag rundt 70 000 svangerskap, og målet er 100 000. I tillegg til genetisk informasjon fra blodprøver, blir det samlet inn omfattende informasjon om andre variable, som sykdom, utdanning og livsstil.
Ser etter sammenhenger
Hele poenget med genetisk epidemiologi er å forstå hvilke faktorer som disponerer for sykdomsutvikling. Det kan for eksempel gjøres ved analyser hvor man undersøker i hvilken grad genene kommer til uttrykk i sykt og friskt vev.
Eller man kan ta for seg selve DNA-sekvensen til en rekke personer og se om man finner en sammenheng mellom spesielle genvarianter og sykdomsforekomst.
Det er dette HAPLIN er laget for å gjøre. Oppgaven er imidlertid lettere sagt enn gjort. Det krever både forenklinger og effektiv statistikk.
Å se på hele genomet er svært komplisert og ressurskrevende. Derfor velger forskerne å ta stikkprøver på utvalgte markører i genomet hos mor, far og barn, og så prøve å rekonstruere gensekvensene ut fra disse stikkprøvene.
I utgangspunktet er det umulig å vite om to observerte markører sitter på den samme av personens to kromosomstrenger, eller på motsatte kromosomer. Derfor må de statistiske metodene kunne regne ut den mest sannsynlige sekvensen.
Undersøker man flere markører hos en mor, en far og et barn, får man fort enormt mange forskjellige muligheter. Imidlertid er det bare en del av kombinasjonene som er vanlige i en homogen befolkning som den norske. Igjen må de mest sannsynlige kombinasjonene letes frem ved hjelp av statistiske metoder.
Annonse
Finurlig programmering
- Man kunne velge å genotype hele DNA-strengen man er interessert i, men det er kostbart, sier Håkon Gjessing, som er professor ved Folkehelseinstituttet, og som har skrevet programmet HAPLIN.
- Det vi gjør isteden, er å undersøke bestemte markører, men da med den ulempen at vi ikke kjenner den riktige rekkefølgen. Derfor prøver vi å rekonstruere den slik vi mener den må ha vært, og det kan vi gjøre med ganske høy sikkerhet
- Så har du den beregningsmessige utfordringen. Ser man på flere markører, får man fort et forferdelig høyt antall mulige kombinasjoner hos mor, far og barn, fortsetter Gjessing.
- Ett av hovedproblemene er å håndtere alle de mulige genotypene som kan passe med det man observerer, og finne de mest relevante. Det krever litt finurlig programmering.
Hvor stor er risikoen?
HAPLIN bygger på velprøvde statistiske metoder, med noen utvidelser.
Et hovedpoeng har vært at programmet ikke bare skal påvise om det er en sammenheng mellom en bestemt genvariant og en sykdom, men også kvantifisere hvor sterk sammenhengen er, det vil si hvor stor risiko for sykdom genvarianten medfører.
I Norge har vi spesielt gode forutsetninger for denne typen forskning, ifølge Rolv Terje Lie.
- Vi har en homogen og samarbeidsvillig befolkning. De aller fleste som er spurt om å delta i våre forskningsprosjekter, både syke og friske, har sagt ja. Det gjør at vi kan få informasjon av høy kvalitet.
- Styrken i HAPLIN ligger for det første i beregningen av relativ risiko, og for det andre i at man kan måle effekten av morens gener i tillegg til barnets egne. Det gjør programmet skreddersydd for forskning på fødselsutfall, som misdannelser, fødselsvekt, for tidlig fødsel eller svangerskapsforgiftning.
Gener påvirker miljøfaktorer
Annonse
Astanand Jugessur, som er postdoc ved Institutt for samfunnsmedisinske fag ved UiB, har arbeidet spesielt mye med leppe- og ganespalte. Dette er en medfødt misdannelse som det finnes flere årsaker til, og noen varianter har en klarere arvegang enn andre.
- Vi tenker oss at det finnes undergrupper hvor leppe- og ganespalte har mye med genetisk sårbarhet å gjøre, og andre undergrupper hvor miljøfaktorene er avgjørende. Det er for eksempel en kjent sak at hvis mor bruker visse typer medikamenter, øker sjansen for visse typer misdannelser hos barnet, forklarer han.
Fram til nå har man vært mest opptatt av å skille de genetiske faktorene fra miljøfaktorene. Men etter hvert har forskerne også begynt å innse at visse genvarianter kan gjøre mennesker mer tilbøyelige til å oppsøke visse typer miljøfaktorer, som for eksempel rusmidler.
Dermed er ikke nødvendigvis arv og miljø uavhengig av hverandre, men noe som må studeres i sammenheng.
- Til å begynne med er det viktig å studere ting isolert og se etter rene effekter. Men etter hvert må vi innse at man har flere nivåer av årsak og virkning. Leppe- og ganespalte kan brukes som en modell for å studere slike komplekse tilstander, og HAPLIN er veldig relevant for å studere dem, hevder Jugessur.
Personlig risikoprofil?
- Gen-miljø-interaksjoner er et veldig moteriktig begrep for tiden, men det er viktig også, sier Håkon Gjessing.
- Det er ikke så mange sykdommer som er forårsaket av enkeltgener, og de som finnes, er stort sett oppdaget. Vanligvis er det snakk om et samspill mellom mange gener med svak effekt.
- Studiedesignet hvor man ser på et barn og dets foreldre, er veldig velegnet til å studere slike interaksjoner. Fordi man kan følge genene fra foreldre til barn, kan man for eksempel også estimere om genene fra far har mer innflytelse enn genene fra mor, eller omvendt.
Det er mulig å tenke seg at man etter hvert kan få laget personlige, genetisk betingede, risikoprofiler med tilhørende skreddersydde forebyggende tiltak til den enkelte. Men ingen av de tre vil spekulere i hvor langt inn i fremtiden et slikt scenario ligger.
- Det er så mange gener, og vi vet så lite om samspillet mellom dem. Hvordan skal man måle effekten av for eksempel ti gener samtidig? Ti gener er jo ingenting når man tenker på mulighetene som ligger der.
- Og deler av arvestoffet som vi trodde var uten praktisk betydning, viser seg nå å ha betydning likevel. Alt er mye mer komplekst enn man tror, sier Jugessur.