Datakraft skal avdekke skjulte genmønstre

Vår innsikt i det menneskelige arvematerialet øker. En av bioinformatikkens store utfordringer er å omsette kunnskapen om gener og proteiner til dataleselig form - for å forstå de dypere sammenhengene.

Publisert
"Februar 2001 kom fagbladene Nature og Science ut samtidig med to versjoner av et oversiktskart over det menneskelige genom (Foto: Jon Solberg)"
"Februar 2001 kom fagbladene Nature og Science ut samtidig med to versjoner av et oversiktskart over det menneskelige genom (Foto: Jon Solberg)"

Uten informasjonsteknologi kunne ikke kartleggingen og bearbeidingen av det menneskelige arvematerialet vært mulig å gjennomføre, sier professor Hans Prydz ved Bioteknologisenteret på Universitetet i Oslo, som nylig deltok på et seminar på Voksenåsen hotell hvor en internasjonal forsamling av forskere drøftet bioinformatikkens fremtid.

- Biologien definerer problemstillingene, men uten informatikk som redskap kan de ikke løses. Samtidig foregår det en vekselvirkning. Ved hjelp av informatikk får man fram data som gir nye problemstillinger for biologene, sier Prydz og poengterer at flere forskere på seminaret pekte på en åpenbar utfordring: Å få omsatt all den innsamlede kunnskapen om gener og proteiner i dataleselig form. Men utover det å håndtere de enorme informasjonsmengdene, ligger noen av de store utfordringene videre i å forstå de dypere sammenhengene, sier Prydz.

Gjenkjennelse av mønstre

Beskrivelsen av det humane genom (vårt arvemateriale) skjer ved at rekkefølgen av de såkalte basene, byggesteinene i DNA, bestemmes ved hjelp av en kjemisk/biologisk prosess der informasjonen leses ved hjelp av en laser som “putter” det rett inn i en datamaskin. 1000 baser kan kartlegges i løpet av 5-6 timer. Når baserekkefølgen er bestemt, kan jakten på mønstre i rekken av baser begynne, ved hjelp av dataverktøy som gjør det mulig å gjenkjenne og sammenlikne strukturer. Selv om forskerne allerede har en del kraftige dataverktøy til å analysere DNA-sekvensene, er det behov for stadig mer avanserte og intelligente metoder for å kunne tolke dem.

En interessant oppdagelse gjort ved Bioteknologisenteret, er et spesielt mønster som ofte markerer begynnelsen på et gen. Den ene av de fire byggesteinene, C-basen, finnes i to varianter, og der hvor den ene varianten (de såkalte umetylerte C-ene) hoper seg opp, finner man ofte begynnelsen på et gen. Ved hjelp av denne indikatoren har Prydz og hans kolleger funnet en ansamling på fem gener som ligger tett inntil hverandre, og til dels “lagvis” overfor hverandre langs hver sin motgående DNA-tråd.

- Det er et mysterium hvorfor gener, med til dels ulike egenskaper, hoper seg opp enkelte steder på denne måten, mens det andre steder ligger tomrom, hvor DNA-tråden ikke inneholder gener. Genene utgjør under ti prosent av DNA. En videre forskningsmessig utfordring er hvorfor genene klumper seg sammen på denne måten, og hva en slik struktur betyr for arvematerialets egenskaper, sier Prydz.

Mye gjenstår

- Kartlegging av det menneskelige arvestoffet er bare slutten på begynnelsen, sier førsteamanuensis Rein Aasland ved Molekylærbiologisk institutt, Universitetet i Bergen. - Vi er i ferd med å lære oss “ordene” ved å kartlegge genene, men vi skjønner ikke sammenhengen og dybden i budskapet. Cellene leser jo genenes budskap hele tiden uten særlig besvær, og de reagerer deretter. For at vi bedre skal kunne tolke informasjonen i genomene, må vi også lære oss mer om hvordan cellene gjør dette. Slik sett er det meget viktig at bioinformatikere og molekylærbiologer samarbeider om utvikling av nye verktøy.

- En av de store utfordringene er å utvikle dataverktøy som kan forutsi de tredimensjonale strukturene som skapes når informasjonen fra genene omsettes til proteiner, sier Aasland. Han peker på at proteinene er bygd opp av kjeder av aminosyrer, og at “proteinalfabetet” består av 20 ulike aminosyrer. Den genetiske kode bestemmer rekkefølgen av aminosyrene, som igjen bestemmer den tredimenasjonale foldingen av aminosyrekjedene - proteinene. Denne foldingen kan fortelle forskerne mye om proteinenes funksjon.

- Derfor forsøker mange bioinformatikere å utvikle dataprogrammer som kan forutsi hvordan proteinene inntar sin nøyaktige, tredimensjonale fasong. Med et slikt dataprogram vil forskerne komme et langt skritt nærmere i å forstå sammenhengen i de budskapene som ligger i DNA-trådene, sier Aasland.