Finn nåla i DNA-høystakken

Ny programvare gjer det enklare for biologar å identifisera mitokondrielt DNA, ein viktig genetisk markør.

Published

Christoph Hahn frå Østerrike kom til Naturhistorisk museum ved Universitetet i Oslo for å ta doktorgraden på fiskeparasitten Gyrodactylus. Men dei kompliserte DNA-analysane han hadde bruk for å utføra, tok tid.

– Dei tradisjonelle metodane kravde mykje tid i laben, og ei stund etter at prosjektet hadde kome i gang, hadde eg ikkje hatt veldig mykje framgang, fortel Hahn.

– Eg ville nok ha kome fram til dei resultata eg ynskte, men det hadde kome til å ta fleire veker, kanskje månadar.

Ukjent gyrodactylus frå aure. (Foto: Christoph Hahn, NHM/UiO)
Ukjent gyrodactylus frå aure. (Foto: Christoph Hahn, NHM/UiO)

Teknisk krevjande

Hahn hadde behov for betre metodar for sekvensering av mitokondrielt DNA, som er ein mykje brukt genetisk markør for å studera slektskap mellom artar.

Sekvenseringsarbeidet skaut fart då han gjekk over til Next Generation Sequencing (NGS), eit samleomgrep for nye metodar for meir avansert sekvensering.

Men sjølv om laboratoriearbeidet vart betydeleg redusert, såg Hahn at det framleis var sider som kunne betrast. For å finna dei små nålene av relevant informasjon i den enorme høystakken av data som NGS-metodane genererte, måtte ein framleis gjennom fleire og tidkrevjande steg framfor dataskjermen.

– I tillegg var jobben teknisk krevjande. Dermed var dei fleste biologar avhengige av bioinformatikarar, som raskt vart ein knappheitsressurs, fortel Hahn.

Christoph Hahn under feltarbeid. (Foto: Christoph Hahn, NHM/UiO)
Christoph Hahn under feltarbeid. (Foto: Christoph Hahn, NHM/UiO)

Store datamengder

Programmet MITObim krev ikkje meir enn moderate datakunnskapar av biologar som ynskjer å ta det i bruk. Alt operatøren treng å gjera, er å starta prosessen frå rådata. Resten går av seg sjølv.

– Men det fortel jo litt om kor store datamengder vi arbeider med her, at når vi seier at prosessen går raskt, betyr det at den ikkje tek meir enn eit døgn, smiler Hahn.

Han understrekar at han har basert seg på arbeid som andre har gjort før han, og han har i likheit med dei lagt ut programvaren som Open Source.

Nokre få timar

I tillegg til enklare bruk, trekkjer Hahn fram ein annan styrke ved programmet han har laga. Ved bruk av andre metodar må ein ha genomet til arten ein arbeider med som referanse. Med MITObim er det nok at arten er beslekta.

Frå Gyrodactylus derjavinoides til G.thymalli. A viser utgangspunktet, B er etter fyrste gjentaking, C etter femte, D etter åttande og E etter femtande. Sjå teksten for forklaring. (Foto: ( Ill.: Christoph Hahn/Nucleic Acids Research))
Frå Gyrodactylus derjavinoides til G.thymalli. A viser utgangspunktet, B er etter fyrste gjentaking, C etter femte, D etter åttande og E etter femtande. Sjå teksten for forklaring. (Foto: ( Ill.: Christoph Hahn/Nucleic Acids Research))

Gyrodactylus thymalli er ein parasitt på harr som er i svært nær slekt med laksedreparen Gyrodactylus salaris. Illustrasjonen viser korleis den stegvis vert konstruert med det mitokondrielle genomet til G. derjavinoides, ein parasitt på aure som òg finst i  Noreg, som startreferanse.

– Genetisk er dei to artane like langt frå kvarandre som menneske og makakar, og likevel klarar vi altså å henta fram det mitokondrielle genomet til G. thymalli etter femten gjentakingar, på berre  nokre få timar.

Vidare utvikling

Hahn har alt fått 10-12 e-postar frå biologar som har teke programmet i bruk eller ynskjer å gjera det.

– Det er fint om folk synest dei har nytte av programmet. Di fleire som tek det i bruk og kjem med tilbakemeldingar, di lettare vert det å gjera utbetringar og vidare utvikling.

Referanse:

Hahn, Bachmann & Chevreux: Reconstructing mitochondrial genomes directly from genomic next-generation sequencing reads—a baiting and iterative mapping approach, Nucleic Acids Research (2013), doi: 10.1093/nar/gkt371.