- En slags Google for gener

Den norske søkemotoren Paralign viser vei i den genetiske jungelen. Det trengs, for mengden data som er samlet inn om arvestoffet til livet på kloden er enormt - og vokser.

Denne artikkelen er over ti år gammel og kan inneholde utdatert informasjon.

- Vi mener at vi har laget en søketjeneste for gener som er bedre og raskere enn de andre tjenestene som finnes i verden, sier Torbjørn Rognes.

Han hører til ved Centre for Molecular Biology and Neuroscience (CMBN) ved Rikshospitalet-Radiumhospitalet og Universitetet i Oslo. CMBN er ett av Norges Sentre for fremragende forskning. Rognes arbeider også ved Institutt for informatikk ved Universitetet i Oslo.

Enorme datamengder

Informatikkverktøy til å behandle de enorme informasjonsmengdene i gendatabasene har vært, og er fremdeles en flaskehals i genomforskningen.

Arvestoffet til jordens levende organismer er laget av DNA, som er et uhyre komplekst organisk molekyl. Dette molekylet er igjen satt samen av tre ulike typer mindre molekyler, nemlig en sukkerart, en organisk fosforgruppe og organiske baser.

Basene forekommer i fire forskjellige typer, som vi kaller A, T, C og G.

Kombinasjonen av disse fire basene gir koden som er DNAets språk. De gir instruksjoner om hvordan organismen skal bygges og drives, og hvordan livet skal videreføres i neste generasjon.

Menneskets genom har omtrent tre milliarder slike basepar - en informasjonsmengde som gjemmer seg i hver enkelt celle i kroppen din. Bakterier har ikke like mange basepar i sitt genom, de nøyer seg med “bare” rundt én million.

Leter etter noe som ligner

Når forskere kartlegger et nytt genom, legger de som regel alle dataene inn i store åpne databaser som er fritt tilgjengelig for alle. I tillegg legger de inn det de har klart å finne ut om hva de forskjellige genene gjør - hvilke oppgaver de har i organismens kropp.

- Det er denne informasjonen vi har lastet ned. Den består av mer enn 250 forskjellige organismer som er komplett sekvensert. Størsteparten er bakterier, men etter hvert har det også kommet til en del høyere organismer, for eksempel mennesket, mus, rotter, insekter, og fisker. Når vi summerer opp alt dreier det seg om mange milliarder basepar, sier Rognes.

Det er snakk om så store mengder med informasjon, at dersom du skulle skrive den ut på vanlig papir og så legge arkene oppå hverandre, ville du få en bunke som var rundt 1 000 meter høy. Informasjonen får likevel plass på en vanlig Ipod, eller på 40 CD-plater.

"To proteiner fra veldig ulike organismer kan være ganske like i romlig struktur og funksjon. Disse er fra henholdsvis bakterien Escherichia coli og menneske. I disse modellene av DNA-reparasjonproteiner er alfa-heliksene farget blå og røde, mens beta-trådene er lilla og gule. (Illustrasjon: Torbjørn Rognes)"



Tenk deg en forsker som har lyst å finne funksjonen til en bestemt gensekvens - fra en hvilken som helst organisme. For å gjøre jobben lettere kan han putte det aktuelle genet inn i den norske søkemotoren, som leter etter gensekvenser som ligner i hele den store databasen.

Kanskje beskrevet tidligere

Selv om ulike organismer er veldig forskjellige, har de mange av de samme genene. Gener som oppstod i tidlig livets utvikling er det mange organismer som har felles. For eksempel finnes genene for å utvikle ryggrad hos alle ryggradsdyr.

Dersom forskeren vår er heldig, finner han kanskje flere organismer som har gensekvenser som ligner på den han studerer selv. Kanskje finner han også ut at noen har funnet funksjonen til lignende sekvenser i andre skapninger.

- Ved å se på hva som er kjent fra før om lignende gensekvenser, kan man gjette seg frem til hva genet for den nye sekvensen gjør, sier Rognes.

Dermed slipper forskerne å stå i laboratoriet og utforske hvert eneste gen i hver eneste organisme fra bunnen av.

Paralign

- Man kan altså gjette seg fram til funksjonen ved hjelp av datatekniske metoder. Dette kan ofte gi veldig verdifulle hint om hva man bør gjøre på labben, slik at man sparer mye arbeid, sier Rognes.

- Man kan selvfølgelig få seg noen overraskelser. Hva som er den nøyaktige funksjonen til et bestemt gen, vet man ikke før man har studert det nøye eksperimentelt på laboratoriet, sier Rognes.

Likevel er letingen etter noe som ligner en essensiell del av sekvensanalyser, og den norske søkemotoren Paralign er et perfekt verktøy til å gjøre nettopp dette.

Gratis

- Det å lete i offentlige sekvensdatabaser for å finne mer informasjon om én sekvens er noe av det man gjør oftest innen bioinformatikk, skriver Rognes og kollegaene i en artikkel som publiseres i tidsskriftet Nucleic Acids Research i juli.

"Forskningsgruppen bak Paralign: Fra venstre: Jon Myrseth, Jon K. Lærdahl, Sten Morten Andersen, Torbjørn Rognes og Per Eystein Sæbø. (Foto: Sigve Nakken)"



Det finnes andre lignende tjenester, for eksempel i USA, men de norske forskerne mener de kan tilby et bedre alternativ.

- Paralign er mer nøyaktig, og dessuten veldig rask fordi vi har en god kombinasjon av rask programvare og en kraftig datamaskin som består av 33 PCer med to prosessorer hver, som er koblet sammen (0,2 teraflops totalt), sier Rognes.

Den norske søkemotoren er gratis og tilgjengelig for alle. Du finner en lenke under.

Utviklingen av Paralign er støttet av Norges forskningsråds FUGE-program.

Referanse:

Per Eystein Sæbø, Sten Morten Andersen, Jon Myrseth, Jon K. Laerdahl og Torbjørn Rognes; PARALIGN: Rapid and sensitive sequence similarity searches powered by parallell computing technology, Nucleic Acids Research, Oxford University Press, juli 2005.

Lenker:

Søkemotoren: Paralign
Rognes’ forskergruppe: CMBN Bioinformatics Group
Center for Molecular Biology and Neuroscience: CMBN
Genome News Network: What’s a Genome?

Powered by Labrador CMS