Annonse

Denne artikkelen er produsert og finansiert av Universitetet i Oslo - les mer.

Illustrasjon programmering
DNA-sekvenser har bydd på utfordringer for programmerere.

Nå blir det enklere å kode for forskere som jobber med biologiske data

Et nytt programmeringsbibliotek kan gjøre livet lettere for biologer og andre som skal analysere gendata.

Publisert

Koding og programmering blir stadig viktigere for forskere innenfor de fleste disipliner. Også for biologer selv om DNA-dataene de jobber med, gir litt ekstra hodebry.

– Innenfor biologien er det ofte veldig store datasett, så du må skrive ganske bra kode hvis du skal klare å analysere alt, sier forsker Knut Rand ved Universitetet i Oslo (UiO).

– Datamaskiner er gode med tall, mens DNA egentlig er bokstaver. Dessuten er ikke alle sekvensene like lange, og da blir det en del knot, sier kollega Ivar Grytten.

I flere år har de to jobbet med å bygge programmeringsbiblioteket Bionumpy som skal gjøre det hele mye enklere og tryggere. Et slikt bibliotek samler sammen veldig mange funksjoner bak en tilsynelatende enklere kode. Det er ikke nødvendig å skrive hver eneste 0 og 1.

Rand og Grytten.
Knut Rand (til venstre) og Ivar Grytten.

– I Bionumpy kan du skrive ti linjer med kode istedenfor tusen. Hver av de ti linjene peker på mer kode, men denne koden er allerede testet og verifisert, sier Grytten.

Der inne gjøres bokstavene A, C, T og G, byggeklossene i DNA-et, om til tall uten at biologen trenger å tenke mer på det. Det ligger der allerede, skjult i de ferdige pakkene. Det som synes for brukeren, er A, C, T og G.

Har selv gjort tabber

De to programmererne har ikke utviklet Bionumpy bare for å være greie. De har selv deltatt i forskningsprosjekter der de har laget programmer for å analysere data fra DNA-sekvenser. Det ligger derfor også en viss egeninteresse i biblioteket.

– Vi prøver å gjøre det lettere å unngå tabber. Det kommer av at vi selv har sittet og gjort tabber i mange år, sier Rand.

– Ideen kom fordi vi jobbet en del på prosjekter hvor vi endte med å skrive veldig mye av den samme koden om igjen og om igjen. Selv om vi har kodet i mange år, gjorde vi ofte feil, sier Grytten.

Bionumpy har allerede vært i bruk og testet i praksis. For eksempel i utviklingen av diagnoseverktøyet ImmuneML. Det skal gjøre det mulig å sjekke for mange forskjellige sykdommer i bare én enkelt blodprøve. Les mer om dette i artikkelen Mange sykdommer kan bli oppdaget av kunstig intelligens som analyserer din blodprøve.

Mye dill

Rand og Grytten er tilknyttet SandveLab ved Institutt for informatikk på UiO. Der veiledes de av professor Geir Sandve. 

Han har lengtet etter et verktøy som Bionumpy.

Geir Sandve
Professor Geir Sandve.

– For 15 år siden trengte jeg dette da jeg jobbet med genomdata. Jeg husker at jeg tenkte at jeg skulle ønske noen lagde noe sånt som dette, sier Sandve.

Isteden ble han sittende med det han kaller mikrodill, massevis av små programmeringsdetaljer, fremfor å kunne bruke hjernekraften på en større overordnet idé.

– Jeg vet hvor mye dill, tull, kløning og feil jeg satt med på den tiden. Det føltes veldig bortkastet å kløne med dette når jeg visste hvor mange andre som satt med akkurat den samme kløningen, sier Sandve.

– Alt som er kvantitativ analyse av DNA eller proteiner, bør passe veldig godt inn i Bionumpy. Det er veldig hensiktsmessig og arbeidsbesparende selv for de som er godt trent i koding, sier han.

– Makten tilbake til biologene

De tre informatikerne håper nå at biologer vil ta Bionumpy i bruk. Alternativet er å skrive all koden selv eller å bruke ferdige løsninger der det meste er definert på forhånd.

– Mange biologer blir avhengige av ferdige løsninger der alle bruker det samme programmet med de samme innbakte antagelsene. Med dette verktøyet gir vi biologene mer fleksibilitet. Det gir rom for mer kreativitet, sier Sandve.

– Bionumpy gir makten tilbake til biologene. De kan selv lese inn dataene sine og analysere dem, sier Grytten.

Screenshot
Eksempel på bruk av Bionumpy.

Et programmeringsbibliotek som dette gir forskere muligheten til å gjøre mer individuelle valg basert på hvilke data de har og hva de er interessert i å undersøke. De kan sette sammen sin egen pakke, velge hvilke moduler de vil benytte seg av, uten å skrive hele koden på egen hånd.

For fysikere for eksempel har denne måten å jobbe på vært en selvfølge i 20 år. Endelig får biologene samme muligheter.

– Vi håper Bionumpy blir en sentral brikke når man skal jobbe med biologiske data. Vi tror dette vil bidra til at det blir lettere å gjøre analyser og at man kommer fram til riktig resultat raskere, sier Rand.

De har testet sitt eget system opp mot andre løsninger som er tilgjengelige i dag.

– Det produktet vi har laget, er ti ganger raskere enn eksisterende produkter, sier Grytten.

Referanse:

Knut Dagestad Rand mfl.: BioNumPy: array programming for biology. Nature Methods, 2024. Sammendrag. Doi.org/10.1038/s41592-024-02483-4

Powered by Labrador CMS