Du kjenner rekkefølgen med aminosyrer som bygger opp et protein. I teorien skulle det da være mulig å beregne hvordan proteinet ser ut tredimensjonalt. Men det har vist seg å være veldig vanskelig.
Forskere har derfor gitt oppgaven til kunstig intelligens (AI).
I slutten av 2020 kom gjennombruddet. AI-systemet AlphaFold beviste at det kunne beregne formen til proteiner på høyde med det som oppnås med tidkrevende og kostbare eksperimenter.
Et og et halvt år senere kommer selskapet DeepMind og EMBL’s European Bioinformatics Institute med en ny oppdatering.
AlphaFold har nå beregnet den tredimensjonale strukturen til over 200 millioner proteiner - nærmest alle proteiner som er kjent for vitenskapen.
Eies av google
AlphaFold er utviklet av det London-baserte AI-selskapet DeepMind som eies av Google.
DeepMind har tidligere blant annet laget AI-programmet AlphaZero. I 2017 lærte AI-en seg selv sjakk. I løpet av fire timer ble den så god at den slo det beste sjakkprogrammet i verden.
Programmet AlphaFold er derimot trent til å finne ut hvordan proteiner folder og krøller seg i en tredimensjonal form.
Gjøres tilgjengelig
Nå har AlphaFold allerede kjørt igjennom nærmest alle kjente proteiner.
Beregninger er lagt ut i en database som kan brukes av forskere.
Databasen skal etter hvert inneholde over 200 millioner prediksjoner, kunngjør DeepMind og EMBL-EBI (European Molecular Biology Laboratory - European Bioinformatics Institute). De samarbeider om databasen.
Databasen gir forskere et verktøy «der du kan slå opp 3D-strukturen til et protein nesten like enkelt som du kan gjøre et søk på Google», sa Demis Hassabis, grunnlegger og administrerende direktør i DeepMind, på en pressekonferanse, ifølge Science.
– Som en nøkkel i en lås
Annonse
Proteiner finnes i alt som lever og har en mengde forskjellige funksjoner. De er nødvendige for å danne alt fra skjelett til organer og har mange oppgaver i cellene.
Proteiner er ikke bare lange tråder. De folder seg vanligvis opp i bestemte strukturer som er med på å bestemme hvordan proteinet fungerer. Formen styres av fysiske lover.
Grunnen til at forskere vil vite hvordan proteiner ser ut, kan for eksempel være fordi det blir lettere å lage passende medisiner.
– Et legemiddel er som en nøkkel som passer i en lås, og låsen er proteinet. Hvis vi ikke kjenner 3D-strukturen, så vet vi ikke hvordan låsen ser ut, og det blir veldig vanskelig å finne en legemiddelkandidat, forklarte Nathalie Reuter, professor ved Universitetet i Bergen tidligere til forskning.no.
Ifølge EMBL-EBI vil struktur-beregningene gi nye muligheter innenfor forskning som dreier seg om globale utfordringer som bærekraft, matsikkerhet og neglisjerte sykdommer.
AlphaFold er allerede brukt i forskning på å bekjempe plastforurensing, få ny innsikt om Parkinsons sykdom, øke helsen til honningbier eller til å utforske menneskelig evolusjon, ifølge organisasjonen.
– Imponerende
Jon Lærdahl er bioinformatiker ved Oslo universitetssykehus og Universitetet i Oslo.
Han kommenterer nyheten og skriver på e-post til forskning.no at dette er veldig imponerende saker.
– DeepMind gjorde det litt sjokkerende bra med AlphaFold2 på CASP 14, og resultatene ble presentert tidlig i desember 2020, skriver Lærdahl.
CASP er en konkurranse hvor dataprogrammer som er designet for å avdekke proteiners struktur måles opp mot hverandre. Den har blitt avholdt hvert andre år siden 1994.
I 2020 oppnådde en kunstig intelligens for første gang så gode resultater at det var sammenlignbart med det forskere klarer med eksperimentelle metoder. AI-en som klarte det, var AlphaFold2.
Annonse
– Det tok hele feltet på senga og snudde det opp ned, fortsetter Lærdahl.
Lovet å utvide databasen
Deretter skjedde det ingenting før i juli 2021. Da ble fremgangsmåten presentert i en artikkel i Nature. Kort tid etter ble databasen presentert i samme tidsskrift.
– På dette tidspunktet inneholdt databasen strukturer for alle humane proteiner og for alle proteiner fra 20 andre viktige modellorganismer som mus, bananflue, sebrafisk, E. coli og så videre, forteller Lærdahl.
– Det ble da lovet at databasen etter hvert skulle inneholde «alle» kjente proteiner.
Det har det siste året vært et par utvidelser av databasen.
– Det som har skjedd nå er at denne lovede oppdateringen, med nesten alle kjente proteiner, er sluppet.
Katalogen inneholder nå proteinstrukturer fra nesten alle organismer på jorden som har fått sitt genom sekvensert. Det inkluderer proteinene til mange forskjellige arter av planter, bakterier og dyr , ifølge EMBL-EBI.
Nok datakraft og tid
Lærdahl siterer Ewan Birney, en av direktørene for EMBL-EBI, som i en Twitter-tråd skriver at det er slik med metoden at kan man beregne en så kan man beregne 200 millioner.
– Det er bare snakk om å bruke nok datakraft og tid, og det har de gjort nå, påpeker Lærdahl.
All data er lagt ut med Creative Commons-lisens.
Annonse
– Det gjør at alle kan bruke strukturene helt fritt. Dette er veldig bra.
AlphaFold brukte rundt 10 til 20 sekunder på å hver prediksjon.
– Å bestemme 3D-strukturen til et protein pleide å ta mange måneder eller år, det tar nå sekunder, sier Eric Topol, grunnlegger og direktør for Scripps Research Translational Institute, i en uttalelse.
En liten andel er kartlagt med eksperimenter
AlphaFold har trent seg på proteinstrukturer som er avdekket ved hjelp av eksperimenter.
Den vanligste teknikken å bruke i eksperimenter kalles røntgenkrystallografi.
Da lages det krystaller av proteiner. Deretter sendes røntgenstråler på krystallene og man kan studere hvordan proteinene i krystallene sprer strålingen, ifølge en artikkel fra Titan.
Det er kun 180.000 proteiner som er kartlagt ved hjelp av eksperimenter.
– For 13 måneder siden var det en kjent struktur for en liten andel av alle kjente proteiner. Nå kan alle hente en, ofte ganske god, modell av 3D-struktur for hvilket som helst protein. Man behøver ikke kjøre beregningene i AlphaFold selv, forteller Lærdahl
– Dette kommer til å bli veldig nyttig for alle som arbeider med molekylærbiologi og tilgrensende felt.
Ikke alle er like nøyaktige
AlphaFolds beregninger er ikke nødvendigvis alltid helt korrekte.
Rundt 35 prosent av de 214 millioner prediksjonene skal være like gode som strukturer som er løst eksperimentelt. 45 prosent skal være riktige nok til at de har flere bruksområder. Det skriver Nature.
Annonse
– AlphaFold gir et godt overslag over hvilke deler av modellen som sannsynligvis er riktig og hvilken deler som sannsynligvis ikke er det, forteller Lærdahl.
Dette er viktig, fortsetter han.
– I det siste tilfellet skyldes det ofte at proteinet ikke har en veldefinert 3D-struktur for disse segmentene, men i stedet er flagrete og ustrukturert her.
Siden databasen først ble lansert, har mange forskere vært innom, ifølge EMBL-EBI. I løpet av det siste året er databasen sitert i 1.000 forskningsartikler.
– Vårt håp er at denne utvidede databasen vil hjelpe utallige flere forskere i deres viktige arbeid og åpne helt nye veier for vitenskapelig oppdagelse, sier Demis Hassabis, administrerende direktør i DeepMind.
Vi vil gjerne høre fra deg!
TA KONTAKT HER Har du en tilbakemelding, spørsmål, ros eller kritikk? Eller tips om noe vi bør skrive om?