Det tar sin tid å gå gjennom navnene på 20 000 forskjellige gener manuelt.

Stave­kontroll lager feil navn på gener

Hver tredje vitenskapelige artikkel om genetikk inneholder feil navn på genene.

«Skal jeg putte bilbomben i maten til Emil?» «Kan du kjøpe brud på butikken?»

Du har sikkert sett dem. Morsomme skrivefeil dukker opp på ti-på-topp-lister med jevne mellomrom. Sannsynligvis har du opplevd det selv, også.

Ofte er det bare morsomt - i hvert fall etter at du har fått forklart hva du egentlig mente.

Hvis du forsker på genetikk og kaller et gen for 1. mars, derimot, da har du et problem. Hvis du er i ferd med å lære noe nytt og tror at det faktisk finnes et gen som heter 4. september, da er problemet enda større.

Eksemplene er ikke tilfeldig valgt. Og de er alvorlige. Ifølge Nature inneholder over 30 prosent av artiklene om genetikk gennavn som stavekontrollen har klart å radbrekke.

Det er regnearket som er synderen.

Autokorrekturen i Excel, Numbers, Google Sheets, Open Office og nesten alle de andre regnearkprogrammene sliter med slike faguttrykk som er avgjørende i en forskningsartikkel, men som folk flest aldri har hørt om.

30,9 prosent feil

Det er 17 år siden den første artikkelen om problemet ble publisert. Siden har det kommet flere. For fem år siden fant australske forskere ut at omtrent hver femte artikkel som har et vedlegg med genlister i Excel, inneholdt feil navn.

Siden er det bare blitt verre.

– Vi fant feil i gennavnene i 30,9 prosent av artiklene med Excel-lister vedlagt, skriver Mark Ziemann og kollegene hans på Deakin University i australske Geelong i en fersk artikkel.

Endret navn

Noen steder har forskerne rett og slett gitt opp. 27 gensymboler er endret – inkludert SEPT4 og MARCH1. For å unngå at lesere over hele verden skulle tro at de leste om «4. september» og «1. mars», heter de to nå SEPTIN4 og MARCHF1. Det kommer likevel til å ta mange år før slike endringer slår gjennom i praksis.

Auriol Purdie ved University of Sydney forklarer til Nature hvordan endringene kan ha stor betydning:

Hvis regnearket endrer gennavnene, forsvinner disse genene når dataene overføres til de spesialiserte programmene som forskerne bruker for å analysere gener.

Programmet forteller at du har mistet mange gener, men ikke hvilke. Når du arbeider med datasett på 20 000 forskjellige gener, så er det ikke så lett å gå gjennom manuelt og sammenligne.

Forsøket på å legge ut en opplæringsfilm på Youtube i 2019 hjalp heller ikke.

Snevrer inn norsken

I Norge merker Unn Røyneland hvordan stavekontroll skaper vansker for flere enn bare genforskerne. Røyneland er professor ved Universitetet i Oslo og nestleder ved Senter for flerspråklighet.

Autokorrekturen blander seg opp i hvilke av de tillatte formene i norsk språk som faktisk blir brukt, også, forklarer Unn Røyneland.

– Autokorrekt snevrer inn mulighetene hos folk. Bevisst eller ubevisst. Det skjer fordi vi lett lar oss styre av de forslagene som kommer, forklarer hun.

Problemet er større på norsk enn på engelsk, rett og slett fordi norsk er et mye mindre språk. Samtidig er det muligheter for stor variasjon på både bokmål og nynorsk, men ikke all den variasjonen tas inn i autokorrekturen.

– Den blir en slags sensur – eller iallfall en styring av hvilken del av skriftnormen som blir brukt, sier Røyneland til forskning.no. Det er først og fremst de lovlige formene som brukes minst, som kan gi rød «feilkrøll» under det du skriver.

UiO-professoren registrerer også at vitenskapelige journaler har litt av den samme utviklingen som nyhetsmedier: Korrekturleddet forsvinner eller blir mindre, publiseringen går raskere, og dermed blir det vanskeligere å luke ut feil.

Referanser:

Mandhri Abeysooriya, Megan Soria, Mary Sravya Kasu og Mark Ziemann: Gene name errors: Lessons not learned. PLOS Computational Biology, juli 2021, doi: 10.1371/journal.pcbi.1008984

Mark Ziemann, Yotam Eren og Assam El-Osta: Gene name errors are widespread in the scientific literature. Genome Biology, august 2016, doi: doi.org/10.1186/s13059-016-1044-7.

Barry R. Zeeberg, Joseph Riss, David W. Kane, Kimberly J. Bussey, Edward Uchio, W. Marston Linehan, J. Carl Barrett og John N. Weinstein: Mistaken Identifiers: Gene name errors can be introduced inadvertently when using Excel in bioinformatics. BMC Bioinformatics, juni 2004, doi: 10.1186/1471-2105-5-80

Vi vil gjerne høre fra deg!

TA KONTAKT HER
Har du en tilbakemelding, spørsmål, ros eller kritikk? Eller tips om noe vi bør skrive om?

Powered by Labrador CMS