– Biologer forstår ikke sine egne metoder

I møte med stadig mer kompliserte data kommer biologenes evne til å analysere dem ofte til kort. I verste fall kan det føre forskningen helt galt av sted.

Biologi er ikke bare pels, tenner og leveområder lenger - stadig mer handler om analyser av svære datasett, som for eksempel gentester. Da trengs matte og statistikk, men der henger mange etter, mener forskerne forskning.no har snakket med. (Foto: (Illustrasjon: Colourbox))
Biologi er ikke bare pels, tenner og leveområder lenger - stadig mer handler om analyser av svære datasett, som for eksempel gentester. Da trengs matte og statistikk, men der henger mange etter, mener forskerne forskning.no har snakket med. (Foto: (Illustrasjon: Colourbox))

Biologi er ikke bare faget der du ser på hvilke farger sjiraffen har eller hvor han bor. Det er også læren om hvor mange sjiraffer som finnes på et sted, eller hvilke endringer sjiraffene har hatt i flekkene i pelsen gjennom de siste 50 årene.

Med andre ord: tall, matematikk og statistikk er viktige verktøy, også for en biolog. Men her skorter det voldsomt. Silje Skår er utdannet biostatistiker fra NTNU og doktorgradsstipendiat ved Institutt for skog og landskap. Hun mener situasjonen er alvorlig:

– Jeg ser jo at biologer snakker om statistikk, men alt for ofte er det tydelig at de er på tynn is, sier hun til forskning.no.

– Noen ganger har det ikke så mye å si, men i verste fall kan det gi store utslag på resultatene.

For eksempel kan feil statistikkbruk få det til å se ut som at påfuglens hale ikke er et resultat av evolusjon.

Feil modell til dataene

–Generelt kan du si at de modellene som biologene bruker for å analysere dataene sine noen ganger ikke er laget for den typen informasjon de har samlet inn, sier Skår.

Til daglig jobber hun med å analysere dataene som samles inn i et forskningsprosjekt som ser på potensialet for bioenergi fra norsk skog. En av hennes målsetninger er å få satt fokus på det hun mener er et skrikende problem innen biologien.

Silje Skår (Foto: Lars Dalen)
Silje Skår (Foto: Lars Dalen)

– Modellene brukes jo i god tro, men hvis man ser på kriteriene for å bruke dem, ser man at dataene ikke passer. Det kan for eksempel være for lavt antall observasjoner i forhold til hva som kreves, sier Skår.

– Mange biologer bruker for avanserte modeller, eller for enkle. Ofte har de bare fått et tips fra en kollega om hvilken modell de burde bruke, og så bruker de den ukritisk.

Skår understreker at hun som statistiker har respekt for det arbeidet som kreves for å samle inn biologiske data, og at det er lett å sitte på kontoret og klage over manglende observasjoner – uten å selv ha vært i felt.

– Men da blir det desto viktigere å bruke modellene riktig, slik at man får mulig pålitelige resultater ut av materialet man faktisk har, sier hun.

Også på disputaser

Nils Christian Stenseth, leder for Centre for Ecological and Evolutionary Synthesis (CEES) ved Universitetet i Oslo, er enig i Skårs diagnose.

– Det er klart det er veldig stor variasjon, men mange har for dårlige kunnskaper om matematikk og statistikk. Det er et vanlig problem, som jeg ser nesten daglig, sier han.

Tross alt har de færreste biologer valgt biologi som karriere fordi de synes regning og regresjonsanalyse er enormt morsomt – da blir du heller statistiker eller matematiker.

Problemene dukker opp når biologen likevel trenger statistiske og matematiske verktøy i sine analyser. Hvis kunnskapene om de grunnleggende forutsetningene for hvordan man kan analysere det datamaterialet man har samlet inn mangler, kan det fort gå galt.

– Det er nok dessverre for mange som tror at man kan gjøre biologi uten å ha gode statistikkunnskaper, men det blir vanskeligere og vanskeligere, sier Stenseth.

Nils Christian Stenseth (Foto: Andreas B. Johansen)
Nils Christian Stenseth (Foto: Andreas B. Johansen)

– Da forsøker man å bøte på den kunnskapen med å lage programmer som kan gjennomføre analysene for deg. Det er jo for så vidt bra, men man må fortsatt forstå hva det er som gjøres. Hvis ikke risikerer man å bruke programmene helt feil, og misforstå hva det egentlig har regnet ut, sier han.

Stenseth vil ikke nevne navn, men sier han ser eksempler på feil bruk av statistikk både på seminarer, på konferanser og på doktorgradsdisputaser.

– Det er en god del publiserte resultater der ute som ikke nødvendigvis er holdbare på grunn av feil metodebruk, tror Stenseth.

Påfuglens hale påvirker – ikke?

Et klassisk eksempel på dette finner man nevnt i en studie i Quarterly Review of Biology, skrevet av blant annet Stenseths kollega Thomas Hansen.  Hansen er teoretisk evolusjonsbiolog ved CEES. I studien omtaler han og et knippe kolleger en berømt biologirapport, som omhandler påfuglens hale, som et eksempel til skrekk og advarsel:

Er det slik at påfugler med best hale får flest damer? Det er jo en klassisk evolusjonær antagelse, og japanske forskere bestemte seg derfor for å teste denne hypotesen.

Enkelt forklart antok de derfor at jo flere ”øyne” i halen, jo bedre, og at parringssuksessen derfor burde være best for de påfuglene med flest øyner.

For å finne ut av det, må du gjøre en statistisk analyse som viser hvordan antall parringer endrer seg med antall øyne. Er svaret noe annet enn null, har du en effekt – enten påvirker det positivt om svaret er mer enn null, eller negativt om svaret er mindre enn null.

I dette tilfellet ble effekten målt til å være 0,03 parringer per øye – altså at det ble tre prosent flere parringer for hvert ekstra øye påfuglen hadde i halen.

Blandet effekt og signifikans

(Illustrasjonsfoto: www.colourbox.no)
(Illustrasjonsfoto: www.colourbox.no)

Det resultatet var imidlertid ikke statistisk signifikant, fordi datamaterialet var såpass lite at man ikke kunne være sikker på at den målte effekten ikke skyldtes for eksempel tilfeldigheter.

Det var her det gikk galt for japanerne:

De blandet sammen disse to målene i analysen – effekten av påvirkningen på den ene siden, og usikkerheten rundt om effekten er riktig eller ikke på den andre. I statistikk uttrykkes usikkerhet som en p-verdi, og hvis den er større enn 0,05, regnes resultatet for ”ikke signifikant”, eller svært usikkert.

Her var p-verdien på 0,18 – og studien fikk følgelig tittelen ”Pea hens do not prefer peacocks with more elaborate trains”, altså at påfuglhøns foretrekker ikke hannfugler med finere hale.

– Resultatet var altså konsistent med at hunnene bryr seg om halen, men det er et usikkert resultat. En korrekt tittel ville vært “Pea hens seem to prefer peacocks with more elaborate trains, but we do not have much evidence”, påpeker Hansen.

– Men studien ville jo selvfølgelig ikke fått like mye oppmerksomhet med en slik tittel.

Hansen og kollegene bestemte seg for å regne ut hva en tre prosents forbedring per flekk hadde å si for parringssuksessen til de to påfuglene med henholdsvis flest og færrest øyeflekker. Den analysen viste at den mest iøyenfallende påfuglen ville få hele fire ganger så mange parringer som den påfuglen med færrest øyeflekker.

Det vil de fleste si er en ganske drastisk forbedring, og det henger godt sammen med teorien om at påfuglens hale er et resultat av seksuell seleksjon.

– For mye statistikk, ikke for lite

Men selv om statistikkbruken her er feil, er ikke Hansen nødvendigvis enig i at det er for dårlige statistikkunnskaper som er årsaken til feilen:

– Jeg er enig i at vi har et problem, og det er at man har alt for stor respekt for statistikk og bruker det for mye. Feilen er at man bruker statistikk for å finne svaret, i stedet for som en hjelp, et redskap, på veien til å finne svaret.

– I biologien mangler man en teori om mening. Det er fundamentalt å vite hvordan det du måler henger sammen med de underliggende realitetene – for eksempel hvordan tallene i en IQ-test representerer noe som kan kalles intelligens.

En slik debatt finnes ikke i biologien, mener Hansen.

Professor Thomas F. Hansen ved Centre for Ecological and Evolutionary Studies ved UiO. (Foto: Asle Rønning)
Professor Thomas F. Hansen ved Centre for Ecological and Evolutionary Studies ved UiO. (Foto: Asle Rønning)

– Man bruker statistikk som man lærer på kurs, har lært visse tester eller metoder som man trykker dataene inn i, og tror det har en mening. Det skjer uten at man reflekterer over hva det er som måles i modellen, mener Hansen.

– Man må tolke for å finne resultatene, man skjønner ikke at statistikken bare gir råmaterialet som kan tolkes for å komme frem til svaret. Det er mulig en del biologer ville vært flinkere til å tolke den biologiske meningen av funnene sine om de ikke var så blendet av statistikken.

Mye matte gir lite siteringer

Norge er ikke det eneste landet med dette problemet. En ny studie fra University of Bristol i Storbritannia har avslørt at de biologiske vitenskapelige artiklene som har flest formler og mest matte i teksten, blir sitert halvparten så ofte som de med lite eller ingen matte.

Nå gjør ikke matte alene en artikkel verdt siteringer – kanskje snarere tvert imot. Stenseth er enig med Hansen i at det iblant tipper over den andre veien, mot for mye statistikkbruk:

– Det er klart det skorter begge veier. Det er ikke alltid nødvendig å bombardere artikler med tekniske detaljer om utregninger og regresjonsanalyser – de kan legges ved i supplementene om man mener det er nødvendig. For mange lener seg nok på statistikken og forklarer ikke hva som faktisk er resultatene, sier Stenseth.

– Ikke hvordan, men hva og hvorfor

Uansett om det er for mye statistikkunnskap som skaper trøbbel, eller for lite, er konklusjonen likevel den samme: Trøbbel blir det.

Løsningsforslagene blir imidlertid ulike. Hansen etterlyser større selvtillitt blant biologer til å gjøre analyser uten statistikk som krykke.

Stenseth mener det trengs bedre matte- og statistikkunnskaper – i hvert fall på det helt grunnleggende nivået:

– Man trenger ikke kunne alt, men man må ha en viss evne til å forstå hva som er forutsetninger, antagelser og grunnlag for å bruke de metodene man bruker. Du trenger ikke gjøre analysene selv, eller en gang være i stand til å gjøre det, men du må forstå hva som gjøres og hvorfor, sier han.

Kilder

D. Houle m.fl. (2011) Measurement and Meaning in Biology. Quarterly Review of Biology, vol. 86, nr. 1, side 3-34

T.W. Fawcett og A. D. Higginson (2012) Heavy use of equations impedes communication among biologists. PNAS, publisert online 25. juni 2012

Powered by Labrador CMS