Fagfellevurdering med plettet rykte

Vitenskapelige artikler holder ikke alltid faglig mål, selv om de er godkjent av upartiske forskere i den aksepterte godkjenningsprosessen, fagfellevurdering.

Denne artikkelen er over ti år gammel og kan inneholde utdatert informasjon.

Fagfellevurdering har til tider problemer med å leve opp til sitt gode rykte som et kvalitetsstempel som er basert på en objektiv, grundig og upartisk gjennomgang. (Illustrasjon: Colourbox)

Fagfellevurdering

En forutsetning for at en artikkel blir publisert i et vitenskapelig tidsskrift, er at den er blitt godkjent av to eller tre upartiske eksperter, som er utpekt av tidsskriftets redaktører. Det er denne prosessen som kalles for en fagfellevurdering eller peer review.

Bedømmernes identitet er hemmelig. Det sikrer at forskere ikke kan true og sjikanere en bedømmer og at bedømmerne kan rotte seg sammen og legge en felles strategi.

Bedømmerne får sammen med artikkelen utlevert et skjema som stiller en rekke spørsmål om artikkelens kvalitet.

Bedømmerne blir blant annet bedt om å vurdere hvor gode forskningsmetodene er, og om resultater og konklusjoner faktisk stemmer overens med det forskerne planla å undersøke.

Til sist blir de bedt om å vurdere om artikkelen skal forkastes, revideres eller om den er klar til publisering.

Bedømmelsene sendes deretter inn til tidsskriftets redaktører, som tar den endelige beslutningen om de vil publisere artikkelen.

Peer review har vunnet innpass overalt i den vitenskapelige verden og brukes både innenfor naturvitenskap, samfunnsvitenskap og humaniora.

«Artikkelen er publisert i det profilerte vitenskapelige tidsskriftet PNAS.»

Den vendingen brukes ofte for å slå fast at den vitenskapelige artikkelen har fått det ypperste kvalitetsstempelet ved å slippe gjennom en såkalt fagfellevurdering (peer review, se boks).

Fagfellevurdering har vunnet innpass overalt i den vitenskapelige verden, og er den eneste virkelige kvalitetskontrollen som finner sted. De fleste forskerne setter sin lit til at systemet fungerer som det skal. Men prosessen er fylt med feil og mangler, advarer eksperter, som blant annet påpeker følgende problemer:

Bedømmelsene er langt fra objektive, men er styrt av bedømmernes personlige holdninger og faglige kjepphester.

Tidsskriftene er skeptiske overfor nye teorier, og hyller i stedet det kjente.

Redaktører og bedømmere mangler overblikk over hva som tidligere er blitt publisert (se boks), og har derfor problemer ved å vurdere om et forskningsresultat nå virkelig er nytt.

Systemet er dårlig egnet til å avsløre svindel.

Den eneste kvalitetskontrollen

En av de kritiske røstene tilhører førsteamanuensis Jesper Wiborg Schneider fra Det Informationsvidenskabelige Akademi i Ålborg, som har system som en del av sitt spesialområde.

– Mange undersøkelser har dokumentert at prosessen langt fra er optimal, sier Schneider.

Systemet får også kritikk fra førsteamanuensis i vitenskapsteori Claus Emmeche, som er leder av Center for Natur, Filosofi og Videnskabsstudier på Niels Bohr-Instituttet ved Københavns Universitet.

– Noen av prosedyrene kunne godt trenge en oppstrammer, andre ting burde revideres eller kasseres, sier Emmeche.

Bedømmerne er av kjøtt og blod

Et av de største problemene er at bedømmerne ikke er maskiner, men mennesker med følelser og holdninger som lett smitter av på vurderingene.

– Den store utfordringen er å sikre den nødvendige objektiviteten, sier Emmeche.

Ansvaret for at en vurdering blir objektiv, faller i høy grad på redaktøren i det enkelte tidsskriftet.

– Redaktøren vil typisk være en anerkjent forsker innenfor fagområdet, som man må stole på har kompetansen og integriteten til å sette sammen et panel av bedømmere som har den nødvendige troverdigheten, forteller Emmeche.

Vanskelig å være objektiv i stridsspørsmål

Den oppgaven utfordrer spesielt tidsskriftets redaktør innenfor de fagområdene hvor det er interne stridigheter mellom forskergrupper som forsvarer hver sin vitenskapelige teori.

Den situasjonen stiller også ekstra store krav til bedømmerne om å se bort fra egne overbevisninger og vurdere metoder og resultater helt nøkternt.

Klimaområdet er et eksempel på forskning som er vanskelig for redaktørene, fordi det er forskjellige skoler innenfor feltet med forskere som internt kriger med hverandre.

– Det ligger store fristelser for forskerne selv. De kan ende opp med å ikke være objektive og avvise en artikkel på bakgrunn av faglig uenighet, fordi bedømmeren selv er en aktiv deltaker i den faglige striden. De kommer uvilkårlig til å vurdere artikkelen mer kritisk enn de ville ha gjort hvis de ikke var engasjert i saken, sier Emmeche.

Det problemet påpeker også Jesper Wiborg Schneider.

– Det finnes eksempler på at bedømmerne var konkurrenter til de som skulle bedømmes, noe som skapte etiske problemer. Anbefalingene deres var fargede og fordomsfulle, og bygde mer på personlige preferanser enn på faglige argumenter, påpeker han.

Stor uenighet blant fagfeller

Et annet tegn på manglende objektivitet er at bedømmerne sjelden er enige i vurderingene sine, forteller Schneider.

Han henviser til en studie fra 2005, hvor sosiologiprofessor William Haynes Starbuck fra Harvard University beregnet hvor stor enighet det var blant bedømmelsene av en artikkel. Den såkalte korrelasjonen lå et sted mellom 0,09 og 0,5 – 0 tilsvarer ingen enighet og 1 angir fullstendig enighet.

Nevrologene Peter M. Rothwell og Christopher N. Martyn fra Oxford University i England kom i 2000 fram til en lignende konklusjon.

De viste at korrelasjonen mellom bedømmerne ikke var mye større enn det man kunne forvente ved ren tilfeldighet.

Hver stemme har stor makt

(Illustrasjon: Angewandte Chemie)

Når uenigheten mellom bedømmerne er så stor, og antallet bedømmere er svært lite, så kan den enkelte vurderingen få avgjørende betydning for artikkelens videre skjebne.

Det fremgår av en nyere studie fra 2009, utført av de to psykologene Lutz Bornmann og Hans-Dieter Daniel. De undersøkte hvordan fagfellevurdering fungerer i det profilert kjemiske tidsskriftet Angewandte Chemie.

Kjemitidsskriftets redaktører bruker i visse situasjoner tre bedømmere per artikkel. Det hender imidlertid at en av bedømmerne leverer inn vurderingen for sent, slik at redaktørene ikke rekker å ta høyde for den i den endelige avgjørelsen.

De to psykologene undersøkte hvilken konsekvens det ville ha hatt for utfallet hvis den tredje bedømmelsen hadde blitt med.

– Det viste at man hadde oppnådd en annen beslutning i hele 25 prosent av tilfellene, poengterer Jesper Wiborg Schneider.

Jakten på svindel tar tid

Fagfellevurdering er ikke bare til for å sikre forskningskvalitet, men også til å avsløre sjusk eller fusk med data.

Men realiteten er at svindel sjelden blir oppdaget i publiseringsprosessen, og forklaringen er først og fremst mangel på tid.

– Det tar tid for en bedømmer å sette seg grundig nok inn i substansen av en artikkel til å kunne avsløre svindel. En forutsetning for å avsløre juks er også å kjenne stoffområdet godt, for svindel opptrer typisk der hvor et resultat er for godt til å være sant, det vil si der feilmarginen er for liten, forteller Claus Emmeche.

Jesper Wiborg Schneider forklarer de manglende avsløringene med at bedragere legger mye krefter i å skjule svindelen og få resultatene til å se naturlige ut.

– Man kan peke på mange eksempler på at forskningsjuks først blir oppdaget etter publisering. Et av de mest spektakulære eksemplene de siste årene er vel koreaneren Hwang Woo-Suk, som fikk antatt artikler hvor han og teamet hans påsto at de hadde foretatt kloning av menneskeceller. Svindelen var gått helt over hodet på bedømmerne, sier han.

Skepsis overfor nytenking

Svindel slipper altså ofte gjennom. Dessuten har hederlige artikler som presenterer banebrytende teorier generelt vanskelig med å få aksept.

– Fagfellevurdering er ikke særlig fleksibel i forhold til radikale innovasjoner og paradigmeskifter. En nyere undersøkelse viser at bedømmere finner metodiske mangler i 70 prosent av de manuskriptene som går mot mainstream, sammenlignet med bare 25 prosent av dem som bekrefter gamle teorier, sier Jesper Wiborg Schneider.

Graden av skepsis er avhengig av hvor anerkjent tidsskriftet er.

De profilerte tidsskriftene har en tendens til å avvise manuskripter som presenterer banebrytende teorier og idéer. De avviste artiklene dukker senere opp i lavere rangerte tidsskrifter, som er mer åpne og tolerante overfor noe som er litt skjevt.

– Mange av disse artiklene har vært grunnlaget for priser, også Nobelpriser, sier Jesper Wiborg Schneider.

Den vridningen er ikke bare av det onde. For selv om forskernes artikler sjelden kommer i det vitenskapelige tidsskriftet som man først hadde satset på, så ender det altså de fleste tilfeller med at artiklene blir publisert.

Alle synspunkter ender altså med å komme fram.

– Et slikt mangfold er nødvendig, og er i høy grad basert på at vurderingen foregår desentralisert på de enkelte tidsskriftene. Denne styrken blir oftest oversett av kritikerne. Mangfold og desentraliseringen veier opp for mange av svakhetene i systemet. Det kan forklare hvorfor man fortsetter med å holde fast på det, avslutter Schneider.

Tidsskriftene har ikke kontroll på artiklene

Et annet problem ved fagfellevurdering er at verken bedømmere eller redaktører alltid har helt kontroll på hva som tidligere er blitt publisert. Hvert år blir det utgitt tusenvis av vitenskapelige artikler, noe som selv ikke den mest oppmerksomme forskeren kan ha et fullstendig overblikk over.

Den svakheten ble synliggjort i en berømt studie fra 1982, av de to amerikanske psykologene Douglas P. Peters fra University of North Dakota samt Stephen J. Ceci fra Cornell University, Ithaca.

De to forskeres sendte inn tolv artikler til en rekke høyt profilerte tidsskrifter. 12 til 36 måneder tidligere hadde de samme tidsskriftene allerede publisert disse artiklene. Bortsett fra at forfatternavnene var endret, var innholdet nøyaktig det samme.

– Bare tre av artiklene ble «oppdaget» av redaktørene og bedømmerne. Av de andre ni artiklene, som tidligere var blitt publisert, ble åtte artikler avvist fordi kvaliteten ikke var høy nok, forteller Peter Wiborg Schneide  

Eksterne lenker

Førsteamanuensis Claus Emmeckes profil

Jesper Wiborg Schneider

___________________

© videnskab.dk. Oversatt av Lars Nygård for forskning.no

Referanser

Bornmann, L. & Daniel, H.-D. (2009). The luck of the referee draw. The effect of exchanging reviews. Learned Publishing, 22(2), 117-125.

Cicchetti, D. V. (1991). The reliability of peer review for manuscript and grant submissions: A cross-disciplinary investigation. Behavioral and Brain Sciences, 14, 119-135.

Cole, J. R. (2000). The role of journals in the growth of scientific knowledge. In: B. Cronin & H. B. Atkins (Eds.): The web of knowledge: A festschrift in honor of Wugene Garfield (pp. 109-142). Medford, NJ: Information Today, Inc.

Cole, S., Cole, J. R., & Simon, G. A. (1981). Chance and Consensus in Peer Review. Science, 214 (20 November 1981), 881.

Frey, B. S. (2003). Publishing as prostitution? Choosing between one’s own ideas and academic success. Public Choice, 116(1-2), 205-223.

Mahoney, M. J. (1977). Publication prejudices: An experimental study of confirmatory bias in the peer review system. Cognitive Therapy Research, 1m, 161-175.

Peters, D., & Ceci, S. J. (1982). Peer review practices of psychological journals: the fate of published articles, submitted again. The Behavioral and Brain Sciences, 5, 187-195.

Rothwell, P. M. & Martyn, C. N. (2000). Reproducibility of peer review in clinical neuroscience. Is agreement between reviewers any greater than would be expected by chance alone? Brain, 123, 361-376.

Starbuck, W. H. (2005). How much better are the most prestigious journals? The statistics of academic publication. Organization Science, 16, p. 180-200.

Starbuck, W. H. (2006). The production of knowledge. The challenge of social science research. Cambridge, UK: Oxford University Press.

Powered by Labrador CMS