Dataalgoritme avslører vitenskapelig plagiat

Skoler, universiteter og vitenskapelige tidsskrifter ruster opp algoritmer som skal avsløre juksemakere.

Denne artikkelen er over ti år gammel og kan inneholde utdatert informasjon.

Mange faller for fristelsen til å kopiere når de sitter foran datamaskinen. Vitenskapens institusjoner ruster nå opp for å sikre seg mot plagiering både på skoler, universiteter og vitenskapelige tidsskrifter. (Foto: Per Byhring, forskning.no)

Teknologi skal gjøre det vanskeligere å pynte seg med lånte fjær og fuske seg til flotte titler.

Vitenskapen ruster opp med dataalgoritmer som skal motvirke trangen til å trykke copy/paste.

Flere videregående skoler bruker tjenesten Urkund til å finne plagiater. Danmarks Tekniske Universitet har vært i front med å innføre programmet, og for øyeblikket testes det på Handelshøyskolen, Aarhus universitet.

– I sommer vil alle eksamensoppgaver bli sjekket med programmet. Våre foreløpige undersøkelser viser at Urkund er svært effektivt til å identifisere plagiat, sier Torben Dahl, sjefskonsulent i Handelshøjskolens ledelsessekretariat.

Han vil ikke vil avsløre endelige resultater. Men allerede i dag oppdager Handelshøjskolen manuelt 10 til 15 studenter årlig som har kopiert deler av oppgaver med vilje, eller simpelthen glemt å angi kildene.

Også i de vitenskapelige tidsskriftene hvor forskningen blir publisert, har man erkjent behovet for å undersøke dette.

Kopister ferdes også på bonete gulv

Mange vitenskapelige tidsskrifter bruker programmet Crosscheck, som har den store fordelen at programmet er tilknyttet en stor, lukket database av vitenskapelige artikler fra de utgiverne som har meldt seg inn i programmet.

I 2010 var 83 utgivere av tidsskrifter og vitenskapslitteratur med, deriblant Nature Publishing Group, som blant annet utgir Nature, samt store utgivere som Elsevier og Springer.

Ifølge en artikkel i Nature har plagieringsteknologien vist seg å være nødvendig. I flere vitenskapelige tidsskrifter avviser redaktørene nå seks til ti prosent av artiklene på grunn av plagiering.

Disse ville ellers sluppet gjennom nåløyet. Men det er nok verdt å bite merke til at redaktørene typisk har prøvd programmene der de på forhånd fryktet det var plagiat.

Jesper Wiborg Schneider, som er førsteamanuensis ved Det Informationsvidenskabelige Akademi i Ålborg og ekspert i opptaksprosedyrer ved vitenskapelige tidsskrifter, var umiddelbart overrasket over at de vitenskapelige tidsskriftene trenger dette.

– Men det er naturligvis helt avgjørende for dem at troverdigheten ikke undergraves av pinlige saker om falske publikasjoner, sier han.

Forfinet søketeknikk

Dataalgoritmene kalles for likhetsalgoritmer.

Algoritmene ble utviklet til søkemotoren Alta Vista for å identifisere kopier, for å sikre at det samme nettstedet ikke dukker opp flere ganger i samme søk. Siden den gang er systemene blitt videreutviklet.

– Det er lett å finne ut om en tekst er helt lik en annen. Men når man leter etter plagiat, vil man typisk lete etter noe som ligner, men hvor noen ord er omformulert eller setningene er brutt opp på en ny måte.

Det  forklarer Rasmus Pagh, førsteamanuensis ved IT-universitetet, og en av verdens ledende eksperter innenfor forskning i likhetsalgoritmer.

Urkund og Crosscheck er nettopp utviklet slik at de kan finne delvise omskrivninger.

Ideen bak denne typen av programmer er at de foretar et utvalg av ord fra artikkelen. Noen ord er så vanlige at maskinen ikke interesserer seg for dem, mens andre, mer spesifikke ord får høy prioritet.

Utvalget er tilfeldig, men samtidig ut fra et system som sannsynliggjør at lignende setninger resulterer i lignende utvalg. Programmet sammenligner med utvalg fra en database eller fra internett.

Teknikken kalles for minwise independence eller «minvis uavhengighet» (min fra minimal, vis fra parvis).

Crowd-sourcing virker

Til syvende og sist vil det også kreve en persons faglig vurdering for å slå fast om det er snakk om et plagiat, forklarer Pagh.

Siste skudd på stammen innen plagieringsbekjempelse er grupper av mennesker (såkalt crowd-sourcing) som kan være med på å vurdere om et materiale faktisk er plagiat.

Da tidligere forsvarsminister i Tyskland, Karl Theodor zu Guttenberg, nylig ble avslørt for å ha jukset med sin ph.d.-avhandling, ble det dokumentert ved hjelp av en wiki (en side der brukerne i fellesskap bygger opp innholdet).

Ved bruk av likhetsalgoritmer fra søkemotorene og forskere og studenter som kunne se materialet på wikien, ble det anslått at 70 prosent av avhandlingen var plagiat.

– Det har alltid vært mistanke om kollegers plagiat i forskermiljøene. Open source-teknologi gjør det lettere å dokumentere, sier Thore Husfeldt, som er førsteamanuensis på IT-Universitetet og Wikipedia-redaktør.

Wikipedia bruker plagiatsikring

Det åpne leksikonet Wikipedia har lenge gjort bruk av algoritmer til å forhindre plagiering, forteller Husfeldt.

Han oppdaget det selv da han ville legge til en CV for Michael Mitzenmacher, en av oppfinnerne bak den mest kjente likhetsalgoritmen.

For å sikre at den var helt korrekt, kopierte han fra Harvard-universitetets hjemmeside, men da fikk han straks en melding om at han holdt på å «låne materiale» som allerede fantes på internett.

– Det var ganske pussig at Mitzenmachers egen algoritme hindret at jeg kunne oppdatere cv-en hans, forteller Husfeldt.

Fremdeles mulig å plagiere

Det finnes fortsatt ikke plagieringsteknologi som kan avsløre tekst som er oversatt manuelt og ordentlig.

Og veldig snedige omskrivninger av en tekst, hvor tilstrekkelig mange ord er erstattet med andre, vil antagelig også passere.

– Men jeg tror det er et spørsmål om tid. Kanskje kan man utvikle programmer som kan forutse de mest brukte omskrivningene av setninger, og enda bedre oversettelsesprogrammer som også kan fange manuell oversettelse til andre språk, sier Husfeldt.

___________________

© videnskab.dk. Oversatt av Lars Nygård for forskning.no

Lenker:

Jesper Wiborg Schneider

Thore Husfeldt

Rasmus Pagh

Torben Dahl

Powered by Labrador CMS