Saken er produsert og finansiert av Norsk Regnesentral - Les mer

Skriver du som Wergeland?

Går du med en dikterspire i magen og lurer på om du har noe til felles med favorittforfatteren din? Bruk av statistisk analyse kan avdekke likhetstrekk mellom tekster.
15.9 2008 05:00


 

Noen ganger oppstår det tvil om originaliteten eller opphavet til en tekst.

Statistikere har opp gjennom historien engasjert seg i denne problemstillingen.

Ulike metoder er blitt brukt til alt fra tidsbestemmelse av tekster til å sannsynliggjøre hvem som er den rettmessige forfatteren i opphavstvister.

I forbindelse med Wergeland-jubileet og Forskningsdagene har forskere ved Norsk Regnesentral (NR) laget et dataprogram som sammenligner en vilkårlig tekst med skrivestilen til Henrik Wergeland.

Forskerne har undersøkt hvor nært en tekst ligger opp til måten Henrik Wergeland skrev på.

En litt annen vinkling ville være å trekke inn flere forfattere og vurdere hvem av dem teksten har mest til felles med.

Wergeland-tekster

- Vi har utviklet et dataprogram som sammenligner en vilkårlig tekst mot et knippe av Wergelands arbeider, sier Ola Haug, forsker ved Norsk Regnesentral.

Bakgrunnsmaterialet er hentet fra dikterhøvdingens samlede verker; III Artikler og Småstykker, Polemiske og Andre, 1. Bind: 1821 – 1833.

Tekster som stammer fra ulike tidsperioder bygger på ulike rettskrivingsnormer.

- I vår sammenligning ønsker vi å fokusere på likhet i grunnleggende skrivestil. Wergelandmaterialet er derfor modernisert slik at rettskrivingen er mer i tråd med dagens. Dette gjelder for eksempel bruken av vokaler, aa til å, ii til i, og så videre, sier Haug.

Hva beskriver en tekst?


 

For å kunne sammenligne tekster må man først definere hva som menes med likhet. Dette er avhengig av formålet med analysen.

- Man bruker for eksempel forskjellige kriterier for å avsløre en skoleelev som kopierer arbeider på Internett og å finne sannsynlig forfatter bak en tekst.

- I vårt tilfelle med Wergeland har vi sett på fire kriterier som vektlegger ulike egenskaper ved skrivestilen, sier Haug.

Setningslengde kan brukes som et bestemt virkemiddel i en tekst.

- Antall ord per setning fremstår derfor som et opplagt kriterium for å vurdere likhet mellom tekster, sier Haug.

Ordlengde og tegnsetting

Ordlengde er også en egenskap som til en viss grad er karakteristisk for en forfatter.

- På grunn av endret skrivemåte får mange ord flere eller færre bokstaver over tid, mens antall stavelser i ordene i det alt vesentlige er bevart. Vi definerer derfor ordlengde er ved antall stavelser og ikke ved antall bokstaver, sier Haug.

Tegnsettingen karakteriserer også teksten.

- Vi har undersøkt bruken av tegnene komma, kolon og semikolon ved å telle opp hvor ofte disse forekommer i hver setning. Ved å korrigere for antall ord i setningen tar vi hensyn til at lange setninger gjerne inneholder flere slike tegn enn korte setninger, sier Haug.

Bruken av bestemte småord viser seg også å skille ulike forfattere fra hverandre.

- Eksempler på slike ord er “og”, “men”, “ikke”, “til”. Dette er ord som er uavhengig av tekstens innhold og ikke har forandret seg over tid, forteller Haug.

Hvordan sammenligne?


“Ola Haug.”

- Vi sammenligner en konkret tekst mot Wergelands arbeider ved å bruke statistiske tester, forklarer Haug.

For hvert av de fire kriteriene nevnt over (setningslengde, ordlengde, tegnsetting og bruk av småord) oversettes resultatet av testen til en poengsum i intervallet 0–2,5.

- Null poeng indikerer ingen likhet med Wergeland, mens full score angir at teksten ikke kan skilles fra Wergelands arbeider – statistisk sett, sier Haug.

De fire delresultatene summeres til en totalscore på maksimalt 10 poeng.

Best i test

Testene er laget slik at de skal differensiere på tekster skrevet av Wergeland selv og tekster som klart skiller seg fra hans arbeider.

- For korte tekster vil testene likevel ikke alltid fungere slik. Da kan tilfeldigheter gjøre at en tekst skrevet av Wergeland får lavere poengsum enn en tekst med et annet opphav, sier Haug.

Når tekstlengden øker, vil testene klarere skille på hvem som står bak arbeidet.

- Dette er det samme fenomenet som gjelder ved myntkast. Etter ti kast kan man oppleve å kun ha fått to kron. I det lange løp vil andelen kast som resulterer i kron likevel stabilisere seg rundt 0,5.

- For at testene skal gi meningsfylte resultater har vi satt en nedre grense for analyseteksten på 50 setninger og 500 ord, forklarer Haug.

Tabellen under viser resultater for tre ulike tekster av noen utvalgte forfattere.


   Poengsum etter analyse av tekster fra ulike forfattere.

Utdragene er bearbeidet til nåtidens rettskrivning og oppfyller akkurat minstekravet til tekstlengde. Den nederste linja i tabellen angir analyseresultatet for denne artikkelen.

forskning.no ønsker en åpen og saklig debatt. Vi forbeholder oss retten til å fjerne innlegg. Du må bruke ditt fulle navn. Vis regler

Regler for leserkommentarer på forskning.no:

  1. Diskuter sak, ikke person. Det er ikke tillatt å trakassere navngitte personer eller andre debattanter.
  2. Rasistiske og andre diskriminerende innlegg vil bli fjernet.
  3. Vi anbefaler at du skriver kort.
  4. forskning.no har redaktøraransvar for alt som publiseres, men den enkelte kommentator er også personlig ansvarlig for innholdet i innlegget.
  5. Publisering av opphavsrettsbeskyttet materiale er ikke tillatt. Du kan sitere korte utdrag av andre tekster eller artikler, men husk kildehenvisning.
  6. Alle innlegg blir kontrollert etter at de er lagt inn.
  7. Du kan selv melde inn innlegg som du mener er upassende.
  8. Du må bruke fullt navn. Anonyme innlegg vil bli slettet.

Annonse

Nysgjerrig på egen skrivestil?

I anledning årets Forskningstorg på Universitetsplassen i Oslo 19.-20. september, vil Norsk Regnesentral ta imot og analysere tekster fra publikum.

Ta med din tekst på en minnepinne (ren tekstfil) og møt opp ved bod 17.

Les mer om arrangementet.