Gir datamaskinen språkøre

Som datalingvist står Stephan Oepen på skuldrene til den kalde krigens kodeknekkere. De som vil takke ham for innsatsen er dog neppe generaler og forsvarssjefer, men heller turister i den norske fjellheimen.

Denne artikkelen er over ti år gammel og kan inneholde utdatert informasjon.

- Vi vil lage et system for oversettelse der kravet til presisjon er stort, som for eksempel om du skal orientere deg i den norske fjellheimen uten fare for liv og lemmer, forteller Stephan Oepen som er kåret til en av åtte fremragende forskertalenter ved Det humanistiske fakultet.

I sitt arbeid med et maskinelt oversettelsessystem fra norsk til engelsk tar han og hans kollegaer i LOGON-prosjektet derfor utgangpunkt i vokabular og tekster fra fotturistenes verden.

Kvalitet på oversettelse

- Vårt fokus er kvaliteten på oversettelsen, heller enn kvantitet. I motsetning til de oversettelsessystemene du for eksempel finner rundt om på Internett, så antar derfor vårt system at man kjenner emnet for tekstene som skal oversettes, sier Oepen.

- Menneskelige språk er ekstremt tvetydige og assosiative, mens maskiner krever nøyaktighet. Vi vil lage et system som kjenner sine begrensninger, men som er veldig presist innenfor disse grensene og ikke forsøker å oversette noe det ikke forstår meningen i fullt ut.

LOGON forener krefter innen lingvistikk og informatikk fra universitetene i Oslo, Bergen og Trondheim, i tillegg til internasjonale nettverk på fagområdet. Det ble etablert i 2003, og er et av flaggskipene for Norges forskningsråds program KUNSTI; Kunnskapsutvikling for norsk språkteknologi.

Demo neste sommer

Sommeren 2006 skal LOGON være vertskap for en internasjonal konferanse for the European Association of Machine Translation, og prosjektet planlegger å ha en foreløpig versjon av systemet klar for demonstrasjon da.

"Stephan Oepen."

- Norsk er jo et lite språk. Derfor finnes det færre språkteknologiske verktøy for norsk enn for eksempel for engelsk eller mitt eget morsmål tysk.

- KUNSTI og LOGON ble derfor etablert for å høyne kompetansenivået og innsatsen på dette tverrfaglige området.

Kodeknekking

Et fagfelt som datalingvistikk har naturlig nok ingen århundrelang historie, men den strekker seg faktisk tilbake til 1950.

Under andre verdenskrig forsøkte de allierte å lage maskinelle systemer for å knekke fiendens koder, og på 1950-tallet fattet lingvister interesse, særlig ved MIT og Georgetown University i USA og ved Cambridge University i England.

Her er en gammel vits fra samme epoke: Under den kalde krigen ble det utviklet en maskin som skulle oversette mellom engelsk og russisk. For å teste sendte programmererne et bibelvers gjennom systemet: “The spirit is willing but the flesh is weak”. Sitatet ble oversatt til russisk og tilbake igjen, men da var bibelverset blitt til “The vodka is good, but the meat is rotten”.

Forskrudd resultat

- Det er en historie vi kjenner godt, og det finnes enkelte i maskinoversettermiljøet som tror den kan være sann. Uansett demonstrerer den sentrale problemer som vi forsøker å overvinne; For det første at det hjelper å kjenne konteksten og emnet til en tekst. For det andre at oversetter du en tekst ord for ord, blir resultatet ofte helt forskrudd eller meningsløst.

- Det vi gjør i LOGON er først å få datamaskinen til å gjenkjenne setningenes grammatiske struktur og sannsynlige meningsinnhold. Dette resulterer i en abstrakt semantisk representasjon for norsk.

- Deretter blir denne representasjonen overført til en semantisk representasjon for engelsk. Fra denne, og med en grammatikk for engelsk, blir det konstruert en syntaktisk representasjon for engelsk som til slutt blir konkretisert i enkeltord.

Etterligne menneskers språk

- Det ultimale målet er å få datamaskiner til etterligne menneskers bruk av språk, men vår logikk er som sagt svært forskjellig fra maskinenes.

Det kan høres ineffektivt ut å utvikle et eget system for et lite språkområde som norsk og attpåtil begrense seg til tekster for fotturister, men Oepen forklarer at nettopp begrensningene de har pålagt seg for å styrke presisjonsnivået, også vil gjøre systemet svært fleksibelt for andre språk og emner.

- Ved å abstrahere teksten opp mot et slags teoretisk universalspråk, blir det enklere å veksle mellom både ulike språkområder og ordforråd fra ulike emner. Vi har for eksempel en japansk forsker på besøk for tiden, som vil bruke vårt system som utgangspunkt for maskinoversettelse mellom engelsk og japansk, forteller Oepen.

Powered by Labrador CMS