Utvikler samisk språkverktøy

Språkforsker Trond Trosterud ved Universitetet i Tromsø har for tida heltidsjobb med å partere og analysere samiske ord og setninger. Det langsiktige målet er å utvikle et dataprogram som kan rette ord, oversette tekster og gjøre andre språklige krumspring - helt automatisk.

Denne artikkelen er over ti år gammel og kan inneholde utdatert informasjon.

Språkteknologi er grammatikk og datateknologi spesielt tilrettelagt for automatisk håndtering av språk. Trond Trosterud mener språkteknologi er et altfor nyttig hjelpemiddel til at det bare skal bli brukt innen engelsk og andre kommersielt interessante språk. Derfor tok han initiativet til et forskningsprosjekt ved Samisk institutt for å utvikle samisk språkteknologi.

Mangetrinnsrakett

"- Området i skjæringspunktet mellom språk og elektronisk databehandling vil bli et stadig viktigere felt for forskning, spår Trond Trosterud, språkforsker ved Samisk institutt, Universitetet i Tromsø. (Foto: Torgunn Wærås)"

«Morfologisk parsing» heter det Trond Trosterud holder på med. Parsing betyr partering, mens morfologi er læren om formverket i et språk - læren om å bøye og lage ord.

- Arbeidet vårt er som en mangetrinnsrakett. Først må vi lage et system som kjenner igjen alle de ulike formene et ord kan opptre i og programmere inn bøyningsreglene. Deretter må vi løse tvetydige analyser og finne ut hvilken bøyningsform det er snakk om i hvert enkelt tilfelle. Ved hjelp av dette systemet er det mulig å analysere samiske tekster og det samiske ordforrådet langt bedre enn før, forteller Trosterud.

- Teknologien vi utarbeider vil også gi grunnlag for å kunne utvikle praktiske verktøy som ordretteprogram, frekvensordbok og grammatisk ordbok. Det er også mulig å utvide bruksområdet til andre samiske språk enn nordsamisk, fortsetter han, og tenker da på de øvrige samiske skriftspråkene - sørsamisk, lulesamisk, enaresamisk, skoltesamisk og kildinsamisk.

Nyttig verktøy

"Slik ser en maskinanalyse av den nordsamiske setninga «Bures boahtin Romssa universitehttii» (Velkommen til Universitetet i Tromsø) ut. Analyseprogrammet som er brukt er tilgjengelig på prosjektets hjemmeside på Internett (lenke nederst på denne siden)."

Som språkforsker ser han stort behov for denne typen verktøy - både innenfor forskning og i daglig praktisk bruk. Teknologien gjør det mulig å analysere tekst automatisk. Dermed blir det også mulig å forske på utviklinga av samisk språk.

Man kan for eksempel la maskinen analysere store mengder tekst og finne fram til setninger av en bestemt type, hvilke 100 eller 1 000 ord som er de mest vanlige eller analysere språkmønster og bruke materialet til å forske på folks språkevne.

De praktiske bruksområdene er også store. Det som vil bli lagt mest merke til er nok ordretteprogrammet, tror Trosterud. I neste generasjon vil det komme retteprogram for grammatikk, pedagogiske program for innlæring av språk, ordbøker og andre praktiske verktøy.

Trosterud tror utviklinga av samisk språkteknologi vil kunne høyne statusen til det samiske språket og få stor betydning for bruk av samisk som skriftspråk og administrasjonsspråk.

- Språk kan dø ut selv om en har fine ordretteprogram. Fikse språkverktøy vil aldri kunne erstatte mennesket, men de vil kunne være til god hjelp, mener Trosterud.

Tverrfaglig bruk

For Universitetet i Tromsø er det et mål å drive med samisk forskning på ulike fagområder.

- Resultatene fra forskninga på samisk språkteknologi vil kunne tas i bruk også av andre fag enn samisk språk. Verktøyet er veldig relevant for det nye Senteret for fremragende forskning i lingvistikk ved Universitetet i Tromsø, og forskere i fag som for eksempel psykologi, pedagogikk, dokumentasjonsvitenskap og informasjonsteknologi kan også ha stor nytte av å benytte språkteknologi, mener Trosterud.

Viktig grammatikk

Selv er han norsk med trøndersk som morsmål, nynorsk som skriftspråk og med fenniske og ugriske språk som fagfelt. Han behersker engelsk, tysk, norsk og finsk, litt russisk og islandsk - i tillegg til at han har studert marisk og estisk - to finsk-ugriske språk. Samisk kunne han lite av da han startet i prosjektet, men han har nå lært seg å snakke og skrive samisk tålelig bra.

- Det viktigste i mitt arbeid er ikke å beherske samisk, men å ha kunnskap om grammatikk. Ellers deltar selvfølgelig folk som har samisk som morsmål i prosjektet, sier Trosterud.

Forskningsprosjektet er treårig og blir finansiert av Norges forskningsråd. Prosjektet er også et eksempel på at det er mulig for et humanistisk fag å knytte nære bånd med næringslivet. Forskninga foregår i samarbeid med Xerox, et internasjonalt selskap som arbeider blant annet med utvikling av språkteknologi.

Det treårige forskningsprosjektet i samisk språkteknologi startet sommeren 2001 og er fullfinansiert av Norges forskningsråd med 1,9 millioner kroner.

Du kan lese mer om arbeidet med samisk språkteknologi ved Universitetet i Tromsø på prosjektets hjemmeside. Her fins også program for å analysere setninger og generere - det vil si bestille en bestemt bøyningsform av et ord - på nordsamisk, lulesamisk og sørsamisk.

Powered by Labrador CMS