Maskinene skal lære norsk
Om 5-10 år vil regelen vere at menneske og maskiner kommuniserer gjennom tale. Eller som Bill Gates seier det: "Speech is not just the future of Windows, it is the future of computing". No skal språkteknologar bygge opp ein database over det norske språket.
Teknologien som gjer menneska i stand til å snakke med maskiner, er allereie ein realitet. Maskinene kan ved hjelp av avansert IT-teknologi oppfatte og respondere på talte ord, og utføre enkle praktiske oppgåver. I dag er det til dømes mogleg å diktere tekst over til tekstbehandling, og datamaskinene kan no oppfatte heile setningar. Dei fleste i bransjen trur at vi står framfor ei eventyrleg utvikling innan språkteknologien, og det er fleire enn Bill Gates som rettar dei nye IT-strategiane mot språkteknologien.
Språkdøden for norsk?
Men Noreg er eit lite språkområde, og det er tvilsamt om dei store internasjonale datakonserna tek på seg rolla som forsvararar og språkrøktarar av norske talemål. Til no har det heller ikkje vore tilstrekkeleg mengder norsk språkdata tilgjengeleg, slik at maskinene enno ikkje “forstår” norsk. Sidan språket er ein viktig del av den nasjonale identiteten vår, har fleire etter kvart etterlyst eit norsk initiativ for å sikre morsmålet i den nye “IT-verda”. Her er det dei store verdsspråka som dominerer, og særleg grupper med spesielle behov, på grunn av alder eller ulike former for funksjonshemming, vil gå glipp av store letter i kvardagen om dei ikkje får norskspråklege system tilgjengeleg.
Dette er bakgrunnen for eit forprosjekt der språkteknologiske forskings- og utviklingsmiljø (FoU-miljø) ved NTNU, Universitetet i Bergen, Universitetet i Oslo, Nordisk språkteknologi, SINTEF og Telenor FoU samarbeider om å legge grunnen for eit nasjonalt korpus for norsk språkteknologi. Forprosjektet er støtta av Noregs forskingsråd si fireårige satsing: “IT for funksjonshemma” (IT Funk).
Nasjonalt korpus
- Språkteknologien baserer seg på at systema må lærast opp gjennom bruk av store mengder data i form av både tale og tekst, fortel prosjektleiaren, Torbjørn Svendsen, som er professor ved Institutt for teleteknikk ved NTNU. - Sjølve innsamlinga av dei store mengdene med taleopptak frå ulike typar dialektar og stemmeleie, tallause variasjonar over skriven tekst og ikkje minst leksikalske ressursar som ordlister, terminologilister osv., er svært ressurskrevjande både med tanke på tid og pengar, seier prosjektleiaren. Etter at sjølve innsamlinga er ferdig, skal det gjerast eit enda større arbeid knytt til korrektur, organisering av data og andre former for bearbeiding og vidareutvikling av datamengda. Til saman vil kostnadene med å utvikle eit språkleg korpus vere så store, at dataselskapa neppe ser seg tent med å etablere slike databasar anna enn på verdsspråka.
Eit viktig poeng er difor at det nasjonale korpuset òg skal vere tilgjengeleg for kommersielle aktørar innan språkteknologi. På den måten prøver ein å redusere dei internasjonale selskapa sine utviklingskostnader av “norsktalande maskiner”, slik at desse ikkje blir dyrare enn til dømes engelske eller franske. - Vi skal òg syte for at databasen vil ha eit gjenbruks- og levetidsaspekt, slik at vi får etablert ein språkteknologisk ressurs for Noreg i fleire tiår fram i tid, seier Svendsen. I første omgang tek ein sikte på å samle inn stoff til nynorsk og bokmål, medan samiskspråklege enno må vente nokre år.