Norsk verktøy gir bedre nettsøk

Googler du "madonna", vil du, alt etter hva målet ditt var, få uønskede treff på enten lettkledde popstjerner eller kyske jomfruer. Snart kan ryddehjelpen komme.

"Madonna eller madonna? (Illustrasjon: Annica Thomsson)"
"Madonna eller madonna? (Illustrasjon: Annica Thomsson)"

Innenfor det unge fagfeltet språkteknologi arbeider forskere verden over med å få en datamaskin til å forstå tekst.

En åpenbar assosiasjon er Googles stadig mer avanserte nettjenester. En annen er militær overvåkning.

I sin avhandling A Maximum Entropy Approach to Proper Name Classification for Norwegian beskriver Åsne Haaland en ny metode for å få dette til i norskspråklig sammenheng – og har derved brakt språkteknologien et hakk videre.

Tittelen henspiller på at hun bruker en type sannsynlighetsregning til automatisk å klassifisere egennavn.

Sorterer egennavn

Ved Institutt for lingvistiske og nordiske studier ved Universitetet i Oslo har hun utviklet et program som gjør at en datamaskin kan sortere forskjellige typer norske egennavn i en tekst, avhengig av om navnet viser til en person, et sted, en organisasjon eller underholdningsprodukt.

Et slikt program kan bidra til mer presise nettsøk på norsk.

Navnene klassifiseres ved hjelp av egenskaper ved navnet og sammenhenger navnet forekommer i:

For eksempel er ettordsnavn som er laget av forbokstavene av delene og som derfor skrives med stor forbokstav, slik som LO og NHO, ofte organisasjonsnavn.

To gode naboer

Haaland har studert i detalj hva slags informasjon som er nyttig. Hun finner at naboordene og navnet til sammen er nyttigste informasjon.

Navnene og to foregående og to etterfølgende naboer er tilstrekkelig. Å ta med flere naboord ikke har noen effekt.

Haaland har også slått fast at personnavn er den navnetypen som lettest lar seg gjenkjenne automatisk.

I internasjonal sammenheng har utviklingen av denne typen teknologi delvis vært drevet frem av militære interesser og gir åpenbare assosiasjoner til overvåkning, blant annet av e-post.

Overvåkning

"Åsne Haaland tilhører en voksende gruppe av norske språkteknologer. (Foto: Annica Thomsson)"
"Åsne Haaland tilhører en voksende gruppe av norske språkteknologer. (Foto: Annica Thomsson)"

– Teknologien kan opplagt brukes til overvåkning fordi bestemte uttrykk som person-, organisasjons- og stedsnavn gjenkjennes i tekst.

- En står i tillegg fritt til for eksempel også å lete etter uttrykk for narkotiske stoffer, bekrefter Haaland.

I det sivile liv kan navnegjenkjenningsteknologi brukes til automatiske spørsmål-og-svar-systemer.

Den kan potensielt også forbedre automatisk oversettelse og automatisk sammendrag av tekst.

– Som humanist med matematikk og språk i fagkretsen, er det flott å kunne kombinere de to fagområdene, sier Åsne Haaland.

Avhandlingsarbeidet er finansiert av Nordisk Ministerråd, Språkteknologiprogrammet.

Lenke:

Dataprogram som vet hvordan - pressemelding om disputasen

Powered by Labrador CMS