I en verden hvor vi stadig må håndtere større mengder informasjon, er det godt vi har søkemotorer som kan gjenkjenne ord, telle opp og rapportere tilbake. Tenk om maskinene også kunne forstå det de leste?
KUNSTI-programmet ble avsluttet i 2006, men har nå kommet med en særutlysning på fire millioner kroner til prosjekter som kan gi konkrete resultater i løpet av 2007. Søknadsfristen var 6. juni.
Da kunne de systematisert og presentert informasjon på en helt annen måte enn i dag.
Sett at du for eksempel ville skaffe deg oversikt over Valla-saken.
Med et tenkende system kunne du trykket på en knapp, og i stedet for en grumsete liste over dokumenter hvor ordet Valla er nevnt, som i dag, kunne du fått opp korte, presise sammendrag av de mest innholdstunge tekstene om saken.
Takket være forskere ved språkteknologibedriften CognIT og Seksjon for lingvistiske fag ved Universitetet i Bergen er ikke dette langt unna.
Gjennom prosjektet KunDoc under Forskningsrådets KUNSTI-program har de nemlig kommet langt på vei med å skape såkalt kunstig intelligens, som altså muliggjør smarte datamaskiner.
«United-spissen»
- Prosjektet vårt har gått ut på å finne ut om det er mulig å lære datasystemer å analysere naturspråklig tekst, slik at systemet for eksempel kan gjenkjenne og forstå såkalte koreferansekjeder i tekster, forteller prosjektleder Bernt Bremdal ved CognIT.
Koreferansekjeder er kjeder av ord og uttrykk i en tekst som refererer til det samme. For eksempel «Ole Gunnar Solskjær», «United-spissen» og «han».
En tekst som handler om Ole Gunnar Solskjær, vil ha mange slike ord i kjeden, mens selve navnet kanskje bare blir nevnt noen få ganger.
En søkemotor basert på statistiske metoder som frekvensindeksering vil ikke kunne fange opp hvilke tekster som handler spesifikt om personen man søker etter.
- Det er stort behov for smarte søkemotorer, mener Bremdal, særlig med tanke på at 80 prosent av alle søk på Internett er på navn.
Etterlikner mennesker
I KunDoc-prosjektet har forskerne sett på hvordan datamaskinelle modeller av bakgrunnskunnskap innenfor et bestemt tema, såkalte ontologier, kan etterlikne menneskelig forståelse av tekst og kontekst.
Og om slike ontologier kan læres automatisk av et datasystem.
- Kan de det, Bremdal?
- Ja, vi har utviklet en modell for automatisk læring. Vi konsentrerte oss om noen domenespesifikke tekstkorpuser innenfor sjangeren nyhetstekster, for eksempel fotballnyheter og kriminalsaker.
- På bakgrunn av disse lagde vi begrepshierarkier - ontologier - som så ble lært bort til systemet og eksperimentert med.
Annonse
- Og når systemet har lært seg disse ontologiene?
- Vi har utviklet et system som gjenkjenner et dokuments kunnskapsdomene for så å aktivere den riktige ontologien for videre analyse.
- Etter det brukes det ulike teknikker for å identifisere ord som har lik referanse, eller sammenhengen mellom personer og stereotype hendelser.
For profesjonelle
CognIT har ennå litt igjen før de har lagd et så smart system som de ønsker seg, forteller Bremdal.
- Er planen å lage en ny søkemotor for Internett som skal utfordre Google?
- Nei, Google er en søkemotor for «Hvermansen» og støtter ikke systematisk innhenting og bearbeiding av data.
Arbeidet vårt i KUNSTI er rettet mot semantisk web og alle former for etterretning - det å finne og sammenstille biter av informasjon fra mange kilder som i sum gir ny innsikt og et bedre beslutningsgrunnlag.
Slik sett henvender vi oss til profesjonelle informasjonsbrukere som journalister, meglere, markedsanalytikere, shippingfolk - ja, alle som må håndtere store mengder dokumenter i jobben sin, avslutter Bremdal.