Meir menneskelege nettsøk

Nye, smartare nettsøk kan setje saman informasjon frå ulike kjelder for enkelt å gje deg informasjonen du leitar etter.

Publisert
Smarte søk på nett gjer at vi raskt og enkelt finn det vi leitar etter. (Foto: Shutterstock.)
Smarte søk på nett gjer at vi raskt og enkelt finn det vi leitar etter. (Foto: Shutterstock.)

Om prosjektet:

Prosjektet «Cooperative Mining of Independent Document Repositories – COMIDOR» hadde støtte frå VERDIKT i perioden 1.4.2008–1.5.2012.

Prosjektleiar var professor Kjetil Nørvåg ved Institutt for datateknikk og informasjonsvitskap ved Noregs teknisk-naturvitskaplege universitet (NTNU).

VERDIKT:

Forskningsrådets program Kjernekompetanse og verdiskaping i IKT (VERDIKT) fremmer forskning og utvikling av IKT-løsninger som kan møte utfordringer knyttet til bl.a. klima og miljø, energibehov, verdiskaping, eldrebølge, helse og velferd.

Smarte søk kan for eksempel gje deg ei liste over ti berømte byar i antikkens Hellas dersom det er det du er ute etter, sjølv om det ikkje finst éin nettartikkel som har denne oversikta aleine.

Forskarar ved NTNU hevdar seg internasjonalt i konkurransen om å lage smartare søk på nett. Blant konkurrentane er forskarane til Yahoo og Google.

– Desse søka som vi kallar semantiske søk, kan gjerast raskt i store datasamlingar, seier professor Kjetil Nørvåg ved NTNU.

– Nokre av samlingane ligg på nett, men det er òg mogleg å søkje i data frå organisasjonar, òg til dei som ikkje vil frigje data direkte.

Det kan for eksempel vere organisasjonar som tilbyr søk i data, men ikkje tilgang til heile datasettet. Nørvåg fortel at Brønnøysundregistra allereie har delvis støtte for slikt.

Dersom ein har sett opp ei liste med føretaksnummer i eit rekneark, kan ein for eksempel få ut adressene til føretaka og på den måten få oppdaterte adresselister.

Koplar opplysningar

Bakgrunnen for Nørvåg si forsking var behovet for å søkje i informasjon som ligg på datamaskiner som er uavhengige av kvarandre. Det har då vore vanleg å slå saman kjeldene og deretter utføre søket, men i mange tilfelle er ikkje det mogleg.

Det kan vere for store mengder data, det kan vere juridiske grunnar eller det kan vere for ulik oppbygging av kjeldene.

– Det vi gjer no er å søkje i ein kunnskapsbase med det vi kallar semantisk webdata. Denne basen kan vere laga automatisk frå Wikipedia-artiklar og inneheld ei stor mengd med fakta, seier Nørvåg.

– Semantiske webdata kan sjåast på som nettverk av objekt. Det vi kallar entitetar. Det kan for eksempel vere personar, stadar eller bedrifter. Dei kan koplast saman med predikat. Predikat er ein relasjon eller ein eigenskap.

Nørvåg kjem med eit par eksempel.

– Entitetane kan vere Kjetil og Trondheim. Dei kan koplast med predikatet «bur i» der Kjetil er subjekt og Trondheim objekt. Andre relasjonar kunne vore «jobbar i» eller «døyr i», fortel han.

– Ein kan teikne nettverk der entitetane er kopla saman med predikat. Ein kan for eksempel få eit nettverk over alle som bur i Trondheim og med relasjonar mellom dei som er gift og mellom personar og firma i Trondheim. Ein vil då for eksempel kunne finne alle som er kollega med kona til Per.

Nørvåg forklarar at det ein faktisk har i semantisk webdata er fakta som desse:

  • Per—[ErGiftMed]—Kari
  • Kari—[ArbeiderIFirma]—NTNU
  • Ola—[ArbeiderIFirma]—NTNU
  • Jon—[ArbeiderIFirma]—NTNU

– Tenk deg at du startar med Per, følgjer relasjonen ErGiftMed til kona til Per og deretter relasjonen ArbeiderIFirma til firmaet NTNU. Svaret er då dei andre som har relasjonen ArbeiderIFirma til NTNU.

– Ut frå dette kan ein altså finne at Ola og Jon og Kari arbeider ved NTNU, og sidan Per er gift med Kari, er Ola og Jon altså kollegaer til kona til Per.

Gjev deg lister

NTNU-forskarane har konsentrert seg om såkalla listesøk.

– Dersom du har uttrykket «Neil Armstrong yrke astronaut», er «Neil Armstrong» og astronaut entitetar, mens yrke er predikatet som koplar dei to, fortel Nørvåg.

– Dette er informasjon du enkelt kan finne i ein nettartikkel, men sett at du ønskjer å få oversikt over alle astronautane som har gått på månen. Det er det ikkje sikkert du finn svar på i éin artikkel.

Med støtte frå Forskingsrådet har Nørvåg og kollegane utvikla algoritmar som gjer det mogleg raskt og enkelt å finne svaret likevel.

Søkjemotoren søkjer då i semantiske webdata og koplar saman predikat og entitetar for å gje deg lista med astronautar som har gått på månen.

Best i verda

I den årlege konkurransen som blir arrangert av Yahoo, vann Nørvåg og kollegane sist gong ein av to konkurransar i semantiske søk og viste dermed at deira teknologi for listesøk er best i verda.

Eksempel på nettverk der entitetar er kopla med predikat. Her kan du finne alle deltakarane i Yahoo-konkurransen som kom frå NTNU. Nørvåg sjølv øvst til venstre. Den høgre sida av figuren viser at konkurransen består av to delar der den eine er listesøk. 1st og 3rd viser til at laget frå NTNU vart nummer ein og tre i dei to konkurransane. (Foto: (Illustrasjon: Kai Torgeir Dragland, NTNU))
Eksempel på nettverk der entitetar er kopla med predikat. Her kan du finne alle deltakarane i Yahoo-konkurransen som kom frå NTNU. Nørvåg sjølv øvst til venstre. Den høgre sida av figuren viser at konkurransen består av to delar der den eine er listesøk. 1st og 3rd viser til at laget frå NTNU vart nummer ein og tre i dei to konkurransane. (Foto: (Illustrasjon: Kai Torgeir Dragland, NTNU))

Resultata har seinare blitt presenterte på den store WWW-konferansen som blir arrangert av World Wide Web Consortium som er leia av Tim Berners-Lee, mannen som fann opp internett.

Nørvåg understrekar at teknologien fortsatt er på forskingsstadiet.

– Teknologien må testast vidare og bli meir stabil før den blir tilgjengeleg for brukarane. Men når den er på plass, kan den finne ut det vi sjølve kan finne ut ved å søkje i leksikonartiklar, forklarer han.

– Google er òg interesserte i denne typen søk. Dei vil kome med det dei kallar Knowledge Graph som berre er eit nytt namn på det same. Utfordringa til Google som har ein million brukarar om gongen, er at dei må skalere teknologien til at mange kan bruke den samtidig.

NTNU-forskarane vil i tida framover konsentrere seg om å få til gode og raske semantisk søk i data som er lagra i nettskyer sidan meir og meir data blir lagra der.