Google ser bare etter spesifikke søkeord. Søker du på det semantiske nettet istedet, vil du kunne finne mer presiste eller nyttige svar. (Foto: Colourbox)
Google ser bare etter spesifikke søkeord. Søker du på det semantiske nettet istedet, vil du kunne finne mer presiste eller nyttige svar. (Foto: Colourbox)

Forsker vil åpne det skjulte Internett

Det eksisterer et nett som er skjult for de fleste. Det består bare av rådata – det semantiske nettet. Et nytt forskningsprosjekt skal gjøre det tilgjengelig.

Publisert

Når vi går inne på Google, Facebook og forskning.no, bruker vi det normale Internett. Kriminelle og aktivister bruker det mørke nettet når de skal unngå myndighetenes blikk.

Og så til slutt har vi det semantiske nettet – et idealistisk prosjekt om å gjøre all data lett tilgjengelig. Her finner man store mengder med data, som kan gi svar på mange slags spørsmål.

Det er imidlertid de færreste som kan bruke det. Det skal et nytt forskningsprosjekt ved Aalborg universitet gjøre noe med. Katja Hose er en av forskerne.

– Det semantiske nettet er vanskelig tilgjengelig. Du kan få adgang til listene av rådata, men du må bruke et vanskelig, teknisk språk. Jeg vil gjøre det lett og effektivt for brukere, sier Hose.

Hun vil konstruere et system, QWeb, til dette formålet.

Idealistisk kategorisering av data

Det semantiske nettet oppsto som en tanke om å gjøre alle data lett tilgjengelige. Mannen bak var Tim Berners-Lee, som også fikk ideen til verdensveven – The World Wide Web – og skapte verdens første nettleser, mens han arbeidet ved forskningssenteret CERN.

Verdensveven består av tekstdokumenter lenket til hverandre, mens det semantiske nettet består av data lenket rett til hverandre, uten å ha en masse tekst rundt.

Tekst egner seg for mennesker, mens maskiner får mer ut av lister.

– Tim Berners-Lee hadde en visjon om det semantiske nettet som en kollektiv bevegelse av folk og av nettstandarder som skulle gjøre data tilgjengelige for alle, sier Katja Hose.

Oppskriften var enkel: Alle data skulle kategoriseres og beskrives.

– «Semantikk» er læren om mening, og det semantiske nettet består av såkalt «tripletter»: subjekt, verb og objekt. Det kunne være «Katja – er – kvinne, forklarer Katja Hose. Det gjør at en datamaskin kan koble sammen Katja med kunnskap om kvinner fra andre datasett og konkludere med at Katja er et menneske. Det er enkelt for mennesker, men ikke for datamaskiner.

Maskiner skal gjøre arbeidet

Når man søker på Google, vet ikke datamaskinen om «Java» refererer til programvare eller til en øy. Hvis man bruker de veldefinerte dataene på det semantiske nettet, er ikke det noe problem.

Tim Berners-Lee skapte verdens første webserver mens han arbeidet ved forskningssenteret Cern.  (Foto: Sir Tim Berners-Lee av Paul Clarke)
Tim Berners-Lee skapte verdens første webserver mens han arbeidet ved forskningssenteret Cern. (Foto: Sir Tim Berners-Lee av Paul Clarke)

Hun forteller at data fra Wikipedia har blitt konvertert til databasen DBpedia, som følger standardene for det semantiske nettet. Hvis man er interessert i å finne alle danske byer, trenger man altså ikke lese gjennom en haug ulike artikler – QWeb-systemet kan finne svaret.

– Systemet skal være tilgjengelig for alle, slik at andre kan få glede av det og andre forskere kan bygge videre på det. Det er ånden på det semantiske nettet, sier Hose.

Sammenligner mange kilder

Men hvorfor ikke bare bruke Google? For det første fordi QWeb kan finne svaret raskere, mener Hose. Og for det andre fordi det vil kunne sammenligne opplysninger fra en lang rekke forskjellige kilder.

– Man bruker mange kilder for å få det mest komplette resultatet. Det er spesielt interessant når de motsier hverandre, sier forskeren.

– Noen ganger skifter konteksten. Hvis du søker på hvem prins Charles er gift med, skifter det riktige svaret over tid, sier Hose. Hun forteller at en avgjørende komponent i QWeb er forklaringen av hvordan systemet kom fram til svaret.

Referanse:

Troels Andreasen, Henrik Bulskov, Summarization by domain ontology navigation, International Journal of Intelligent Systems 2013. DOI: 10.1002/int.21575 Sammendrag

© Videnskab.dk. Oversatt av Lars Nygaard for forskning.no.