Saken er produsert og finansiert av Universitetet i Stavanger - Les mer
Husker du Alta Vista? I år 2000 ga den tilgang til 500 millioner sider på nettet. I dag klarer Google alene å laste ned over 20 milliarder sider daglig.

Slik finner søkemotorene det de tror passer for deg

– Søkemotorene er det nærmeste vi i dag kommer kunstig intelligens. Og jo mer vi bruker dem, jo mer lærer de.

21.12 2016 04:00

– Svært få tenker over hvordan søkemotoren velger og prioriterer sine treff, sier professor Krisztian Balog ved Universitetet i Stavanger.

Google for eksempel, bestemmer hvilke tilbud som kommer øverst, og hvilke som havner lenger nede.

Balog forsker på data-gjenfinning, som i stor grad dreier seg om utviklingen av søkemotorene.

Søkemotorene henter ut informasjon fra store mengder ustrukturerte data. De kombinerer resultatene fra flere søkekilder til et forståelig og nyttig format ved bruk av såkalt maskinlæring. Det betyr at maskinen på egen hånd kan forbedre sin evne til problemløsning, som i dette tilfellet gir mer relevante og presise søk.

Balog er tilknyttet Institutt for data- og elektroteknikk ved Det teknisk-naturvitenskapelige fakultet, Universitetet i Stavanger.

Lærer av seg selv

– Lagring og deling av store datamengder er ikke interessant i seg selv hverken for leverandøren eller kunden, men det enorme volumet med tilgjengelig informasjon gjør det nødvendig for den enkelte av oss å stole på verktøyene og på teknologien, sier Balog.

Søkemotorene bruker en såkalt edderkopp, også kalt crawler, for å samle inn informasjon.

Den besøker nettsider flere ganger. På denne måten oppdager den kontinuerlig ny informasjon og den tilegner seg på minutter det vi ellers ville trengt uker på å lære oss.


Professor Krisztian Balog underviser på nytt masterkurs: Webprogrammering, websøk og data mining på Universitetet i Stavanger. (Foto: Lars Gunnar Dahle/ UiS)

Google tilpasser søkene sine til steder du allerede er pålogget og opererer dermed innenfor brukerens egen informasjonsboble.

Det du liker på Facebook vil påvirke hvilket innhold du får presentert i neste omgang.

– Søkemotorene er det nærmeste vi i dag kommer kunstig intelligens, samtidig som den beste måten å gjøre dem mer intelligente på er å bruke dem enda mer, sier professoren.

Søkemotorene har vokst kraftig

– AltaVista, en av de aller første søkemotorene, ble bygget i 1995. I år 2000 ga den tilgang til 500 millioner sider. I dag kunne disse vært lagret på én maskin og Google alene laster nå ned over 20 milliarder sider daglig.

– Hva ellers skiller dagens søkemotorer fra sine 10 år gamle forgjengere?

– Google opererer i dag mer enn et dusin kjempestore datasentre over hele kloden for å dekke behovet, og i stedet for ti blå lenker med dokumenter får vi i dag en mengde treff med fyldige og direkte svar. I tillegg er relevante utdrag markert i ingressen.

På toppen av dette mottar vi mye tilleggsinformasjon, faktabokser med lenker, gjerne sortert etter relevante parametre, som for eksempel tilberedningstid for matretter og reisetid.

Hjelper uten at du ber om det

En søkemotor fyller også inn informasjon som mangler, og som er nødvendig for å kunne gi deg et svar. På samme måte som iPhones hjelpsomme venninne Siri kjenner søkemotorene deg bedre for hver gang du spør om noe.

Alt handler om å tilby korrekt informasjon til rett person til avtalt tid, på samme måte som Google Now presenterer informasjon som er relevant for det du holder på med – uten at du aktivt ber om det. Dette kan være flyavganger, viktige arrangement eller attraksjoner i nærheten, fødselsdager, avtaler du har gjort og som nærmer seg i tid.

– Datavitenskapen kan gjennom å etablere brukervennlige grensesnitt bidra til at organisasjoner og enkeltbrukere forstår og kan nyttiggjøre seg store datamengder på en bedre måte enn i dag, mener Balog.

Han spår en videre sterk vekst de nærmeste årene innen proaktiv søking, der maskinen søker for deg på egen hånd, basert på din søkehistorie og dine preferanser. 

Gjør våre digitale fotspor evige

Balog peker også på de mange utfordringene som er knyttet til jus og personvern i forhold til avansert bruk av søkemotorer.

– På den ene siden hjelper de oss til raskt å få tilgang til relevant informasjon. På den andre siden inneholder søkehistorien opplysninger av privat karakter, som søkeordene i seg selv, for eksempel informasjonssøk om sykdommer.

I tillegg lever opplysninger om politisk engasjement, økonomiske forhold, dommer, bøter og annen sensitiv informasjon i tilnærmet evig tid på nettet.

På dette området gjenstår det mye arbeid med personvern, ulik lovgivning og rettspraksis landene imellom og for eksempel mellom EU og landene utenfor.

– De sponsede lenkene som kommer opp i søkene er også basert på din personlige søkehistorie, legger Balog til.

Han forteller at EU har under arbeid et lovframlegg om innsyn i hvorfor en algoritme anbefaler deg det ene framfor det andre når du søker på internett. Det kunne også gjelde søkeresultatene, men dette utløser en mengde spørsmål.

– Vi kan anta at Google ikke vil dele informasjon med konkurrentene om hvordan systemene deres arbeider, da denne kunnskapen vil gjøre det mulig for nettsteder å rykke frem i køen gjennom å lure søkemotoren, sier Balog.

Referanse:

J. Rybak m.fl.: Anticipating Information Needs Based on Check-in Activity, Tenth ACM International Conference on Web Search and Data Mining (WSDM ’17). Blir publisert i februar 2017. 

forskning.no ønsker en åpen og saklig debatt. Vi forbeholder oss retten til å fjerne innlegg. Du må bruke ditt fulle navn. Vis regler

Regler for leserkommentarer på forskning.no:

  1. Diskuter sak, ikke person. Det er ikke tillatt å trakassere navngitte personer eller andre debattanter.
  2. Rasistiske og andre diskriminerende innlegg vil bli fjernet.
  3. Vi anbefaler at du skriver kort.
  4. forskning.no har redaktøraransvar for alt som publiseres, men den enkelte kommentator er også personlig ansvarlig for innholdet i innlegget.
  5. Publisering av opphavsrettsbeskyttet materiale er ikke tillatt. Du kan sitere korte utdrag av andre tekster eller artikler, men husk kildehenvisning.
  6. Alle innlegg blir kontrollert etter at de er lagt inn.
  7. Du kan selv melde inn innlegg som du mener er upassende.
  8. Du må bruke fullt navn. Anonyme innlegg vil bli slettet.

Annonse