Amerikanske forskere har brukt data fra det offentlige helseinstituttet CDC om hvordan smitte spres, til å gjøre tjenesten Google Flu Trends sikrere. (Illustrasjonsfoto: www.colourbox.no)
Amerikanske forskere har brukt data fra det offentlige helseinstituttet CDC om hvordan smitte spres, til å gjøre tjenesten Google Flu Trends sikrere. (Illustrasjonsfoto: www.colourbox.no)

Spår influensa med store data

Amerikanske forskere kombinerer data fra Google og offentlig helseregister.

Publisert

Forskerne har forbedret tjenesten Google Flu Trends, slik at den blir mer pålitelig, og til og med kan forutsi en uke hvordan influensaen vil spre seg i USA.

Google Flu Trends samler inn opplysninger om hvem som har søkt på ord som kan forbindes med influensa, og hvor. Tolking av disse opplysningene har gitt sanntidsinformasjon om spredning av influensaepidemier.

Det har gitt Google Flu Trends et forsprang på opplysningene fra det offentlige helseinstituttet U.S. Centers for Disease Control and Prevention (CDC), som først offentliggjøres to uker seinere.

Google har overdrevet

Nå har likevel data fra CDC kommet til nytte for å forbedre Google Flu Trends. Forskere fra University of California San Diego har brukt de offentlige opplysningene for å gjøre Google Flu Trends enda bedre.

Det har nemlig vært tilfelle hvor Google Flu Trends har tatt alvorlig feil. Folk søker på influensa uten å kjenne symptomene godt nok, eller bruker upresise søkeord som feber og hoste.

Dette førte blant annet til at Google spådde nesten dobbelt så mange legebesøk på grunn av influensa i sesongen 2012 - 2013 som CDC rapporterte, ifølge en nyhetsmelding i Nature fra 2013.

Figuren viser hvordan Google Flu Trends (blå) viste for høye influensatall sammenlignet med data fra CDC, men hvordan den CDC-korrigerte kurven til forskerne fra University of California (rød) følger fasiten bedre under influensaepidemien i New York og New Jersey i 2009. (Foto: (Figur: Fra fagartikkel i Scientific Reports, <a href="http://creativecommons.org/licenses/by-nc-nd/4.0/">Creative Commons Attribution-NonCommercial-NoDerivs 4.0 International License</a>.))
Figuren viser hvordan Google Flu Trends (blå) viste for høye influensatall sammenlignet med data fra CDC, men hvordan den CDC-korrigerte kurven til forskerne fra University of California (rød) følger fasiten bedre under influensaepidemien i New York og New Jersey i 2009. (Foto: (Figur: Fra fagartikkel i Scientific Reports, Creative Commons Attribution-NonCommercial-NoDerivs 4.0 International License.))

Spår en uke fram i tid

Også Google selv brukte data fra CDC for å finne fram til de mest treffsikre søkeordene, da tjenesten ble utviklet fra 2003 til lanseringen i 2008. Men forskerne fra University of California har tatt ibruk data fra CDC dynamisk, slik at Google-modellen hele tiden holdes i tømme, og får en realitetssjekk.

Dermed kan spådommer en uke fram i tid bli like sikre som nåtidsdata fra Google Flu Trend, skriver forskerne i fagartikkelen, som publiseres åpent på nettstedet Scientific Reports, drevet av tidsskriftet Nature.

Forskerne bruker blant annet opplysninger fra CDC om hvordan smitten spredde seg mellom regioner på samme tid året før. Slik kan de moderere data fra Google Flu Trends, som noen ganger tar av med søketopper etter mediestorm når influensaen herjer. Denne forbedringen er derfor størst i perioder med mye influensa, skriver forskerne.

Lenke og referanse:

Forecasting the Flu Better, nyhetsmelding fra University of California San Diego, 29.1.2015

Michael W. Davidson mfl: Using Networks to Combine “Big Data” and Traditional Surveillance to Improve Influenza Predictions, Scientific Reports 5, Article number 8154, 29.1.2015, doi:10.1038/srep08154

When Google got flu wrong, nyhetsmelding i Nature News, 13.2.2013