Annonse

Denne artikkelen er produsert og finansiert av Universitetet i Stavanger - les mer.

The Economist kombinerte sine egne data med algoritmen som Berent Lunde har lagt ut som såkalt open source, åpen kildekode.

Da The Economist skulle finne nøyaktige tall for dødsfall i pandemien, brukte de metoden til norske Berent

Det verdensomspennende magasinet fant ut at dødstallet etter pandemien er tre ganger høyere enn de offisielle tallene.

Publisert

Rett før sommeren publiserte The Economist artikkelen There have been 7m-13m excess deaths worldwide during the pandemic.

«Ved å bruke kjente data fra 121 variabler, alt fra registrerte dødsfall til demografi, har vi bygget et mønster av korrelasjoner som lar oss fylle ut hullene der tall mangler. Modellen vår antyder at covid-19 allerede har krevd 7,1 til 12,7 millioner liv. Vårt sentrale estimat er at 10 millioner mennesker som ellers ville vært i live, har dødd», står det på lederplass i det aktuelle nummeret av magasinet.

Med andre ord, artikkelen i The Economist estimerer med at dødstallet etter pandemien er tre ganger høyere enn de offisielle tallene.

– Min indre motivasjon er å kunne forstå et problem på et dypere nivå, sier Berent Lunde.

For å komme fram til disse tallene har journalistene brukt en metode utviklet av tidligere doktorgradsstudent ved Universitetet i Stavanger (UiS), Berent Lunde.

Lunde fullførte doktorgraden sin ved Institutt for matematikk og fysikk på UiS rett før jul i fjor.

Finne balansen i modellen

Grunnlaget for artikkelen er en statistisk modell som oppdateres kontinuerlig og beskrives i detalj på siden How we estimated the true death toll of the pandemic i The Economist.

Koden bak modellen er tilgjengelig på Github, der magasinet kombinerer sine egne data med algoritmen som Lunde har lagt ut som såkalt open source, åpen kildekode.

Algoritmen trener på data og returnerer så den statistiske modellen som blir brukt.

Lunde tok bachelor- og mastergrad ved Universitetet i Bergen (UiB) før han begynte å jobbe som aktuar i forsikringsbransjen. Gjennom et engasjement ved UiB fikk han jobbet inngående med det siste innen maskinlæring.

– Det ble veldig klart for meg at det fantes nye og spennende metoder innen maskinlæring som ville kunne dra enorm fordel av generelle teoretiske beregninger kalt informasjonskriterier, gitt at disse kunne bli utviklet for de nye metodene. Dette viste seg å være svært vanskelig. Ungt og naivt pågangsmot har hjulpet, sier han.

Da Lunde fikk tilbud om et doktorgradsstipend ved UiS, ble han overbevist av muligheten til å jobbe med UiS-professor Tore Selland Kleppe, som han kjente fra studiene i Bergen.

– Én av metodene som vinner mange konkurranser i maskinlæring, er algoritmen Gradient Tree Boosting. Algoritmen trener på data for å finne den riktige balansen i utregningsmodeller. Det er en metode som er i bruk overalt, forklarer Lunde.

For å bruke denne algoritmen må du være ekspert på maskinlæring og forstå nøyaktig hva du skal finjustere. Det krever store ressurser, av brukeren, men også når det kommer til datakapasitet.

Lunde har i samarbeid med Kleppe og professor Hans J. Skaug ved UiB utviklet algoritmen som heter aGTBoost (Adaptive and Automatic Gradient Tree Boosting Computations) ved å utvikle og legge inn informasjonskriterier som gjør det helt automatisk å finne den rette balansen i modellen.

Dette gjør det svært mye enklere for brukeren.

Algoritme

En algoritme er i matematikk og databehandling en fullstendig og nøyaktig beskrivelse av fremgangsmåten for løsning av en beregningsoppgave eller annen oppgave.

Kilde: Store norske leksikon

Om metoden

For beregningsmodeller basert på såkalt gradient boosting ønsker man å finne en balanse i modeller som har tilstrekkelig antall velvalgte kategorier til å gi gode beregninger også utenfor tilfellene som er dekket av datamaterialet.

Samtidig vil man unngå at antallet kategorier i modellen blir så stort at man driver overtilpasning.

En god balanse mellom disse ytterpunktene er svært vanskelig å finne.

Eksempel med leilighetspriser

Eksempel: La oss si at du ønsker å beregne prisen på en usolgt leilighet basert på variabler som størrelse, beliggenhet og antall rom.

Du sitter med et datamateriale som viser alle leiligheter solgt i Norge de siste årene og har oppgitt både prisen og de forskjellige variablene for alle disse leilighetene.

Metoden deler opp «rommet» av alle mulige kombinasjoner i en rekke kategorier, 3-roms leiligheter i Oslo mellom 50 og 60 kvadratmeter eller 4-roms leiligheter i Stavanger mellom 80 og 100 kvadratmeter.

Alle leiligheter som faller i samme kategori blir så beregnet til å ha samme pris, la oss si gjennomsnittsprisen for alle leilighetene innenfor denne kategorien i datamaterialet.

Men tar modellen hensyn til faktorer som ikke er dekket av datamaterialet? Og hvordan utelukker man støy og overtilpasning i modellen?

Litt forenklet involverer metoden en lang rekke spørsmål av typen: «Gitt en av kategoriene som allerede er valgt: får vi mer nøyaktige beregninger ved å splitte denne i to kategorier med egne beregninger?»

Brukte 121 variabler

Journalistene i The Economist brukte data fra 121 variabler. Datamaterialet var alt fra nasjonale rapporterte dødsfall, demografi og geografi.

I artikkelen i The Economist, brukte journalistene data fra 121 variabler. Datamaterialet var alt fra nasjonale rapporterte dødsfall, demografi og geografi.

Lundes maskinlæringsalgoritme leverte en modell med akkurat den rette balansen.

Algoritmen bruker det teoretiske informasjonskriteriet til å bygge opp passe komplekse modeller på en helt automatisk måte. Kriteriet er også så generelt at det kan brukes på flere måter innenfor algoritmen, eksempelvis både hvorvidt en gitt kategori skal splittes og når algoritmen bør stoppe.

Når algoritmen så blir brukt på et nytt problem med nye data, vil den igjen finne en ny og tilpasset balanse, på første forsøk og helt automatisk.

Rett sted til rett tid

The Economist er et internasjonalt nyhetsmagasin med 1,3 millioner lesere hver uke. Journalistikken deres dekker hele verden, men Storbritannia, USA og Kina vies mest plass.

– Hvordan føles det for en fersk doktor at arbeidet hans når ut over hele verden?

– Min indre motivasjon er å kunne forstå et problem på et dypere nivå. Men selvsagt er det deilig å leve i en tid der maskinlæring er i vinden, og der det du jobber med blir lagt merke til og anvendt, sier Lunde.

– Når koden min brukes av andre, skaper det et slags samhold. Det er veldig fint.

Nå ønsker han å videreutvikle metoden og gjøre den enda bedre. Neste steg på veien er å bygge den inn i et tilsvarende program, XGBoost.

Målet er å nå ut til flest mulig.

Håndtere praktiske problemer

Professor Tore Selland Kleppe var Lundes veileder under doktorgradsarbeidet, og han har også bidratt i utviklingen av aGTBoost.

– Det er selvsagt svært artig at metodikk utviklet på vårt institutt brukes i praksis, og at den samtidig når millioner av lesere. Men kanskje mer interessant er samspillet mellom teoretiske og helt generelle beregninger. Kall det gjerne matematisk statistisk grunnforskning. Anvendelsen av disse til å håndtere mer praktiske problemstillinger som ellers ville være vanskelig og svært tidkrevende, sier Kleppe.

For å gjøre framskritt innen det praktiske trengs det ofte utvikling av mer teoretisk og abstrakt natur, mener han.

– Grunnforskningen gjør at vi forstår det praktiske problemet på et dypere, mer generelt og fundamentalt nivå. Denne økte kunnskapen kan bygges inn for å gjøre algoritmene smartere slik at de igjen løser praktiske problemer raskere, enklere og mer elegant, sier Kleppe.

– Jeg har gjort noe jeg synes er fint og vakkert og hatt litt flaks med timingen. Det betyr mye at koden er til hjelp for andre, og at jeg på den måten har bidratt til å gjøre verden til et bitte litt bedre sted, avslutter Berent Lunde.

Referanser:

Berent Ånund Strømnes Lunde mfl.: An information criterion for automatic gradient tree boosting. arXiv, 2020.

Adaptive and automatic gradient tree boosting computations (Github)

Powered by Labrador CMS