Mange vitenskapsdisipliner vokser sakte frem, ved hjelp av et stort antall bidragsytere. Informasjonsteori, derimot, ble skapt av én bemerkelsesverdig vitenskapsmann, universalgeniet Claude Elwood Shannon (1916-2001), gjennom en artikkel publisert i 1948. Der forandret han ikke bare metodene vi bruker for å overføre, lagre og analysere informasjon, men kanskje enda viktigere, måten vi tenker rundt begrepet informasjon.
Informasjonsteori er en gren av matematikken som gir det teoretiske grunnlaget for all digital kommunikasjon og datalagring. I første omgang er det lett å fokusere på digital kommunikasjon, men informasjonsteoriens prinsipper er fundamentale og kan sees på som naturlover som også gjelder alle andre former for kommunikasjon i rom og tid.
Preger alt fra internetthverdagen til sjonglering
I tillegg er det i de senere år vokst frem mange spennende alternative anvendelser av informasjonsteorien. Typer av informasjonsinnsamling som ikke tradisjonelt sees på som datakommunikasjon, som anbefalingsalgoritmen til Netflix, data mining eller medisinsk skanning (MRI), har informasjonsteoretiske resultater som vesentlige underliggende prinsipper.
Shannon definerte, på en elegant måte, entropi og informasjon som målbare størrelser.
I tillegg til å egenhendig starte fagfeltet informasjonsteori, er Shannon også kjent for banebrytende bidrag innenfor utviklingen av datakompresjon, datamaskiner, kryptografi, kretsteknikk, flyt i datanett, sjonglering (!!!) og han var også en av pionérene innenfor kunstig intelligens og menneske-maskin-interaksjon.
30. april i år feires hundreårsdagen for Shannons fødsel over hele verden, og i den anledning er det grunn til å stoppe opp litt og ta en kikk på hvordan Claude Shannon har bidratt til utviklingen av vår moderne verden.
Entropi uttrykker hvor mye vi ikke vet om noe
En informasjonskilde er noe som produserer tilfeldige informasjonssymboler. Kilden kan være et myntkast. Til hvert myntkast hører det et resultat: Informasjonssymbolet er da resultatet av myntkastet, som har verdien kron eller mynt. Kilden kan også være deg, ved ditt tastatur, som skriver en tekst: I så fall er informasjonssymbolene bokstaver som i rasende fart dukker opp på skjermen din.
Shannon introduserte begrepet entropi for en informasjonskilde, målt i bit, som graden av usikkerhet om symboler som kommer ut av kilden. Dersom et slikt symbol kan anta to mulige verdier, 0 eller 1, hver med sannsynlighet ½, er entropien av kilden én bit (fordi det trengs én bit for å fortelle hva verdien er.). Men hvis derimot én av verdiene forekommer med sannsynlighet 1, er det ingen usikkerhet rundt verdien, og entropien er null.
Hvis vi studerer sekvenser av symboler som produseres av en informasjonskilde, ønsker vi gjerne å komprimere disse sekvensene så mye som mulig, for å kunne lagre eller overføre sekvensene på en effektiv måte. Entropien til kilden gir en eksakt nedre grense for hvor mye man kan komprimere. Informasjonsteoretiske betraktninger gir også grunnlag for algoritmer for tekstkompresjon, blant annet Ziv-Lempels algoritme som brukes i applikasjoner som zip. Tilsvarende kan bilder komprimeres med algoritmer som GIF eller JPEG.
Å gjøre seg så tydelig at støyen blir ufarlig
De fleste praktiske dataoverføringskanaler er utsatt for støy, som gjør at mottakeren med en viss sannsynlighet mottar noe som er annerledes enn det som ble sendt. Tale kan forstyrres av bråk, elektroniske signaler kan forstyrres av elektromagnetiske signaler, og Internettkommunikasjon kan endres ved at datapakker forsvinner på grunn av mye datatrafikk i nettet.
For å unngå feil og misforståelser som kan oppstå på grunn av slik støy, er det nødvendig å representere informasjon på en redundant måte. Ta myntkastet vi gjorde tidligere, som et eksempel. Når du skal fortelle meg om det ble kron eller mynt, må du klare å fortelle meg det. Hvis du skulle skrive det på en melding, kunne du skrevet det så enkelt som «kron» eller «mynt». Men hvis vi skal være veldig tydelige, eller redundante, kunne vi skrevet «KRONKRONKRON» eller «MYNTMYNTMYNT».
Da ville det vært mindre risiko for at støyen skulle ødelegge budskapet. En representasjon er redundant dersom den er mindre komprimert enn den strengt tatt trenger å være. Problemet med en veldig kompakt representasjon er at det er sårbart for støy, og hvis representasjonen blir bare litt forandret kan meningsinnholdet slik mottakeren oppfatter det bli dramatisk forskjellig.
Talespråk har utviklet seg til å bli naturlig redundant, det er derfor det er mulig å komprimere tekst. Denne redundansen beskytter mot feil: Fr ksmpl, hvs vkln fjrns r dt frmdls mlg ls tkstn (såvidt.)
Regnet ut hvor mye tydelighet som er nødvendig
Shannon viste hvor mye redundans som er nødvendig for å kommunisere over en gitt overføringskanal med en gitt mengde støy, og som en konsekvens, hvor høy datarate som er mulig å oppnå på denne kanalen.
For naturlige kommunikasjonskanaler som for eksempler naturlig talespråk, skriftspråk, signaler i nervesystemer i biologiske organismer, eller overføring av DNA fra generasjon til generasjon, er både fysiske overføringsmekanismer og den fysiske representasjonen av «signalene» forhåndsbestemt, og informasjonsteori kan brukes til å beskrive matematiske begrensninger på overføringskapasitet. For teknologiske overføringskanaler, som datakommunikasjon og datalagring, har man også mulighet til å optimalisere den fysiske representasjonen av signaler som sendes.
Kodeteori er en gren av informasjonsteori som beskriver hvordan disse signalene kan konstrueres for å få til en svært pålitelig og energisparende kommunikasjon med maksimal dataoverføringsrate over fysisk upålitelige kommunikasjonskanaler, og helst slik at man oppnår en ytelse så nær Shannons teoretiske grenser som mulig. Disse representasjonene kalles for feilkorrigerende koder. Lignende teknikker kan brukes for å oppnå kommunikasjon som er sikker mot ondsinnete angrep, som avlytting og forstyrrelser.
Informasjonsteorien er overalt i dag
I dag, nesten 70 år etter starten, er informasjonsteori og assosierte fagområder som kodeteori og kryptografi store og viktige forskningsfelt med tusenvis av forskere på verdensbasis. Shannons etterfølgere har både utviklet og utvidet de teoretiske aspektene i faget, og har samtidig skapt nye teknologiske anvendelser innenfor alle tenkelige områder av sikker, effektiv, bærekraftig og rask datakommunikasjon, -lagring og -prosessering.
Alle interessante prosesser innenfor for eksempel biologi, samfunnsfag, og økonomi er knyttet til overføring av informasjon. Derfor er et informasjonsteoretisk perspektiv nyttig blant annet i molekylærbiologisk forskning. Resultater fra informasjons- og kodeteori har vært uunnværlige pådrivere i den digitale revolusjonen som har pågått de siste sytti årene, og det er all grunn til å tro at denne utviklingen vil fortsette og kanskje til og med akselerere.