torsdag 30. april 2020

Fire feilkilder i visualiseringen av koronastatistikker

Visualiseringer kan være svært nyttige når man skal sammenligne statistikker, for eksempel statistikker som viser status og utvikling i ulike land, som økonomi, befolkningsvvekst, utdanning eller helsetilstand. Og akkurat nå under koronakrisen flommer både nettaviser og andre nettsteder over av slike visualiseringer som sammenligner utviklingen i ulike land når det gjelder koronasmitte og antall dødsfall som et resultat av viruset. Det er gode og nyttige verktøy som øker forståelsen for det som skjer, og hvordan ulike lands strategier og tiltak virker.

Men som alltid når det gjelder statistikk er det viktig å vite hva statistikken egentlig viser, om forskjeller mellom land når det gjelder data og valg som er gjort når det gjelder presentasjonsform, og som påvirker det man oppfatter. Nettstedet VOX har laget denne instruktive videoen som peker på fire slike premisser som er ligger der, og som vi bør være klar over fordi det i noen grad kan bidra til å fordreie fremstillingen og sammenligningen hvis man ikke om dem.



For å oppsummere: For det første peker videoen på at antall folk som er testet for smitte er svært forskjellig i ulike land. Det gjør at det lenge kan virke som landene som tester mye har et større problem med pandemien enn land som tester lite, mens realiteten kan være omvendt, noe som kommer brått på og blir svært problematisk etter hvert. Det kan virke som dette er tilfelle i land som Brasil, Tyrkia, Mexico og Russland, som lenge var nokså usynlige i statistikkene, men nå er på vei inn i topp-10 når det gjelder antall smittetilfeller og ikke virker ha en situasjon der ting er under kontroll.

For det andre minner videoen om at en logaritmisk skala fordreier perspektivet sammenlignet mange mange statistikker vi ser ellers. Det er mange fordeler med en logaritmisk skala, blant annet fanger den opp utflatinger som det er vanskelig å få øye på ellers, men man må huske på at antall personer som er rammet er enormt mye høyere i den øverste delen av grafen,

For det tredje skiller ikke grafene mellom store og små land, noe som kan gi inntrykk av at enkelte små land er hardest rammet av alle (blant annet fordi de har god oversikt og mye testing), mens det tildekker at noen regioner innenfor store land er langt hardere rammet, for eksempel New York i USA, fordi de blir borte i gjennomsnittstall.

Og for det fjerde er tidsaksen litt spesiell ved at den ikke har datoen, men antall dager som er gått etter et visst antall bekreftede smittetilfeller. I grafen over er starpunktet 100 smittetilfeller i et land, uavhengig av datoen dette skjedde. Fordelen med fremstillngsmåten er at den gjør tallene for land i ulike faser lettere å sammenligne med hverandre, men det kan være litt tilfeldig når og hvordan man når 100 smittede. Og som tidligere nevnt gjør mangelfull testing i mange land at det kan bli litt upresist.

Ingen kommentarer :

Legg inn en kommentar