opinie

Een buis voor statistiek

Professor vakgroep Wiskunde en Data Science van VUB en gespecialiseerd in wiskunde voor digitale toepassingen

Met de rapportering van de coronacijfers wordt niet bijster goed omgegaan. Het is een symptoom van een breder probleem: de algemene kennis van statistiek laat te wensen over.

Met de versoepelingen in zicht, duiken de coronacurves weer op. Naar aanleiding van de Covid-19-zelftests verschenen ook veel artikels waarin met cijfers werd gegoocheld. Zo werd op meerdere plaatsen beweerd dat een negatieve test betekent dat je 80 procent kans hebt dat je niet besmet bent of dat een op de vijf mensen toch positief zouden zijn.

De auteur

Ann Dooms, professor vakgroep Wiskunde en Data Science van de VUB, gespecialiseerd in wiskunde voor digitale toepassingen.

De kwestie

Er is een schrijnend gebrek aan basiskennis van statistiek.

Het voorstel

Organiseer cursussen statistiek in het bedrijfsleven.

Al snel werd er op sociale media gewezen op die grove fout in de redenering over de sensitiviteit van 80 procent. De teksten werden gelukkig aangepast, maar in plaats van de correcte cijfers weer te geven, werd ervoor gekozen ‘grote kans’ te schrijven. Wat een gemiste opportuniteit om de statistiek bij de werking van zulke tests correct uit te leggen.

Misschien ligt het probleem niet alleen bij de journalisten. Ook onze overheid blijft vaag over cijfers en hun interpretatie. Ik ben vergeefs op zoek gegaan naar die informatie op de website van Sciensano. Vergeef me als ze er wel staat, maar in dat geval is ze is niet gemakkelijk te vinden.

Misschien kunnen we een voorbeeld nemen aan de Duitse tegenhanger, het Robert Koch Instituut. Op de hoofdpagina daarvan vind je gemakkelijk een infografiek die ook netjes de bij de tests behorende begrippen zoals sensitiviteit en specificiteit begrijpelijk uitlegt en het belang van de prevalentie - hoeveel procent geïnfecteerden op de totale bevolking - illustreert. Het maakte zelfs een interactieve pagina waarmee je zelf aan de slag kan om de resultaten van verschillende tests te interpreteren. De stelling van Bayes in actie!

Achterliggende redenen

Ik breek me het hoofd over de achterliggende redenen. Denkt men dat de bevolking het niet zou begrijpen, of is er echt niemand in de redacties die kaas heeft gegeten van statistiek?

Gelukkig zal er met de nieuwe eindtermen wiskunde meer aandacht aan worden besteed in ons onderwijs. Ik hoop dat men dankbaar gebruik maakt van de statistische voorspellingen over corona waarmee we te maken hebben gekregen. Als het verwachte aantal ziekenhuisopnames (exponentiële groei blijkt nog altijd moeilijk te vatten voor sommigen), de kans op bloedklonters bij vaccinaties en het interpreteren van de resultaten van de verschillende Covid-19-tests dan voorbeeldmateriaal worden, is er toch nog iets positief aan de pandemie geweest.

Onze jeugd krijgt later in het bedrijfsleven ongetwijfeld te maken met statistiek in de context van artificiële intelligentie, en machine learning in het bijzonder. Om daarmee aan de slag te gaan of de resultaten te interpreteren is een goede kennis van statistiek onontbeerlijk.

Gelukkig zal er met de nieuwe eindtermen wiskunde meer aandacht aan statistiek worden besteed in ons onderwijs.

Als universiteit krijgen we geregeld bedrijven over de vloer die kampen met ‘foutieve’ voorspellingen van hun getrainde neurale netwerken. Vaak blijkt dat de data die voorhanden is nooit zal volstaan om het probleem met machine learning op te lossen. Of proberen ze een kanon te gebruiken om een mug te doden en brengt een simpele statistische techniek al soelaas. Om relevante data te verzamelen en in te schatten hoe het probleem op te lossen, moet je inzicht hebben in de variabelen en hun verbanden die een rol spelen.

Bikini

Zo denkt men ook vaak verkeerdelijk dat de ene variabele een invloed heeft op een andere, maar is er in werkelijkheid een correlatie en geen causaal verband. Een dankbaar voorbeeld is de zomer. Als we de verkoop van ijsjes en het aantal verdrinkingen tegen elkaar uitzetten van winter tot zomer, krijgen we een mooie stijgende rechte. Je kan dit verkeerdelijk interpreteren alsof het eten van ijsjes de kans op verdrinkingsdood verhoogt. In werkelijkheid is er een derde variabele in het spel: het seizoen. In de zomer eten mensen meer ijsjes en gaan ze ook meer zwemmen. Bijgevolg heeft alleen het seizoen een causaal verband. De meeste mensen vatten dat meteen, maar denken daar beter eens aan terug als ze voorspellingen proberen te maken.

Een tip voor bedrijven: zet bij je trainingsaanbod een cursus statistiek. Als je de beroemde quote van de Amerikaanse professor in businessadministratie Aaron Levenstein gebruikt, swingt het aantal inschrijvingen ongetwijfeld de pan uit: ‘Statistiek is zoals een bikini. Wat het toont, is suggestief, maar wat het verbergt, is cruciaal.’

Lees verder

Gesponsorde inhoud

Gesponsorde inhoud