Correlatie en oorzakelijk verband in de statistiek

Op een dag tijdens de lunch at een jonge vrouw een grote kom ijs, en een collega-faculteitslid kwam naar haar toe en zei: "Je kunt maar beter voorzichtig zijn, er is een hoge statistische correlatie tussen ijs en verdrinking." hebben hem een ​​verwarde blik gegeven, terwijl hij wat meer heeft uitgewerkt. "Dagen met de meeste verkoop van ijs zien ook de meeste mensen verdrinken."

Toen ze mijn ijsje op had, bespraken de twee collega's het feit dat alleen omdat de ene variabele statistisch geassocieerd is met de andere, dit niet betekent dat de ene de oorzaak van de andere is. Soms verschuilt zich een variabele op de achtergrond. In dit geval verbergt de dag van het jaar zich in de gegevens. Op warme zomerdagen wordt meer ijs verkocht dan in de winter met sneeuw. Meer mensen zwemmen in de zomer, en dus verdrinken meer in de zomer dan in de winter.

Pas op voor loerende variabelen

De bovenstaande anekdote is een goed voorbeeld van wat bekend staat als een loerende variabele. Zoals de naam al doet vermoeden, kan een loerende variabele ongrijpbaar en moeilijk te detecteren zijn. Wanneer we ontdekken dat twee numerieke gegevenssets sterk gecorreleerd zijn, moeten we altijd vragen: "Zou er iets anders kunnen zijn dat deze relatie veroorzaakt?"

Hierna volgen voorbeelden van sterke correlatie die wordt veroorzaakt door een loerende variabele:

  • Het gemiddelde aantal computers per persoon in een land en de gemiddelde levensverwachting van dat land.
  • Het aantal brandweerlieden bij een brand en de schade veroorzaakt door de brand.
  • De hoogte van een basisschoolstudent en zijn of haar leesniveau.

In al deze gevallen is de relatie tussen de variabelen erg sterk. Dit wordt meestal aangegeven door een correlatiecoëfficiënt met een waarde dicht bij 1 of -1. Het maakt niet uit hoe dicht deze correlatiecoëfficiënt bij 1 of bij -1 ligt, deze statistiek kan niet aantonen dat de ene variabele de oorzaak is van de andere variabele.

Detectie van loerende variabelen

Loerende variabelen zijn van nature moeilijk te detecteren. Een strategie, indien beschikbaar, is om te onderzoeken wat er na verloop van tijd met de gegevens gebeurt. Dit kan seizoensgebonden trends, zoals het ijsijs, onthullen die worden verdoezeld wanneer de gegevens worden samengevoegd. Een andere methode is om naar uitbijters te kijken en te proberen te bepalen wat hen anders maakt dan de andere gegevens. Soms geeft dit een hint van wat er achter de schermen gebeurt. De beste manier van handelen is om proactief te zijn; vraag aannames en ontwerp-experimenten zorgvuldig.

Waarom maakt het uit?

Stel in het openingsscenario een goedbedoelende maar statistisch niet-geïnformeerde congreslid voor om al het ijs te verbieden om verdrinking te voorkomen. Een dergelijk wetsvoorstel zou grote delen van de bevolking overlast bezorgen, verschillende bedrijven tot faillissement dwingen en duizenden banen elimineren wanneer de ijsindustrie van het land wordt gesloten. Ondanks de beste bedoelingen zou deze rekening het aantal verdrinkingsdoden niet verminderen.

Als dat voorbeeld een beetje te ver gezocht lijkt, overweeg dan het volgende, wat eigenlijk gebeurde. In de vroege jaren 1900 merkten artsen dat sommige baby's op mysterieuze wijze in hun slaap stierven aan waargenomen ademhalingsproblemen. Dit werd wiegendood genoemd en staat nu bekend als wiegendood. Een ding dat uitsteekt van autopsies uitgevoerd op degenen die stierven aan wiegendood was een vergrote zwezerik, een klier in de borst. Uit de correlatie van vergrote thymusklieren bij SIDS-baby's, dachten artsen dat een abnormaal grote thymus onjuiste ademhaling en dood veroorzaakte.

De voorgestelde oplossing was om de thymus te krimpen met veel straling, of om de klier volledig te verwijderen. Deze procedures hadden een hoog sterftecijfer en leidden tot nog meer sterfgevallen. Wat triest is, is dat deze operaties niet hoefden te zijn uitgevoerd. Daaropvolgend onderzoek heeft aangetoond dat deze artsen zich hebben vergist in hun veronderstellingen en dat de thymus niet verantwoordelijk is voor wiegendood.

Correlatie houdt geen oorzakelijk verband in

Het bovenstaande zou ons moeten doen pauzeren wanneer we denken dat statistisch bewijs wordt gebruikt om dingen zoals medische regimes, wetgeving en educatieve voorstellen te rechtvaardigen. Het is belangrijk dat goed werk wordt gedaan bij het interpreteren van gegevens, vooral als resultaten met betrekking tot correlatie het leven van anderen zullen beïnvloeden.

Wanneer iemand zegt: "Studies tonen aan dat A een oorzaak is van B en sommige statistieken ondersteunen het," wees klaar om te antwoorden, "correlatie houdt geen oorzakelijk verband in." Wees altijd op zoek naar wat er onder de gegevens schuilgaat.