Wat is correlatie in de statistiek?

Soms worden numerieke gegevens in paren weergegeven. Misschien meet een paleontoloog de lengte van het dijbeen (beenbot) en humerus (armbot) in vijf fossielen van dezelfde dinosaurussoort. Het kan zinvol zijn om de armlengtes apart van de beenlengte te overwegen en dingen te berekenen zoals het gemiddelde of de standaarddeviatie. Maar wat als de onderzoeker nieuwsgierig is of er een verband bestaat tussen deze twee metingen? Het is niet voldoende om alleen de armen los van de benen te bekijken. In plaats daarvan zou de paleontoloog de lengte van de botten voor elk skelet moeten paren en een gebied van statistieken gebruiken dat bekend staat als correlatie.

Wat is correlatie? Stel in het bovenstaande voorbeeld dat de onderzoeker de gegevens bestudeerde en het niet erg verrassende resultaat bereikte dat dinosaurusfossielen met langere armen ook langere benen hadden en fossielen met kortere armen kortere benen hadden. Een spreidingsdiagram van de gegevens toonde aan dat de gegevenspunten allemaal geclusterd waren in de buurt van een rechte lijn. De onderzoeker zou dan zeggen dat er een sterke rechte lijnrelatie is, of correlatie, tussen de lengtes van armbeenderen en beenbeenderen van de fossielen. Het vergt wat meer werk om te zeggen hoe sterk de correlatie is.

Correlatie en spreidingsplots

Aangezien elk gegevenspunt twee getallen vertegenwoordigt, is een tweedimensionaal spreidingsdiagram een grote hulp bij het visualiseren van de gegevens. Stel dat we de dinosaurusgegevens in handen hebben en dat de vijf fossielen de volgende metingen hebben:

Femur 50 cm, humerus 41 cm
Femur 57 cm, humerus 61 cm
Femur 61 cm, humerus 71 cm
Femur 66 cm, humerus 70 cm
Dijbeen 75 cm, opperarmbeen 82 cm

Een spreidingsdiagram van de gegevens, met dijbeenmeting in de horizontale richting en humerusmeting in de verticale richting, resulteert in de bovenstaande grafiek. Elk punt vertegenwoordigt de metingen van een van de skeletten. Het punt linksonder komt bijvoorbeeld overeen met skelet # 1. Het punt rechtsboven is skelet # 5.

Het lijkt er zeker op dat we een rechte lijn kunnen trekken die heel dicht bij alle punten zou liggen. Maar hoe kunnen we het zeker weten? Nabijheid is in het oog van de toeschouwer. Hoe weten we dat onze definities van "nabijheid" overeenkomen met iemand anders? Is er een manier om deze nabijheid te kwantificeren??

Correlatiecoëfficiënt

Om objectief te meten hoe dicht de gegevens dicht bij een rechte lijn liggen, komt de correlatiecoëfficiënt te hulp. De correlatiecoëfficiënt, typisch aangegeven r, is een reëel getal tussen -1 en 1. De waarde van r meet de sterkte van een correlatie op basis van een formule en elimineert elke subjectiviteit in het proces. Er zijn verschillende richtlijnen om in gedachten te houden bij het interpreteren van de waarde van r.

Als r = 0 dan zijn de punten een complete warboel met absoluut geen rechte lijnrelatie tussen de gegevens.
Als r = -1 of r = 1 dan staan alle gegevenspunten perfect op één lijn.
Als r is een andere waarde dan deze uitersten, dan is het resultaat een minder dan perfecte pasvorm van een rechte lijn. In echte gegevenssets is dit het meest voorkomende resultaat.
Als r positief is, gaat de lijn omhoog met een positieve helling. Als r is negatief dan gaat de lijn naar beneden met een negatieve helling.

De berekening van de correlatiecoëfficiënt

De formule voor de correlatiecoëfficiënt r is ingewikkeld, zoals hier te zien is. De ingrediënten van de formule zijn de gemiddelden en standaardafwijkingen van beide sets numerieke gegevens, evenals het aantal gegevenspunten. Voor de meeste praktische toepassingen r is lastig om met de hand te berekenen. Als onze gegevens zijn ingevoerd in een rekenmachine of spreadsheetprogramma met statistische opdrachten, is er meestal een ingebouwde functie om te berekenen r.

Beperkingen van correlatie

Hoewel correlatie een krachtig hulpmiddel is, zijn er enkele beperkingen in het gebruik ervan:

Correlatie vertelt ons niet alles over de gegevens. Middelen en standaardafwijkingen blijven belangrijk.
De gegevens kunnen worden beschreven door een curve die gecompliceerder is dan een rechte lijn, maar dit wordt niet weergegeven in de berekening van r.
Uitbijters beïnvloeden de correlatiecoëfficiënt sterk. Als we uitbijters in onze gegevens zien, moeten we voorzichtig zijn met welke conclusies we trekken uit de waarde van r.
Het feit dat twee sets gegevens zijn gecorreleerd, betekent niet dat de ene de oorzaak is van de andere.

Wetenschap