Soms worden numerieke gegevens in paren weergegeven. Misschien meet een paleontoloog de lengte van het dijbeen (beenbot) en humerus (armbot) in vijf fossielen van dezelfde dinosaurussoort. Het kan zinvol zijn om de armlengtes apart van de beenlengte te overwegen en dingen te berekenen zoals het gemiddelde of de standaarddeviatie. Maar wat als de onderzoeker nieuwsgierig is of er een verband bestaat tussen deze twee metingen? Het is niet voldoende om alleen de armen los van de benen te bekijken. In plaats daarvan zou de paleontoloog de lengte van de botten voor elk skelet moeten paren en een gebied van statistieken gebruiken dat bekend staat als correlatie.
Wat is correlatie? Stel in het bovenstaande voorbeeld dat de onderzoeker de gegevens bestudeerde en het niet erg verrassende resultaat bereikte dat dinosaurusfossielen met langere armen ook langere benen hadden en fossielen met kortere armen kortere benen hadden. Een spreidingsdiagram van de gegevens toonde aan dat de gegevenspunten allemaal geclusterd waren in de buurt van een rechte lijn. De onderzoeker zou dan zeggen dat er een sterke rechte lijnrelatie is, of correlatie, tussen de lengtes van armbeenderen en beenbeenderen van de fossielen. Het vergt wat meer werk om te zeggen hoe sterk de correlatie is.
Aangezien elk gegevenspunt twee getallen vertegenwoordigt, is een tweedimensionaal spreidingsdiagram een grote hulp bij het visualiseren van de gegevens. Stel dat we de dinosaurusgegevens in handen hebben en dat de vijf fossielen de volgende metingen hebben:
Een spreidingsdiagram van de gegevens, met dijbeenmeting in de horizontale richting en humerusmeting in de verticale richting, resulteert in de bovenstaande grafiek. Elk punt vertegenwoordigt de metingen van een van de skeletten. Het punt linksonder komt bijvoorbeeld overeen met skelet # 1. Het punt rechtsboven is skelet # 5.
Het lijkt er zeker op dat we een rechte lijn kunnen trekken die heel dicht bij alle punten zou liggen. Maar hoe kunnen we het zeker weten? Nabijheid is in het oog van de toeschouwer. Hoe weten we dat onze definities van "nabijheid" overeenkomen met iemand anders? Is er een manier om deze nabijheid te kwantificeren??
Om objectief te meten hoe dicht de gegevens dicht bij een rechte lijn liggen, komt de correlatiecoëfficiënt te hulp. De correlatiecoëfficiënt, typisch aangegeven r, is een reëel getal tussen -1 en 1. De waarde van r meet de sterkte van een correlatie op basis van een formule en elimineert elke subjectiviteit in het proces. Er zijn verschillende richtlijnen om in gedachten te houden bij het interpreteren van de waarde van r.
De formule voor de correlatiecoëfficiënt r is ingewikkeld, zoals hier te zien is. De ingrediënten van de formule zijn de gemiddelden en standaardafwijkingen van beide sets numerieke gegevens, evenals het aantal gegevenspunten. Voor de meeste praktische toepassingen r is lastig om met de hand te berekenen. Als onze gegevens zijn ingevoerd in een rekenmachine of spreadsheetprogramma met statistische opdrachten, is er meestal een ingebouwde functie om te berekenen r.
Hoewel correlatie een krachtig hulpmiddel is, zijn er enkele beperkingen in het gebruik ervan: