Vaak is het bij het bestuderen van statistieken belangrijk om verbanden te leggen tussen verschillende onderwerpen. We zullen een voorbeeld hiervan zien, waarbij de helling van de regressielijn direct gerelateerd is aan de correlatiecoëfficiënt. Omdat deze concepten beide rechte lijnen omvatten, is het logisch om de vraag te stellen: "Hoe zijn de correlatiecoëfficiënt en de kleinste vierkante lijn gerelateerd?"
Eerst zullen we wat achtergrondinformatie over beide onderwerpen bekijken.
Het is belangrijk om de details te onthouden die betrekking hebben op de correlatiecoëfficiënt, aangeduid met r. Deze statistiek wordt gebruikt wanneer we kwantitatieve gegevens hebben gekoppeld. Uit een spreidingsplot van deze gepaarde gegevens kunnen we trends zoeken in de algehele gegevensverspreiding. Sommige gepaarde gegevens vertonen een lineair of recht lijnpatroon. Maar in de praktijk vallen de gegevens nooit precies langs een rechte lijn.
Verschillende mensen die naar dezelfde spreidingsplot van gepaarde gegevens keken, waren het niet eens over hoe dicht het was om een algemene lineaire trend te laten zien. Onze criteria hiervoor kunnen tamelijk subjectief zijn. De schaal die we gebruiken kan ook onze perceptie van de gegevens beïnvloeden. Om deze redenen en meer hebben we een soort van objectieve maat nodig om te vertellen hoe dicht onze gepaarde gegevens lineair zijn. De correlatiecoëfficiënt bereikt dit voor ons.
Enkele basisfeiten over r zijn onder andere:
De laatste twee items in de bovenstaande lijst wijzen ons in de richting van de best passende lijn met de kleinste vierkanten. Bedenk dat de helling van een lijn een meting is van het aantal eenheden dat het omhoog of omlaag gaat voor elke eenheid die we naar rechts verplaatsen. Soms wordt dit vermeld als de stijging van de lijn gedeeld door de run of de verandering in Y waarden gedeeld door de wijziging in X waarden.
In het algemeen hebben rechte lijnen hellingen die positief, negatief of nul zijn. Als we onze minst vierkante regressielijnen zouden onderzoeken en de overeenkomstige waarden van zouden vergelijken r, we zouden opmerken dat elke keer dat onze gegevens een negatieve correlatiecoëfficiënt hebben, de helling van de regressielijn negatief is. Evenzo is de helling van de regressielijn voor elke keer dat we een positieve correlatiecoëfficiënt hebben.
Uit deze observatie zou duidelijk moeten zijn dat er absoluut een verband bestaat tussen het teken van de correlatiecoëfficiënt en de helling van de kleinste vierkantenlijn. Het blijft om uit te leggen waarom dit waar is.
De reden voor het verband tussen de waarde van r en de helling van de kleinste vierkantenlijn heeft te maken met de formule die ons de helling van deze lijn geeft. Voor gepaarde gegevens (x, y) we geven de standaardafwijking van de X gegevens door sX en de standaardafwijking van de Y gegevens door sY.
De formule voor de helling een van de regressielijn is:
De berekening van een standaarddeviatie omvat het nemen van de positieve vierkantswortel van een niet-negatief getal. Als gevolg hiervan moeten beide standaardafwijkingen in de formule voor de helling niet negatief zijn. Als we aannemen dat er enige variatie in onze gegevens is, kunnen we de mogelijkheid negeren dat een van deze standaardafwijkingen nul is. Daarom zal het teken van de correlatiecoëfficiënt hetzelfde zijn als het teken van de helling van de regressielijn.