Een spreidingsdiagram is een type grafiek dat wordt gebruikt om gepaarde gegevens weer te geven. De verklarende variabele wordt uitgezet langs de horizontale as en de responsvariabele wordt uitgezet langs de verticale as. Een reden om dit type grafiek te gebruiken, is om te zoeken naar relaties tussen de variabelen.
Het meest basale patroon waarnaar moet worden gezocht in een set gepaarde gegevens, is dat van een rechte lijn. Via twee willekeurige punten kunnen we een rechte lijn trekken. Als er meer dan twee punten in ons spreidingsdiagram zijn, kunnen we meestal niet langer een lijn trekken die door elk punt gaat. In plaats daarvan zullen we een lijn trekken die door het midden van de punten gaat en de algemene lineaire trend van de gegevens weergeeft.
Terwijl we naar de punten in onze grafiek kijken en een lijn door deze punten willen trekken, rijst een vraag. Welke lijn moeten we trekken? Er is een oneindig aantal lijnen dat kan worden getekend. Door alleen onze ogen te gebruiken, is het duidelijk dat elke persoon die naar de spreidingsplot kijkt, een iets andere lijn kan produceren. Deze dubbelzinnigheid is een probleem. We willen voor iedereen een goed gedefinieerde manier hebben om dezelfde lijn te krijgen. Het doel is om een wiskundig nauwkeurige beschrijving te hebben van welke lijn moet worden getrokken. De regressielijn met de minste vierkanten is zo'n lijn door onze gegevenspunten.
De naam van de kleinste vierkantenlijn legt uit wat het doet. We beginnen met een verzameling punten met coördinaten gegeven door (Xik, Yik). Elke rechte lijn gaat tussen deze punten en gaat boven of onder elk van deze punten. We kunnen de afstanden van deze punten tot de lijn berekenen door een waarde van te kiezen X en vervolgens het waargenomene af te trekken Y coördinaat die hiermee overeenkomt X van de Y coördinaat van onze lijn.
Verschillende lijnen door dezelfde reeks punten zouden een andere reeks afstanden geven. We willen dat deze afstanden zo klein zijn als we kunnen maken. Maar er is een probleem. Omdat onze afstanden positief of negatief kunnen zijn, zal het totaal van al deze afstanden elkaar opheffen. De som van afstanden is altijd gelijk aan nul.
De oplossing voor dit probleem is om alle negatieve getallen te elimineren door de afstanden tussen de punten en de lijn te kwadrateren. Dit geeft een verzameling niet-negatieve getallen. Het doel dat we hadden om een best passende lijn te vinden, is hetzelfde als de som van deze gekwadrateerde afstanden zo klein mogelijk maken. Calculus komt hier te hulp. Het differentiatieproces in de calculus maakt het mogelijk om de som van de gekwadrateerde afstanden tot een bepaalde lijn te minimaliseren. Dit verklaart de uitdrukking "minste vierkanten" in onze naam voor deze regel.
Aangezien de kleinste vierkantenlijn de gekwadrateerde afstanden tussen de lijn en onze punten minimaliseert, kunnen we deze lijn beschouwen als de lijn die het beste bij onze gegevens past. Daarom wordt de lijn met de kleinste vierkanten ook wel de best passende lijn genoemd. Van alle mogelijke lijnen die kunnen worden getrokken, ligt de lijn met de kleinste vierkanten het dichtst bij de set gegevens als geheel. Dit kan betekenen dat onze lijn het missen van een van de punten in onze gegevensset mist.
Er zijn een paar functies die elke lijn met de minste vierkanten bezit. Het eerste aandachtspunt gaat over de helling van onze lijn. De helling heeft een verband met de correlatiecoëfficiënt van onze gegevens. In feite is de helling van de lijn gelijk aan r (sY/ sX). Hier s X geeft de standaardafwijking van de X coördinaten en s Y de standaardafwijking van de Y coördinaten van onze gegevens. Het teken van de correlatiecoëfficiënt is direct gerelateerd aan het teken van de helling van onze kleinste kwadratenlijn.
Een ander kenmerk van de kleinste vierkantenlijn betreft een punt waar het doorheen gaat. Terwijl de Y onderschepping van een kleinste kwadratenlijn is misschien niet interessant vanuit statistisch oogpunt, er is één punt dat is. Elke kleinste kwadratenlijn gaat door het middelpunt van de gegevens. Dit middelpunt heeft een X coördinaat dat is het gemiddelde van de X waarden en een Y coördinaat dat is het gemiddelde van de Y waarden.