Variantie en standaardafwijking

Wanneer we de variabiliteit van een set gegevens meten, zijn er twee nauw met elkaar verband houdende statistieken: de variantie en standaarddeviatie, die beide aangeven hoe verspreid de gegevenswaarden zijn en vergelijkbare stappen in hun berekening betrekken. Het grote verschil tussen deze twee statistische analyses is echter dat de standaarddeviatie de vierkantswortel van de variantie is.

Om de verschillen tussen deze twee waarnemingen van statistische spreiding te begrijpen, moet men eerst begrijpen wat elk vertegenwoordigt: variantie vertegenwoordigt alle gegevenspunten in een set en wordt berekend door het gemiddelde te nemen van de kwadratische afwijking van elk gemiddelde, terwijl de standaardafwijking een spreidingsmaat is rond het gemiddelde wanneer de centrale neiging wordt berekend via het gemiddelde.

Als een resultaat kan de variantie worden uitgedrukt als de gemiddelde kwadratische afwijking van de waarden van het gemiddelde of [kwadratische afwijking van het gemiddelde] gedeeld door het aantal waarnemingen en kan de standaarddeviatie worden uitgedrukt als de vierkantswortel van de variantie.

Constructie van variantie

Om het verschil tussen deze statistieken volledig te begrijpen, moeten we de berekening van de variantie begrijpen. De stappen voor het berekenen van de steekproefvariantie zijn als volgt:

  1. Bereken het steekproefgemiddelde van de gegevens.
  2. Zoek het verschil tussen het gemiddelde en elk van de gegevenswaarden.
  3. Vier deze verschillen.
  4. Tel de gekwadrateerde verschillen bij elkaar op.
  5. Deel deze som door één minder dan het totale aantal gegevenswaarden.

De redenen voor elk van deze stappen zijn als volgt:

  1. Het gemiddelde geeft het middelpunt of het gemiddelde van de gegevens aan.
  2. De verschillen met het gemiddelde helpen om de afwijkingen van dat gemiddelde te bepalen. Gegevenswaarden die ver van het gemiddelde liggen, zullen een grotere afwijking produceren dan waarden die dicht bij het gemiddelde liggen.
  3. De verschillen zijn vierkant, want als de verschillen worden opgeteld zonder te worden gekwadrateerd, is deze som nul.
  4. De toevoeging van deze kwadratische afwijkingen geeft een meting van de totale afwijking.
  5. De deling door één kleiner dan de steekproefgrootte levert een soort gemiddelde afwijking op. Dit ontkent het effect van het hebben van veel datapunten die elk bijdragen aan het meten van spreiding.

Zoals eerder vermeld, wordt de standaardafwijking eenvoudig berekend door de vierkantswortel van dit resultaat te vinden, die de absolute standaard van afwijking biedt, ongeacht het totale aantal gegevenswaarden.

Variantie en standaardafwijking

Wanneer we de variantie beschouwen, realiseren we ons dat er een groot nadeel is aan het gebruik ervan. Wanneer we de stappen van de berekening van de variantie volgen, geeft dit aan dat de variantie wordt gemeten in termen van vierkante eenheden omdat we de kwadratenverschillen in onze berekening hebben opgeteld. Als onze steekproefgegevens bijvoorbeeld worden gemeten in meters, worden de eenheden voor een afwijking in vierkante meters gegeven.

Om onze spreidingsmaatstaf te standaardiseren, moeten we de vierkantswortel van de variantie nemen. Dit zal het probleem van vierkante eenheden elimineren en ons een meting geven van de spreiding die dezelfde eenheden zal hebben als onze originele steekproef.

Er zijn veel formules in wiskundige statistieken die mooiere vormen hebben als we ze vermelden in termen van variantie in plaats van standaarddeviatie.