De populatievariantie geeft een indicatie van hoe een dataset moet worden verspreid. Helaas is het meestal onmogelijk om precies te weten wat deze populatieparameter is. Om ons gebrek aan kennis te compenseren, gebruiken we een onderwerp uit inferentiële statistieken genaamd betrouwbaarheidsintervallen. We zullen een voorbeeld zien van het berekenen van een betrouwbaarheidsinterval voor een populatievariantie.
De formule voor het (1 - α) betrouwbaarheidsinterval over de populatievariantie. Wordt gegeven door de volgende reeks ongelijkheden:
[(n - 1)s2] / B < σ2 < [ (n - 1)s2] / EEN.
Hier n is de steekproefgrootte, s2 is de steekproefvariantie. Het nummer EEN is het punt van de chikwadraatverdeling met n -1 vrijheidsgraden waarbij precies α / 2 van het gebied onder de curve zich links van bevindt EEN. Op dezelfde manier is het nummer B is het punt van dezelfde chikwadraatverdeling met exact α / 2 van het gebied onder de curve rechts van B.
We beginnen met een gegevensset met 10 waarden. Deze set gegevenswaarden is verkregen door een eenvoudige willekeurige steekproef:
97, 75, 124, 106, 120, 131, 94, 97,96, 102
Enige verkennende gegevensanalyse zou nodig zijn om aan te tonen dat er geen uitbijters zijn. Door een stengel- en bladplot te construeren, zien we dat deze gegevens waarschijnlijk afkomstig zijn van een distributie die ongeveer normaal verdeeld is. Dit betekent dat we kunnen doorgaan met het vinden van een betrouwbaarheidsinterval van 95% voor de populatievariantie.
We moeten de populatievariantie schatten met de steekproefvariantie, aangegeven met s2. Dus we beginnen met het berekenen van deze statistiek. In wezen nemen we het gemiddelde van de som van de kwadratische afwijkingen van het gemiddelde. In plaats van deze som echter te delen door n we delen het door n - 1.
We vinden dat het steekproefgemiddelde 104.2 is. Hiermee gebruiken we de som van kwadratische afwijkingen van het gemiddelde gegeven door:
(97 - 104.2)2 + (75 - 104,3)2 +… + (96 - 104.2)2 + (102 - 104.2)2 = 2495,6
We delen deze som door 10 - 1 = 9 om een steekproefvariantie van 277 te verkrijgen.
We wenden ons nu tot onze chikwadraatverdeling. Omdat we 10 gegevenswaarden hebben, hebben we 9 vrijheidsgraden. Omdat we de middelste 95% van onze distributie willen, hebben we 2,5% in elk van de twee staarten nodig. We raadplegen een chi-square tafel of software en zien dat de tabelwaarden van 2.7004 en 19.023 95% van het gebied van de distributie beslaan. Deze cijfers zijn EEN en B, respectievelijk.
We hebben nu alles wat we nodig hebben en we zijn klaar om ons betrouwbaarheidsinterval samen te stellen. De formule voor het linker eindpunt is [(n - 1)s2] / B. Dit betekent dat ons linker eindpunt is:
(9 x 277) /19.023 = 133
Het juiste eindpunt wordt gevonden door te vervangen B met EEN:
(9 x 277) /2.7004 = 923
En dus zijn we er 95% zeker van dat de populatievariantie tussen 133 en 923 ligt.
Aangezien de standaarddeviatie de vierkantswortel van de variantie is, kan deze methode natuurlijk worden gebruikt om een betrouwbaarheidsinterval voor de populatiestandaarddeviatie te construeren. Het enige dat we zouden moeten doen, is vierkantswortels van de eindpunten nemen. Het resultaat zou een betrouwbaarheidsinterval van 95% zijn voor de standaarddeviatie.