Statistische steekproeven worden vrij vaak in statistieken gebruikt. In dit proces willen we iets over een populatie bepalen. Omdat populaties doorgaans groot zijn, vormen we een statistische steekproef door een subset van de populatie te selecteren die een vooraf bepaalde grootte heeft. Door de steekproef te bestuderen kunnen we inferentiële statistieken gebruiken om iets over de populatie te bepalen.
Een statistische steekproef van grootte n betreft een enkele groep n individuen of onderwerpen die willekeurig zijn gekozen uit de populatie. Nauw verwant aan het concept van een statistische steekproef is een steekproefverdeling.
Een steekproefverdeling vindt plaats wanneer we meer dan één eenvoudige willekeurige steekproef van dezelfde grootte van een bepaalde populatie vormen. Deze monsters worden als onafhankelijk van elkaar beschouwd. Dus als een persoon in één steekproef zit, heeft hij dezelfde kans om in de volgende steekproef te worden opgenomen.
We berekenen een bepaalde statistiek voor elk monster. Dit kan een steekproefgemiddelde, een steekproefvariantie of een steekproefverhouding zijn. Aangezien een statistiek afhankelijk is van de steekproef die we hebben, zal elke steekproef doorgaans een andere waarde produceren voor de betreffende statistiek. Het bereik van de geproduceerde waarden is wat ons onze steekproefverdeling geeft.
We zullen bijvoorbeeld de steekproefverdeling voor het gemiddelde beschouwen. Het gemiddelde van een populatie is een parameter die typisch onbekend is. Als we een steekproef met grootte 100 selecteren, kan het gemiddelde van deze steekproef eenvoudig worden berekend door alle waarden bij elkaar op te tellen en vervolgens te delen door het totale aantal gegevenspunten, in dit geval 100. Eén steekproef met grootte 100 kan ons een gemiddelde geven van 50. Een ander dergelijk monster kan een gemiddelde van 49 hebben. Nog een 51 en een ander monster zou een gemiddelde van 50,5 kunnen hebben.
De verdeling van deze steekproefgemiddelden geeft ons een steekproefverdeling. We zouden meer dan slechts vier steekproefgemiddelden willen overwegen, zoals we hierboven hebben gedaan. Met nog enkele steekproefgemiddelden zouden we een goed idee hebben van de vorm van de steekproefverdeling.
Steekproefverdelingen lijken redelijk abstract en theoretisch. Er zijn echter enkele zeer belangrijke gevolgen van het gebruik hiervan. Een van de belangrijkste voordelen is dat we de variabiliteit elimineren die aanwezig is in statistieken.
Stel bijvoorbeeld dat we beginnen met een populatie met een gemiddelde van μ en standaarddeviatie van σ. De standaarddeviatie geeft ons een meting van hoe gespreid de verdeling is. We zullen dit vergelijken met een steekproefverdeling die wordt verkregen door eenvoudige willekeurige steekproeven van grootte te vormen n. De steekproefverdeling van het gemiddelde heeft nog steeds een gemiddelde van μ, maar de standaarddeviatie is anders. De standaarddeviatie voor een steekproefverdeling wordt σ / √ n.
We hebben dus het volgende
In de praktijk van statistiek vormen we zelden steekproefverdelingen. In plaats daarvan behandelen we statistieken die zijn afgeleid van een eenvoudige willekeurige steekproef van grootte n alsof ze één punt zijn langs een overeenkomstige steekproefverdeling. Dit benadrukt nogmaals waarom we relatief grote steekproefgroottes wensen. Hoe groter de steekproefgrootte, hoe minder variatie we zullen krijgen in onze statistiek.
Merk op dat we, behalve het midden en de spreiding, niets kunnen zeggen over de vorm van onze steekproefverdeling. Het blijkt dat onder sommige vrij brede omstandigheden de Central Limit Theorem kan worden toegepast om ons iets heel verbazingwekkends te vertellen over de vorm van een steekproefverdeling.