De centrale limietstelling is een resultaat van de waarschijnlijkheidstheorie. Deze stelling verschijnt op een aantal plaatsen op het gebied van statistiek. Hoewel de centrale limietstelling abstract kan lijken en zonder enige toepassing, is deze stelling eigenlijk heel belangrijk voor de praktijk van statistiek.
Dus wat is precies het belang van de centrale limietstelling? Het heeft allemaal te maken met de verdeling van onze bevolking. Met deze stelling kunt u problemen in de statistiek vereenvoudigen door u te laten werken met een verdeling die ongeveer normaal is.
De uitspraak van de centrale limietstelling kan behoorlijk technisch lijken, maar kan worden begrepen als we de volgende stappen doordenken. We beginnen met een eenvoudige willekeurige steekproef met n personen uit een interessante populatie. Uit deze steekproef kunnen we gemakkelijk een steekproefgemiddelde vormen die overeenkomt met het gemiddelde van welke meting we nieuwsgierig zijn in onze populatie.
Een steekproefverdeling voor het steekproefgemiddelde wordt geproduceerd door herhaaldelijk eenvoudige willekeurige steekproeven uit dezelfde populatie en van dezelfde grootte te selecteren en vervolgens het steekproefgemiddelde voor elk van deze steekproeven te berekenen. Deze monsters moeten worden beschouwd als onafhankelijk van elkaar.
De centrale limietstelling betreft de steekproefverdeling van de steekproefgemiddelden. We kunnen vragen stellen over de algehele vorm van de steekproefverdeling. De centrale limietstelling zegt dat deze bemonsteringsverdeling ongeveer normaal is, algemeen bekend als een belcurve. Deze benadering verbetert naarmate we de grootte van de eenvoudige steekproeven vergroten die worden gebruikt om de steekproefverdeling te produceren.
Er is een zeer verrassend kenmerk met betrekking tot de centrale limietstelling. Het verbazingwekkende feit is dat deze stelling zegt dat een normale verdeling ontstaat, ongeacht de initiële verdeling. Zelfs als onze populatie een scheve verdeling heeft, wat zich voordoet wanneer we dingen zoals inkomens of het gewicht van mensen onderzoeken, is een steekproefverdeling voor een steekproef met een voldoende grote steekproefomvang normaal.
De onverwachte verschijning van een normale verdeling van een bevolkingsverdeling die scheef is (zelfs vrij zwaar scheef) heeft enkele zeer belangrijke toepassingen in de statistische praktijk. Veel praktijken in de statistiek, zoals die met hypothesetests of betrouwbaarheidsintervallen, maken enkele veronderstellingen over de populatie waaruit de gegevens zijn verkregen. Een veronderstelling die in eerste instantie in een statistiekcursus wordt gemaakt, is dat de populaties waarmee we werken normaal verdeeld zijn.
De veronderstelling dat gegevens afkomstig zijn van een normale distributie vereenvoudigt de zaken maar lijkt een beetje onrealistisch. Uit een klein beetje gegevens uit de praktijk blijkt dat uitschieters, scheefheid, meerdere pieken en asymmetrie nogal routinematig verschijnen. We kunnen het probleem van gegevens van een populatie omzeilen die niet normaal is. Het gebruik van een geschikte steekproefgrootte en de centrale limietstelling helpen ons het probleem van gegevens van niet-normale populaties te omzeilen.
Dus, hoewel we misschien niet de vorm kennen van de distributie waar onze gegevens vandaan komen, zegt de centrale limietstelling dat we de steekproefverdeling kunnen behandelen alsof het normaal was. Om de conclusies van de stelling vast te houden, hebben we natuurlijk een steekproefgrootte nodig die groot genoeg is. Exploratieve data-analyse kan ons helpen te bepalen hoe groot een steekproef nodig is voor een bepaalde situatie.