Een inleiding tot de Bell Curve

Een normale verdeling is meer algemeen bekend als een belcurve. Dit type curve verschijnt in de statistieken en in de echte wereld.

Nadat ik bijvoorbeeld een test in een van mijn klassen heb gegeven, wil ik graag een grafiek maken van alle scores. Ik schrijf meestal 10 puntenbereiken op, zoals 60-69, 70-79 en 80-89, en plaats vervolgens een telpunt voor elke testscore in dat bereik. Bijna elke keer als ik dit doe, ontstaat er een vertrouwde vorm. Een paar studenten doen het erg goed en een paar doen het erg slecht. Een aantal scores eindigden rond de gemiddelde score. Verschillende tests kunnen resulteren in verschillende gemiddelden en standaarddeviaties, maar de vorm van de grafiek is bijna altijd hetzelfde. Deze vorm wordt meestal de belcurve genoemd.

Waarom zou je het een bell curve noemen? De belcurve krijgt zijn naam simpelweg omdat zijn vorm lijkt op die van een bel. Deze curven verschijnen gedurende de hele studie van statistieken en hun belang kan niet genoeg worden benadrukt.

Wat is een belcurve?

Om technisch te zijn, worden de soorten belcurven waar we het meest om geven in de statistiek eigenlijk normale kansverdelingen genoemd. Voor wat volgt gaan we ervan uit dat de belcurven waar we het over hebben normale kansverdelingen zijn. Ondanks de naam "bell curve", worden deze curven niet bepaald door hun vorm. In plaats daarvan wordt een intimiderend ogende formule gebruikt als de formele definitie voor klokcurven.

Maar we hoeven ons echt geen zorgen te maken over de formule. De enige twee getallen waar we om geven, zijn het gemiddelde en de standaarddeviatie. De klokcurve voor een gegeven set gegevens heeft het midden op het gemiddelde. Dit is waar het hoogste punt van de curve of "bovenkant van de bel" zich bevindt. De standaarddeviatie van een gegevensset bepaalt hoe verspreid onze belcurve is. Hoe groter de standaardafwijking, hoe meer de curve wordt gespreid.

Belangrijke kenmerken van een belcurve

Er zijn verschillende functies van belcurven die belangrijk zijn en deze onderscheiden van andere curven in statistieken:

Een belcurve heeft één modus, die samenvalt met het gemiddelde en de mediaan. Dit is het midden van de curve waar deze het hoogst is.
Een belcurve is symmetrisch. Als het gemiddeld langs een verticale lijn zou zijn gevouwen, zouden beide helften perfect overeenkomen omdat ze spiegelbeelden van elkaar zijn.
Een belcurve volgt de 68-95-99.7-regel, wat een handige manier is om geschatte berekeningen uit te voeren:
- Ongeveer 68% van alle gegevens ligt binnen één standaardafwijking van het gemiddelde.
- Ongeveer 95% van alle gegevens valt binnen twee standaarddeviaties van het gemiddelde.
- Ongeveer 99,7% van de gegevens valt binnen drie standaarddeviaties van het gemiddelde.

Een voorbeeld

Als we weten dat een klokcurve onze gegevens modelleert, kunnen we de bovenstaande functies van de klokcurve gebruiken om heel wat te zeggen. Stel dat we 100 studenten hebben die een statistiekentest hebben gedaan met een gemiddelde score van 70 en een standaarddeviatie van 10.

De standaarddeviatie is 10. Trek af en tel 10 bij het gemiddelde op. Dit geeft ons 60 en 80. Volgens de 68-95-99.7-regel verwachten we dat ongeveer 68% van de 100 of 68 studenten scoren tussen 60 en 80 op de test.

Twee keer is de standaarddeviatie 20. Als we aftrekken en 20 optellen bij het gemiddelde hebben we 50 en 90. We verwachten dat ongeveer 95% van de 100 of 95 studenten scoren tussen 50 en 90 op de test.

Een vergelijkbare berekening vertelt ons dat iedereen effectief tussen de 40 en 100 scoorde op de test.

Gebruik van de Bell Curve

Er zijn veel toepassingen voor belcurven. Ze zijn belangrijk in de statistiek omdat ze een grote verscheidenheid aan gegevens uit de praktijk modelleren. Zoals hierboven vermeld, zijn testresultaten één plaats waar ze opduiken. Hier zijn enkele anderen:

Herhaalde metingen van een apparaat
Metingen van kenmerken in de biologie
Kansgebeurtenissen bij benadering zoals een munt meerdere keren omdraaien
Hoogten van studenten op een bepaald niveau in een schooldistrict

Wanneer de belcurve niet gebruiken?

Hoewel er talloze toepassingen van belcurven zijn, is het niet geschikt om in alle situaties te gebruiken. Sommige statistische gegevenssets, zoals uitval van apparatuur of inkomensverdelingen, hebben verschillende vormen en zijn niet symmetrisch. Andere keren kunnen er twee of meer modi zijn, bijvoorbeeld wanneer verschillende studenten het heel goed doen en verschillende studenten het slecht doen op een toets. Deze toepassingen vereisen het gebruik van andere curven die anders zijn gedefinieerd dan de belcurve. Kennis over hoe de set gegevens in kwestie is verkregen, kan helpen bepalen of een belcurve moet worden gebruikt om de gegevens weer te geven of niet.

Wetenschap