Wat is de standaard normale verdeling?

Bell curves verschijnen in de statistieken. Diverse metingen, zoals diameters van zaden, lengtes van visvinnen, scores op de SAT en gewichten van individuele vellen van een pak papier vormen allemaal klokkrommen wanneer ze in een grafiek worden weergegeven. De algemene vorm van al deze curven is hetzelfde. Maar al deze curven zijn verschillend omdat het zeer onwaarschijnlijk is dat een van hen dezelfde gemiddelde of standaarddeviatie deelt. Klokkrommen met grote standaardafwijkingen zijn breed en klokkrommen met kleine standaardafwijkingen zijn dun. Klokkrommen met grotere middelen zijn meer naar rechts verschoven dan die met kleinere middelen.

Een voorbeeld

Om dit wat concreter te maken, laten we doen alsof we de diameters van 500 korrels maïs meten. Vervolgens registreren, analyseren en plotten we die gegevens. Het blijkt dat de gegevensset de vorm heeft van een klokkromme en een gemiddelde heeft van 1,2 cm met een standaardafwijking van 0,4 cm. Stel nu dat we hetzelfde doen met 500 bonen en dat we een gemiddelde diameter van 0,8 cm hebben met een standaardafwijking van 0,04 cm.

De belcurven van beide datasets zijn hierboven uitgezet. De rode curve komt overeen met de maïsgegevens en de groene curve komt overeen met de boongegevens. Zoals we kunnen zien, zijn de middelpunten en spreidingen van deze twee curven verschillend.

Dit zijn duidelijk twee verschillende belcurven. Ze zijn verschillend omdat hun middelen en standaardafwijkingen niet overeenkomen. Aangezien interessante gegevenssets die we tegenkomen, elk positief getal als standaarddeviatie kunnen hebben, en elk getal als gemiddelde, krassen we eigenlijk alleen maar op het oppervlak van een eindeloos aantal belcurven. Dat zijn veel bochten en veel te veel om mee om te gaan. Wat is de oplossing??

Een heel speciale klokcurve

Een doel van wiskunde is om dingen waar mogelijk te generaliseren. Soms zijn verschillende individuele problemen speciale gevallen van een enkel probleem. Deze situatie met klokcurven is daar een goede illustratie van. In plaats van een oneindig aantal belcurven te behandelen, kunnen we ze allemaal aan een enkele curve relateren. Deze speciale klokcurve wordt de standaard klokcurve of standaard normale verdeling genoemd.

De standaard klokcurve heeft een gemiddelde van nul en een standaardafwijking van één. Elke andere belcurve kan met deze standaard worden vergeleken door middel van een eenvoudige berekening.

Kenmerken van de standaard normale verdeling

Alle eigenschappen van elke belcurve gelden voor de standaard normale verdeling.

De standaard normale verdeling heeft niet alleen een gemiddelde van nul, maar ook een mediaan en een modus van nul. Dit is het midden van de curve.
De standaard normale verdeling vertoont spiegelsymmetrie bij nul. De helft van de curve is links van nul en de helft van de curve is rechts. Als de curve op nul langs een verticale lijn zou worden gevouwen, zouden beide helften perfect overeenkomen.
De standaard normale verdeling volgt de 68-95-99.7-regel, wat ons een gemakkelijke manier geeft om het volgende te schatten:
- Ongeveer 68% van alle gegevens ligt tussen -1 en 1.
- Ongeveer 95% van alle gegevens ligt tussen -2 en 2.
- Ongeveer 99,7% van alle gegevens ligt tussen -3 en 3.

Waarom wij schelen

Op dit punt kunnen we ons afvragen: “Waarom moeite doen met een standaard klokcurve?” Het lijkt misschien een onnodige complicatie, maar de standaard klokcurve zal nuttig zijn als we doorgaan in de statistieken.

We zullen ontdekken dat een type probleem in de statistiek vereist dat we gebieden zoeken onder delen van elke belcurve die we tegenkomen. De belcurve is geen mooie vorm voor gebieden. Het is niet zoals een rechthoek of rechthoekige driehoek met eenvoudige gebiedsformules. Het vinden van gebieden van delen van een belcurve kan lastig zijn, zo moeilijk zelfs, dat we wat calculus zouden moeten gebruiken. Als we onze klokkrommen niet standaardiseren, moeten we elke keer een berekening maken als we een gebied willen vinden. Als we onze curven standaardiseren, is al het werk voor het berekenen van gebieden voor ons gedaan.

Wetenschap