Wat is normale verdeling?

Een normale datadistributie is er een waarin de meeste datapunten relatief vergelijkbaar zijn, wat betekent dat ze binnen een klein bereik van waarden voorkomen met minder uitbijters aan de hoge en lage uiteinden van het datumbereik.

Wanneer gegevens normaal worden gedistribueerd, resulteert het plotten ervan in een grafiek in een klokvormig en symmetrisch beeld dat vaak de belcurve wordt genoemd. In een dergelijke gegevensverdeling zijn gemiddelde, mediaan en modus allemaal dezelfde waarde en vallen ze samen met de piek van de curve.

In de sociale wetenschappen is een normale verdeling echter meer een theoretisch ideaal dan een gemeenschappelijke realiteit. Het concept en de toepassing ervan als een lens om gegevens te onderzoeken is via een handig hulpmiddel voor het identificeren en visualiseren van normen en trends binnen een gegevensset.

Eigenschappen van de normale verdeling

Een van de meest opvallende kenmerken van een normale verdeling is zijn vorm en perfecte symmetrie. Als je een afbeelding van een normale verdeling precies in het midden vouwt, kom je met twee gelijke helften, elk een spiegelbeeld van de andere. Dit betekent ook dat de helft van de waarnemingen in de gegevens aan weerszijden van het midden van de verdeling valt.

Het middelpunt van een normale verdeling is het punt met de maximale frequentie, dat wil zeggen het nummer of de antwoordcategorie met de meeste waarnemingen voor die variabele. Het middelpunt van de normale verdeling is ook het punt waarop drie metingen vallen: het gemiddelde, de mediaan en de modus. In een volkomen normale verdeling zijn deze drie maten allemaal hetzelfde nummer.

In alle normale of bijna normale verdelingen is er een constant deel van het gebied onder de curve dat tussen het gemiddelde en een gegeven afstand van het gemiddelde ligt, gemeten in standaarddeviatie-eenheden. In alle normale curves bijvoorbeeld, valt 99,73 procent van alle gevallen binnen drie standaarddeviaties van het gemiddelde, 95,45 procent van alle gevallen binnen twee standaarddeviaties van het gemiddelde en 68,27 procent van de gevallen binnen een standaarddeviatie van het gemiddelde.

Normale verdelingen worden vaak weergegeven in standaardscores of Z-scores. Dit zijn getallen die ons de afstand aangeven tussen een werkelijke score en het gemiddelde in termen van standaarddeviaties. De standaard normale verdeling heeft een gemiddelde van 0,0 en een standaarddeviatie van 1,0.

Voorbeelden en gebruik in de sociale wetenschappen

Hoewel een normale verdeling theoretisch is, zijn er verschillende variabelen die onderzoekers bestuderen die sterk lijken op een normale curve. Gestandaardiseerde testscores zoals de SAT, ACT en GRE lijken bijvoorbeeld typisch op een normale verdeling. Lengte, atletisch vermogen en tal van sociale en politieke opvattingen van een bepaalde populatie lijken meestal ook op een klokcurve.

Het ideaal van een normale distributie is ook nuttig als een vergelijkingspunt wanneer gegevens niet normaal worden verspreid. De meeste mensen nemen bijvoorbeeld aan dat de verdeling van het gezinsinkomen in de VS een normale verdeling zou zijn en lijkt op de klokcurve wanneer deze in een grafiek wordt uitgezet. Dit zou betekenen dat de meeste Amerikaanse burgers in het midden van het inkomen verdienen, of met andere woorden, dat er een gezonde middenklasse is. Ondertussen zouden de aantallen in de lagere economische klassen klein zijn, evenals de aantallen in de hogere klassen. De reële verdeling van het gezinsinkomen in de VS lijkt echter helemaal niet op een belcurve. De meerderheid van de huishoudens valt in de lage tot de lagere middenklasse, wat betekent dat er meer arme mensen zijn die worstelen om te overleven dan mensen die een comfortabel middenklasse-leven leiden. In dit geval is het ideaal van een normale verdeling nuttig om de inkomensongelijkheid te illustreren.

Wetenschap