Relatieve frequentiehistogrammen

In statistieken zijn er veel termen die subtiel onderscheid maken. Een voorbeeld hiervan is het verschil tussen frequentie en relatieve frequentie. Hoewel er veel toepassingen zijn voor relatieve frequenties, is er in het bijzonder een die betrekking heeft op een relatief frequentiehistogram. Dit is een type grafiek dat verbindingen heeft met andere onderwerpen in statistieken en wiskundige statistieken.

Definitie

Histogrammen zijn statistische grafieken die op staafgrafieken lijken. Meestal is de term histogram echter gereserveerd voor kwantitatieve variabelen. De horizontale as van een histogram is een getallenlijn met klassen of vakken van uniforme lengte. Deze bakken zijn intervallen van een getallenlijn waar gegevens kunnen vallen en kunnen bestaan ​​uit een enkel nummer (meestal voor discrete gegevenssets die relatief klein zijn) of een reeks waarden (voor grotere discrete gegevenssets en continue gegevens).

We kunnen bijvoorbeeld geïnteresseerd zijn in de verdeling van scores op een quiz van 50 punten voor een klas studenten. Een mogelijke manier om de bakken te bouwen, is om voor elke 10 punten een andere bak te hebben.

De verticale as van een histogram vertegenwoordigt de telling of frequentie waarmee een gegevenswaarde in elk van de laden voorkomt. Hoe hoger de balk, hoe meer gegevenswaarden binnen dit bereik van bin-waarden vallen. Om terug te keren naar ons voorbeeld, als we vijf studenten hebben die meer dan 40 punten hebben gescoord op de quiz, dan zal de balk die overeenkomt met de 40 tot 50 vak vijf eenheden hoog zijn.

Frequentiehistogramvergelijking

Een relatieve frequentiehistogram is een kleine wijziging van een typisch frequentiehistogram. In plaats van een verticale as te gebruiken voor het aantal gegevenswaarden dat in een bepaalde prullenbak valt, gebruiken we deze as om het totale aandeel van gegevenswaarden die in deze prullenbak vallen te vertegenwoordigen. Omdat 100% = 1, moeten alle balken een hoogte hebben van 0 tot 1. Verder moeten de hoogten van alle balken in ons relatieve frequentiehistogram optellen tot 1.

Veronderstel dus in het lopende voorbeeld dat we hebben bekeken dat er 25 studenten in onze klas zijn en vijf meer dan 40 punten hebben gescoord. In plaats van een balk van hoogte vijf te construeren voor deze bak, zouden we een balk van hoogte 5/25 = 0,2 hebben.

Als we een histogram vergelijken met een relatieve frequentiehistogram, elk met dezelfde bins, zullen we iets opmerken. De algehele vorm van de histogrammen zal identiek zijn. Een relatief frequentiehistogram benadrukt niet de totale tellingen in elke bin. In plaats daarvan concentreert dit type grafiek zich op hoe het aantal gegevenswaarden in de bin zich verhoudt tot de andere bins. De manier waarop deze relatie wordt weergegeven, is in percentages van het totale aantal gegevenswaarden.

Waarschijnlijkheid massa functies

We kunnen ons afvragen wat het punt is bij het definiëren van een relatieve frequentiehistogram. Eén belangrijke toepassing heeft betrekking op discrete willekeurige variabelen waarbij onze bakken van breedte één zijn en gecentreerd zijn rond elk niet-negatief geheel getal. In dit geval kunnen we een stuksgewijze functie definiëren met waarden die overeenkomen met de verticale hoogten van de staven in ons relatieve frequentiehistogram.

Dit type functie wordt een kansmassafunctie genoemd. De reden om de functie op deze manier te construeren, is dat de curve die wordt gedefinieerd door de functie een directe relatie heeft met waarschijnlijkheid. Het gebied onder de curve van de waarden een naar b is de kans dat de willekeurige variabele een waarde heeft van een naar b.

Het verband tussen waarschijnlijkheid en oppervlakte onder de curve is er een die herhaaldelijk voorkomt in wiskundige statistieken. Het gebruiken van een waarschijnlijkheidsmassafunctie om een ​​histogram met relatieve frequentie te modelleren is een andere dergelijke verbinding.