Een histogram is een van de vele soorten grafieken die vaak worden gebruikt in statistieken en waarschijnlijkheid. Histogrammen bieden een visuele weergave van kwantitatieve gegevens door het gebruik van verticale balken. De hoogte van een balk geeft het aantal gegevenspunten aan dat binnen een bepaald waardenbereik ligt. Deze bereiken worden klassen of opslaglocaties genoemd.
Er is echt geen regel voor hoeveel klassen er moeten zijn. Er zijn een aantal dingen om over na te denken over het aantal klassen. Als er slechts één klasse was, zouden alle gegevens in deze klasse vallen. Ons histogram zou eenvoudig een enkele rechthoek zijn met hoogte, gegeven door het aantal elementen in onze gegevensset. Dit zou geen erg nuttig of nuttig histogram zijn.
Aan het andere uiterste zouden we een veelvoud aan klassen kunnen hebben. Dit zou resulteren in een veelheid aan repen, die waarschijnlijk niet erg groot zouden zijn. Het zou heel moeilijk zijn om onderscheidende kenmerken uit de gegevens te bepalen met behulp van dit type histogram.
Om ons tegen deze twee uitersten te beschermen, hebben we een vuistregel om het aantal klassen voor een histogram te bepalen. Wanneer we een relatief kleine set gegevens hebben, gebruiken we meestal slechts ongeveer vijf klassen. Als de gegevensset relatief groot is, gebruiken we ongeveer 20 klassen.
Ik wil nogmaals benadrukken dat dit een vuistregel is, geen absoluut statistisch principe. Er kunnen goede redenen zijn om een ander aantal gegevensklassen te gebruiken. We zullen hieronder een voorbeeld hiervan zien.
Voordat we een paar voorbeelden bekijken, zullen we zien hoe we kunnen bepalen wat de klassen eigenlijk zijn. We beginnen dit proces door het bereik van onze gegevens te vinden. Met andere woorden, we trekken de laagste gegevenswaarde af van de hoogste gegevenswaarde.
Wanneer de gegevensset relatief klein is, delen we het bereik door vijf. Het quotiënt is de breedte van de klassen voor ons histogram. We zullen waarschijnlijk wat afronding moeten doen in dit proces, wat betekent dat het totale aantal klassen misschien niet vijf wordt.
Wanneer de gegevensset relatief groot is, delen we het bereik door 20. Net als voorheen geeft dit deelprobleem ons de breedte van de klassen voor ons histogram. Zoals we eerder zagen, kan onze afronding ook resulteren in iets meer of iets minder dan 20 klassen.
In beide gevallen van grote of kleine gegevensset laten we de eerste klasse beginnen op een punt dat iets minder is dan de kleinste gegevenswaarde. We moeten dit op een zodanige manier doen dat de eerste gegevenswaarde in de eerste klasse valt. Andere opeenvolgende klassen worden bepaald door de breedte die was ingesteld toen we het bereik verdeelden. We weten dat we in de laatste klasse zitten wanneer onze hoogste gegevenswaarde in deze klasse ligt.
Voor een voorbeeld zullen we een geschikte klassenbreedte en klassen bepalen voor de gegevensset: 1.1, 1.9, 2.3, 3.0, 3.2, 4.1, 4.2, 4.4, 5.5, 5.5, 5.6, 5.7, 5.9, 6.2, 7.1, 7.9, 8.3 , 9,0, 9,2, 11,1, 11,2, 14,4, 15,5, 15,5, 16,7, 18,9, 19,2.
We zien dat er 27 datapunten in onze set zijn. Dit is een relatief kleine set en daarom zullen we het bereik door vijf delen. Het bereik is 19,2 - 1,1 = 18,1. We delen 18.1 / 5 = 3.62. Dit betekent dat een klassebreedte van 4 geschikt zou zijn. Onze kleinste gegevenswaarde is 1.1, dus we beginnen de eerste klasse op een punt minder dan dit. Omdat onze gegevens uit positieve getallen bestaan, zou het logisch zijn om de eerste klasse van 0 naar 4 te laten gaan.
De klassen die resulteren zijn:
Er kunnen enkele zeer goede redenen zijn om af te wijken van sommige van de bovenstaande adviezen.
Stel dat er een meerkeuzetest is met 35 vragen en 1000 studenten op een middelbare school doen de test. We willen een histogram vormen met het aantal studenten dat bepaalde scores op de test heeft behaald. We zien dat 35/5 = 7 en die 35/20 = 1,75. Ondanks onze vuistregel die ons de keuzes van klassen met breedte 2 of 7 geeft om te gebruiken voor ons histogram, is het misschien beter om klassen met breedte 1 te hebben. Deze klassen komen overeen met elke vraag die een student correct op de test heeft beantwoord. De eerste zou gecentreerd worden op 0 en de laatste zou gecentreerd worden op 35.
Dit is nog een ander voorbeeld dat laat zien dat we altijd moeten nadenken bij het omgaan met statistieken.