Kansverdeling in statistieken

Als je veel tijd besteedt aan het omgaan met statistieken, kom je al snel de uitdrukking "waarschijnlijkheidsverdeling" tegen. Het is hier dat we echt zien hoezeer de gebieden van waarschijnlijkheid en statistieken elkaar overlappen. Hoewel dit misschien als iets technisch klinkt, is de uitdrukking waarschijnlijkheidsverdeling eigenlijk gewoon een manier om te praten over het organiseren van een lijst met waarschijnlijkheden. Een kansverdeling is een functie of regel die kansen toewijst aan elke waarde van een willekeurige variabele. De distributie kan in sommige gevallen worden vermeld. In andere gevallen wordt het gepresenteerd als een grafiek.

Voorbeeld

Stel dat we twee dobbelstenen gooien en dan de som van de dobbelstenen noteren. Er zijn bedragen van twee tot twaalf mogelijk. Elke som heeft een bepaalde waarschijnlijkheid om te voorkomen. We kunnen deze eenvoudig als volgt opsommen:

De som van 2 heeft een waarschijnlijkheid van 1/36
De som van 3 heeft een kans van 2/36
De som van 4 heeft een waarschijnlijkheid van 3/36
De som van 5 heeft een kans van 4/36
De som van 6 heeft een kans van 5/36
De som van 7 heeft een waarschijnlijkheid van 6/36
De som van 8 heeft een kans van 5/36
De som van 9 heeft een waarschijnlijkheid van 4/36
De som van 10 heeft een waarschijnlijkheid van 3/36
De som van 11 heeft een kans van 2/36
De som van 12 heeft een waarschijnlijkheid van 1/36

Deze lijst is een kansverdeling voor het waarschijnlijkheidsexperiment van twee dobbelstenen gooien. We kunnen het bovenstaande ook beschouwen als een kansverdeling van de willekeurige variabele die wordt gedefinieerd door te kijken naar de som van de twee dobbelstenen.

diagram

Een kansverdeling kan in een grafiek worden weergegeven, en soms helpt dit ons om kenmerken van de verdeling te tonen die niet duidelijk waren bij het lezen van de lijst met kansen. De willekeurige variabele wordt uitgezet langs de X-as en de bijbehorende waarschijnlijkheid is uitgezet langs de Y-as. Voor een discrete willekeurige variabele hebben we een histogram. Voor een continue willekeurige variabele hebben we de binnenkant van een vloeiende curve.

De waarschijnlijkheidsregels zijn nog steeds van kracht en manifesteren zich op een paar manieren. Aangezien waarschijnlijkheden groter zijn dan of gelijk zijn aan nul, moet de grafiek van een waarschijnlijkheidsverdeling hebben Y-coördinaten die niet negatief zijn. Een ander kenmerk van waarschijnlijkheden, namelijk dat men het maximum is dat de waarschijnlijkheid van een gebeurtenis kan zijn, verschijnt op een andere manier.

Gebied = Waarschijnlijkheid

De grafiek van een kansverdeling is zo opgebouwd dat gebieden kansen weergeven. Voor een discrete waarschijnlijkheidsverdeling berekenen we eigenlijk alleen de gebieden van rechthoeken. In de bovenstaande grafiek komen de gebieden van de drie balken overeenkomend met vier, vijf en zes overeen met de waarschijnlijkheid dat de som van onze dobbelstenen vier, vijf of zes is. De gebieden van alle balken zijn in totaal één.

In de standaard normale verdeling of belcurve hebben we een vergelijkbare situatie. Het gebied onder de curve tussen twee z waarden komt overeen met de kans dat onze variabele tussen die twee waarden valt. Bijvoorbeeld het gebied onder de belcurve voor -1 z.

Belangrijke distributies

Er zijn letterlijk oneindig veel kansverdelingen. Een lijst met enkele van de belangrijkste distributies volgt:

Binomiale verdeling - Geeft het aantal successen voor een reeks onafhankelijke experimenten met twee resultaten
Chi-kwadraatverdeling - Voor gebruik om te bepalen hoe dichtbij waargenomen hoeveelheden in een voorgesteld model passen
F-verdeling - Gebruikt bij de variantieanalyse (ANOVA)
Normale verdeling - De belcurve genoemd en is overal in de statistiek te vinden.
Student t distributie - Voor gebruik met kleine steekproeven van een normale verdeling

Wetenschap