Definities en gebruik van kwantielen

Overzichtsstatistieken zoals het mediaan, het eerste kwartiel en het derde kwartiel zijn positiemetingen. Dit komt omdat deze cijfers aangeven waar een bepaald deel van de gegevensverdeling ligt. De mediaan is bijvoorbeeld de middelste positie van de gegevens die worden onderzocht. De helft van de gegevens heeft waarden kleiner dan de mediaan. Evenzo heeft 25% van de gegevens waarden lager dan het eerste kwartiel en 75% van de gegevens heeft waarden lager dan het derde kwartiel.

Dit concept kan worden gegeneraliseerd. Een manier om dit te doen is om percentielen te overwegen. Het 90e percentiel geeft het punt aan waar 90% van de gegevens waarden hebben die lager zijn dan dit aantal. Meer in het algemeen, de phet percentiel is het getal n waarvoor p% van de gegevens is minder dan n.

Continue willekeurige variabelen

Hoewel de ordestatistieken van mediaan, eerste kwartiel en derde kwartiel doorgaans worden geïntroduceerd in een omgeving met een discrete set gegevens, kunnen deze statistieken ook worden gedefinieerd voor een continue willekeurige variabele. Omdat we werken met een continue distributie gebruiken we de integraal. De phet percentiel is een getal n zoals dat:

-₶n f ( X ) dx = p/ 100.

Hier f ( X ) is een kansdichtheidsfunctie. Zo kunnen we elk percentiel verkrijgen dat we willen voor een continue distributie.

kwantielen

Een verdere generalisatie is dat onze orderstatistieken de verdeling splitsen waarmee we werken. De mediaan splitst de gegevensset in de helft, en de mediaan, of het 50e percentiel van een continue verdeling, splitst de verdeling in termen van oppervlakte. Het eerste kwartiel, mediaan en derde kwartiel verdelen onze gegevens in vier stukken met dezelfde telling in elk. We kunnen de bovenstaande integraal gebruiken om het 25e, 50e en 75e percentiel te verkrijgen en een continue verdeling in vier delen van hetzelfde gebied te splitsen.

We kunnen deze procedure generaliseren. De vraag waarmee we kunnen beginnen, krijgt een natuurlijk nummer n, hoe kunnen we de verdeling van een variabele in splitsen n even grote stukken? Dit spreekt rechtstreeks naar het idee van kwantielen.

De n kwantielen voor een gegevensset worden ongeveer gevonden door de gegevens in volgorde te rangschikken en deze rangorde vervolgens te splitsen n - 1 punten met gelijke tussenruimte op het interval.

Als we een kansdichtheidsfunctie hebben voor een continue willekeurige variabele, gebruiken we de bovenstaande integraal om de kwantielen te vinden. Voor n kwantielen, we willen:

  • De eerste die 1 /n van het gebied van de verdeling links ervan.
  • De tweede die 2 /n van het gebied van de verdeling links ervan.
  • De rth te hebben r/n van het gebied van de verdeling links ervan.
  • De laatste om (n - 1) /n van het gebied van de verdeling links ervan.

We zien dat voor elk natuurlijk getal n, de n kwantielen komen overeen met de 100r/nth percentielen, waar r kan elk natuurlijk getal van 1 tot en met zijn n - 1.

Gemeenschappelijke kwantielen

Bepaalde soorten kwantielen worden gewoonlijk voldoende gebruikt om specifieke namen te hebben. Hieronder is een lijst hiervan:

  • De 2 kwantiel wordt de mediaan genoemd
  • De 3 kwantielen worden terciles genoemd
  • De 4 kwantielen worden kwartielen genoemd
  • De 5 kwantielen worden quintielen genoemd
  • De 6 kwantielen worden sextielen genoemd
  • De 7 kwantielen worden septielen genoemd
  • De 8 kwantielen worden octielen genoemd
  • De 10 kwantielen worden decielen genoemd
  • De 12 kwantielen worden duodeciles genoemd
  • De 20 kwantielen worden vigintiles genoemd
  • De 100 kwantielen worden percentielen genoemd
  • De 1000 kwantielen worden permilles genoemd

Natuurlijk bestaan ​​er andere kwantielen dan die in de bovenstaande lijst. Vaak komt de gebruikte specifieke kwantiel overeen met de grootte van het monster uit een continue distributie.

Gebruik van kwantielen

Naast het specificeren van de positie van een set gegevens, zijn kwantielen op andere manieren nuttig. Stel dat we een eenvoudige steekproef van een populatie hebben en dat de verdeling van de populatie onbekend is. Om te helpen bepalen of een model, zoals een normale distributie of Weibull-distributie, geschikt is voor de populatie waaruit we hebben gesampled, kunnen we kijken naar de kwantielen van onze gegevens en het model.

Door de kwantielen uit onze steekproefgegevens te vergelijken met de kwantielen uit een bepaalde waarschijnlijkheidsverdeling, is het resultaat een verzameling gepaarde gegevens. We plotten deze gegevens in een spreidingsdiagram, bekend als een kwantiel-kwantiel plot of q-q plot. Als het resulterende spreidingsdiagram ruwweg lineair is, is het model geschikt voor onze gegevens.