Inzicht in het interkwartielbereik in de statistiek

Het interkwartielbereik (IQR) is het verschil tussen het eerste kwartiel en het derde kwartiel. De formule hiervoor is:

IQR = Q3 - Q1

Er zijn veel metingen van de variabiliteit van een set gegevens. Zowel het bereik als de standaarddeviatie vertellen ons hoe verspreid onze gegevens zijn. Het probleem met deze beschrijvende statistieken is dat ze vrij gevoelig zijn voor uitbijters. Een meting van de spreiding van een gegevensset die beter bestand is tegen de aanwezigheid van uitbijters is het interkwartielbereik.

Definitie van interkwartielbereik

Zoals hierboven gezien, is het interkwartielbereik gebaseerd op de berekening van andere statistieken. Voordat we het interkwartielbereik bepalen, moeten we eerst de waarden van het eerste kwartiel en het derde kwartiel kennen. (Natuurlijk zijn het eerste en derde kwartiel afhankelijk van de waarde van de mediaan).

Nadat we de waarden van het eerste en derde kwartiel hebben bepaald, is het interkwartielbereik heel eenvoudig te berekenen. Het enige dat we moeten doen, is het eerste kwartiel van het derde kwartiel aftrekken. Dit verklaart het gebruik van de term interkwartielbereik voor deze statistiek.

Voorbeeld

Om een ​​voorbeeld te zien van de berekening van een interkwartielbereik, zullen we de set gegevens beschouwen: 2, 3, 3, 4, 5, 6, 6, 7, 8, 8, 8, 9. De samenvatting met vijf cijfers hiervoor gegevensset is:

  • Minimaal 2
  • Eerste kwartiel van 3.5
  • Mediaan van 6
  • Derde kwartiel van 8
  • Maximaal 9

We zien dus dat het interkwartielbereik 8 - 3,5 = 4,5 is.

De betekenis van het interkwartielbereik

Het bereik geeft ons een meting van hoe verspreid onze volledige dataset is. Het interkwartielbereik, dat ons vertelt hoe ver het eerste en derde kwartiel uit elkaar liggen, geeft aan hoe verspreid de middelste 50% van onze gegevensset is.

Weerstand tegen uitbijters

Het primaire voordeel van het gebruik van het interkwartielbereik in plaats van het bereik voor het meten van de spreiding van een gegevensset, is dat het interkwartielbereik niet gevoelig is voor uitbijters. Om dit te zien, zullen we een voorbeeld bekijken.

Uit de bovenstaande gegevensset hebben we een interkwartielbereik van 3,5, een bereik van 9 - 2 = 7 en een standaardafwijking van 2,34. Als we de hoogste waarde van 9 vervangen door een extreme uitbijter van 100, dan wordt de standaardafwijking 27.37 en is het bereik 98. Hoewel we behoorlijk ingrijpende verschuivingen van deze waarden hebben, blijven het eerste en derde kwartiel onaangetast en dus het interkwartielbereik verandert niet.

Gebruik van het interkwartielbereik

Naast het feit dat het een minder gevoelige maat is voor de verspreiding van een gegevensset, heeft het interkwartielbereik nog een ander belangrijk nut. Vanwege de weerstand tegen uitbijters is het interkwartielbereik nuttig bij het identificeren wanneer een waarde een uitbijter is.

De interkwartielafstandsregel is wat ons informeert of we een milde of sterke uitbijter hebben. Om een ​​uitbijter te zoeken, moeten we onder het eerste kwartiel of boven het derde kwartiel kijken. Hoe ver we moeten gaan, hangt af van de waarde van het interkwartielbereik.