Wat zijn binnen- en buitenomheiningen?

Een kenmerk van een gegevensset die belangrijk is om te bepalen, is of deze uitbijters bevat. Uitbijters worden intuïtief gezien als waarden in onze gegevensset die sterk verschillen van de meeste andere gegevens. Dit begrip van uitbijters is natuurlijk dubbelzinnig. Hoeveel moet de waarde afwijken van de rest van de gegevens om als uitbijter te worden beschouwd? Komt wat een onderzoeker een uitbijter noemt overeen met die van een ander? Om enige consistentie en een kwantitatieve maatstaf te bieden voor het bepalen van uitbijters, gebruiken we binnen- en buitenhekken.

Om de binnenste en buitenste hekken van een set gegevens te vinden, hebben we eerst een paar andere beschrijvende statistieken nodig. We beginnen met het berekenen van kwartielen. Dit zal leiden tot het interkwartielbereik. Ten slotte zullen we met deze berekeningen achter ons in staat zijn om de binnenste en buitenste hekken te bepalen.

kwartielen

Het eerste en derde kwartiel maken deel uit van de samenvatting met vijf cijfers van een reeks kwantitatieve gegevens. We beginnen met het vinden van de mediaan of het middenpunt van de gegevens nadat alle waarden in oplopende volgorde zijn weergegeven. De waarden kleiner dan de mediaan die overeenkomen met ruwweg de helft van de gegevens. We vinden de mediaan van deze helft van de gegevensset en dit is het eerste kwartiel.

Op dezelfde manier beschouwen we nu de bovenste helft van de gegevensset. Als we de mediaan voor deze helft van de gegevens vinden, hebben we het derde kwartiel. Deze kwartielen hebben hun naam te danken aan het feit dat ze de gegevensset in vier gelijke delen of kwartalen hebben gesplitst. Met andere woorden, ongeveer 25% van alle gegevenswaarden zijn minder dan het eerste kwartiel. Op vergelijkbare wijze is ongeveer 75% van de gegevenswaarden minder dan het derde kwartiel.

Interkwartielbereik

Vervolgens moeten we het interkwartielbereik (IQR) vinden. Dit is gemakkelijker te berekenen dan het eerste kwartiel q1 en het derde kwartiel q3. Het enige dat we moeten doen, is het verschil maken tussen deze twee kwartielen. Dit geeft ons de formule:

IQR = Q3 - Q1

De IQR vertelt ons hoe verspreid de middelste helft van onze dataset is.

Vind de innerlijke hekken

We kunnen nu de binnenste hekken vinden. We beginnen met de IQR en vermenigvuldigen dit aantal met 1,5. We trekken dit aantal vervolgens af van het eerste kwartiel. We voegen dit nummer ook toe aan het derde kwartiel. Deze twee getallen vormen onze innerlijke omheining.

Vind de buitenste hekken

Voor de buitenste hekken beginnen we met de IQR en vermenigvuldigen we dit getal met 3. We trekken dit getal vervolgens af van het eerste kwartiel en voegen het toe aan het derde kwartiel. Deze twee getallen zijn onze uiterlijke hekken.

Uitbijters detecteren

De detectie van uitbijters wordt nu net zo eenvoudig als het bepalen waar de gegevenswaarden liggen ten opzichte van onze binnen- en buitenhekken. Als een enkele gegevenswaarde extremer is dan een van onze buitenste omheiningen, is dit een uitbijter en wordt dit soms een sterke uitbijter genoemd. Als onze gegevenswaarde zich tussen een overeenkomstige binnenste en buitenste omheining bevindt, is deze waarde een vermoedelijke uitbijter of een milde uitbijter. We zullen zien hoe dit werkt met het onderstaande voorbeeld.

Voorbeeld

Stel dat we het eerste en derde kwartiel van onze gegevens hebben berekend en deze waarden hebben gevonden voor respectievelijk de 50 en 60. Het interkwartielbereik IQR = 60 - 50 = 10. Vervolgens zien we dat 1,5 x IQR = 15. Dit betekent dat de binnenste hekken op 50 - 15 = 35 en 60 + 15 = 75 zijn. Dit is 1,5 x IQR minder dan de eerste kwartiel en meer dan het derde kwartiel.

We berekenen nu 3 x IQR en zien dat dit 3 x 10 = 30 is. De buitenste hekken zijn 3 x IQR extremer dan het eerste en derde kwartiel. Dit betekent dat de buitenste hekken 50 - 30 = 20 en 60 + 30 = 90 zijn.

Gegevenswaarden die kleiner zijn dan 20 of groter dan 90, worden als uitschieters beschouwd. Gegevenswaarden tussen 29 en 35 of tussen 75 en 90 zijn vermoedelijke uitbijters.