Wat is scheeftrekking in de statistiek?

Sommige gegevensdistributies, zoals de belcurve of normale verdeling, zijn symmetrisch. Dit betekent dat rechts en links van de verdeling perfecte spiegelbeelden van elkaar zijn. Niet elke gegevensverdeling is symmetrisch. Van gegevenssets die niet symmetrisch zijn, wordt gezegd dat ze asymmetrisch zijn. De maat voor hoe asymmetrisch een verdeling kan zijn, wordt scheefheid genoemd.

Het gemiddelde, de mediaan en de modus zijn allemaal metingen van het midden van een set gegevens. De scheefheid van de gegevens kan worden bepaald door hoe deze hoeveelheden aan elkaar zijn gerelateerd.

Scheef naar rechts

Gegevens die scheef naar rechts staan, hebben een lange staart die zich naar rechts uitstrekt. Een alternatieve manier om te praten over een naar rechts scheve gegevensset is te zeggen dat deze positief scheef staat. In deze situatie zijn het gemiddelde en de mediaan beide groter dan de modus. Over het algemeen is het gemiddelde van de gegevens meestal naar rechts verschoven, het gemiddelde is groter dan de mediaan. Samenvattend, voor een gegevensset die naar rechts is scheefgetrokken:

Altijd: betekent groter dan de modus
Altijd: mediaan groter dan de modus
Meestal: gemiddelde groter dan mediaan

Scheef naar links

De situatie keert zichzelf om als we te maken hebben met naar links scheefstaande gegevens. Gegevens die scheef naar links staan, hebben een lange staart die zich naar links uitstrekt. Een alternatieve manier om te praten over een scheve gegevensset naar links is om te zeggen dat deze negatief is. In deze situatie zijn het gemiddelde en de mediaan beide minder dan de modus. Over het algemeen is het gemiddelde voor gegevens die naar links worden getrokken, meestal minder dan de mediaan. Samengevat, voor een gegevensset die naar links is scheef:

Altijd: minder betekenen dan de modus
Altijd: mediaan minder dan de modus
Meestal: gemiddeld minder dan mediaan

Maatregelen van scheefheid

Het is één ding om naar twee gegevenssets te kijken en te bepalen dat de ene symmetrisch is en de andere asymmetrisch. Het is een ander om naar twee sets asymmetrische gegevens te kijken en te zeggen dat de ene meer scheef staat dan de andere. Het kan heel subjectief zijn om te bepalen welke meer scheef staat door simpelweg naar de grafiek van de verdeling te kijken. Daarom zijn er manieren om de mate van scheefheid numeriek te berekenen.

Een maat voor scheefheid, de eerste scheefheidscoëfficiënt van Pearson, is om het gemiddelde van de modus af te trekken en dit verschil vervolgens te delen door de standaardafwijking van de gegevens. De reden om het verschil te verdelen, is omdat we een dimensieloze hoeveelheid hebben. Dit verklaart waarom gegevens die naar rechts zijn scheef, een positieve scheefheid hebben. Als de gegevensverzameling scheef naar rechts staat, is het gemiddelde groter dan de modus en geeft het aftrekken van de modus van het gemiddelde een positief getal. Een soortgelijk argument verklaart waarom naar links scheefstaande gegevens negatieve scheefheid hebben.

De tweede scheefheidscoëfficiënt van Pearson wordt ook gebruikt om de asymmetrie van een gegevensset te meten. Voor deze hoeveelheid trekken we de modus af van de mediaan, vermenigvuldigen dit getal met drie en delen vervolgens door de standaarddeviatie.

Toepassingen van scheve gegevens

Skewed-gegevens ontstaan vrij natuurlijk in verschillende situaties. Inkomens zijn scheef naar rechts omdat slechts een paar individuen die miljoenen dollars verdienen het gemiddelde aanzienlijk kunnen beïnvloeden, en er zijn geen negatieve inkomens. Evenzo staan gegevens over de levensduur van een product, zoals een gloeilamp, naar rechts. Hier is de kleinste die een leven lang kan zijn nul, en duurzame gloeilampen zullen een positieve scheefheid aan de gegevens verlenen.

Wetenschap