Vrijheidsgraden voor onafhankelijkheid van variabelen in tweerichtings tabel

Het aantal vrijheidsgraden van twee categorische variabelen wordt gegeven door een eenvoudige formule: (r - 1) (c - 1). Hier r is het aantal rijen en c is het aantal kolommen in de bidirectionele tabel van de waarden van de categorische variabele. Lees verder voor meer informatie over dit onderwerp en om te begrijpen waarom deze formule het juiste aantal geeft.

Achtergrond

Een stap in het proces van veel hypothesetests is de bepaling van het aantal vrijheidsgraden. Dit aantal is belangrijk omdat voor kansverdelingen waarbij een familie van verdelingen is betrokken, zoals de chi-kwadraatverdeling, het aantal vrijheidsgraden de exacte verdeling van de familie aangeeft die we in onze hypothesetest moeten gebruiken..

Vrijheidsgraden vertegenwoordigen het aantal vrije keuzes dat we in een bepaalde situatie kunnen maken. Een van de hypothesetests waarvoor we de vrijheidsgraden moeten bepalen, is de chikwadraat-test voor onafhankelijkheid voor twee categorische variabelen.

Tests voor onafhankelijkheid en tweerichtingstafels

De chikwadraat-test voor onafhankelijkheid vereist dat we een tweerichtings-tabel construeren, ook wel een onvoorziene tabel genoemd. Dit type tafel heeft r rijen en c kolommen, die de vertegenwoordigen r niveaus van één categorische variabele en de c niveaus van de andere categorische variabele. Als we dus niet de rij en kolom tellen waarin we totalen registreren, zijn er in totaal rc cellen in de tweerichtingstabel.

Met de chikwadraat-test voor onafhankelijkheid kunnen we de hypothese testen dat de categorische variabelen onafhankelijk van elkaar zijn. Zoals we hierboven vermeldden, de r rijen en c kolommen in de tabel geven ons (r - 1) (c - 1) vrijheidsgraden. Maar het is misschien niet meteen duidelijk waarom dit het juiste aantal vrijheidsgraden is.

Het aantal vrijheidsgraden

Om te zien waarom (r - 1) (c - 1) is het juiste nummer, we zullen deze situatie in meer detail onderzoeken. Stel dat we de marginale totalen kennen voor elk van de niveaus van onze categorische variabelen. Met andere woorden, we kennen het totaal voor elke rij en het totaal voor elke kolom. Voor de eerste rij zijn er c kolommen in onze tabel, dus die zijn er c cellen. Zodra we de waarden van alle cellen op één na kennen, is het een eenvoudig algebra-probleem om de waarde van de resterende cel te bepalen, omdat we het totaal van alle cellen kennen. Als we deze cellen van onze tabel zouden invullen, zouden we binnen kunnen komen c - 1 van hen vrij, maar dan wordt de resterende cel bepaald door het totaal van de rij. Zo zijn er c - 1 vrijheidsgraden voor de eerste rij.

We gaan op deze manier verder voor de volgende rij, en die zijn er weer c - 1 vrijheidsgraden. Dit proces gaat door totdat we bij de voorlaatste rij komen. Elk van de rijen behalve de laatste draagt ​​bij c - 1 vrijheidsgraden tot het totaal. Tegen de tijd dat we alles behalve de laatste rij hebben, kunnen we, omdat we de kolomsom kennen, alle items van de laatste rij bepalen. Dit geeft ons r - 1 rijen met c - 1 vrijheidsgraden in elk van deze, voor een totaal van (r - 1) (c - 1) vrijheidsgraden.

Voorbeeld

We zien dit met het volgende voorbeeld. Stel dat we een tabel met twee richtingen hebben met twee categorische variabelen. Een variabele heeft drie niveaus en de andere heeft twee. Stel verder dat we de rij- en kolomtotalen voor deze tabel kennen:

Niveau A Niveau B Totaal
Niveau 1 100
Level 2 200
Niveau 3 300
Totaal 200 400 600

De formule voorspelt dat er (3-1) (2-1) = 2 vrijheidsgraden zijn. We zien dit als volgt. Stel dat we de cel linksboven invullen met het getal 80. Dit bepaalt automatisch de hele eerste rij met vermeldingen:

Niveau A Niveau B Totaal
Niveau 1 80 20 100
Level 2 200
Niveau 3 300
Totaal 200 400 600

Als we nu weten dat het eerste item in de tweede rij 50 is, wordt de rest van de tabel ingevuld, omdat we het totaal van elke rij en kolom weten:

Niveau A Niveau B Totaal
Niveau 1 80 20 100
Level 2 50 150 200
Niveau 3 70 230 300
Totaal 200 400 600

De tafel is volledig ingevuld, maar we hadden slechts twee vrije keuzes. Toen deze waarden eenmaal bekend waren, was de rest van de tabel volledig bepaald.

Hoewel we meestal niet hoeven te weten waarom er zoveel vrijheidsgraden zijn, is het goed om te weten dat we het concept van vrijheidsgraden eigenlijk alleen toepassen op een nieuwe situatie.