Chi-Square Goodness of Fit-test

De chikwadraat goedheid van fit-test is een variatie op de meer algemene chikwadraat test. De instelling voor deze test is een enkele categorische variabele die vele niveaus kan hebben. Vaak zullen we in deze situatie een theoretisch model in gedachten hebben voor een categorische variabele. Door dit model verwachten we dat bepaalde delen van de bevolking in elk van deze niveaus vallen. Een goedheid van fit-test bepaalt hoe goed de verwachte verhoudingen in ons theoretisch model overeenkomen met de realiteit.

Null en alternatieve hypothesen

De nul- en alternatieve hypotheses voor een goede fit-test zien er anders uit dan sommige van onze andere hypothesetests. Een reden hiervoor is dat een chikwadraat goedheid van fit-test een niet-parametrische methode is. Dit betekent dat onze test geen enkele populatieparameter betreft. De nulhypothese stelt dus niet dat een enkele parameter een bepaalde waarde aanneemt.

We beginnen met een categorische variabele met n niveaus en laten pik het aandeel van de bevolking op niveau zijn ik. Ons theoretisch model heeft waarden van qik voor elk van de verhoudingen. De verklaring van de nul- en alternatieve hypothesen is als volgt:

  • H0: p1 = q1, p2 = q2,... pn = qn
  • Heen: Voor minimaal één ik, pik is niet gelijk aan qik.

Werkelijke en verwachte tellingen

De berekening van een chikwadraat statistiek omvat een vergelijking tussen de werkelijke tellingen van variabelen uit de gegevens in onze eenvoudige willekeurige steekproef en de verwachte tellingen van deze variabelen. De werkelijke tellingen komen rechtstreeks uit onze steekproef. De manier waarop de verwachte tellingen worden berekend, is afhankelijk van de specifieke chikwadraattoets die we gebruiken.

Voor een goede fit-test hebben we een theoretisch model voor hoe onze gegevens moeten worden geproportioneerd. We vermenigvuldigen deze verhoudingen eenvoudig met de steekproefomvang n om onze verwachte tellingen te verkrijgen.

Computerteststatistiek

De chikwadraat statistiek voor goedheid van fit-test wordt bepaald door het vergelijken van de werkelijke en verwachte tellingen voor elk niveau van onze categorische variabele. De stappen voor het berekenen van de chikwadraat statistiek voor een goede fit-test zijn als volgt:

  1. Trek voor elk niveau de waargenomen telling af van de verwachte telling.
  2. Vier elk van deze verschillen.
  3. Deel elk van deze gekwadrateerde verschillen door de overeenkomstige verwachte waarde.
  4. Tel alle nummers van de vorige stap bij elkaar op. Dit is onze chikwadraat statistiek.

Als ons theoretisch model perfect overeenkomt met de waargenomen gegevens, zullen de verwachte tellingen geen enkele afwijking vertonen van de waargenomen tellingen van onze variabele. Dit betekent dat we een chikwadraat statistiek van nul hebben. In elke andere situatie zal de chikwadraat statistiek een positief getal zijn.

Graden van vrijheid

Het aantal vrijheidsgraden vereist geen moeilijke berekeningen. Het enige dat we moeten doen, is één aftrekken van het aantal niveaus van onze categorische variabele. Dit nummer zal ons informeren over welke van de oneindige chi-square distributies we moeten gebruiken.

Chi-kwadraat tabel en P-waarde

De chikwadraatstatistiek die we hebben berekend, komt overeen met een bepaalde locatie op een chikwadraatverdeling met het juiste aantal vrijheidsgraden. De p-waarde bepaalt de waarschijnlijkheid om een ​​extreme teststatistiek te verkrijgen, ervan uitgaande dat de nulhypothese waar is. We kunnen een tabel met waarden gebruiken voor een chikwadraatverdeling om de p-waarde van onze hypothesetest te bepalen. Als we statistische software beschikbaar hebben, kan deze worden gebruikt om een ​​betere schatting van de p-waarde te verkrijgen.

Beslissingsregel

We nemen onze beslissing om de nulhypothese te verwerpen op basis van een vooraf bepaald significantieniveau. Als onze p-waarde kleiner is dan of gelijk is aan dit significantieniveau, dan verwerpen we de nulhypothese. Anders verwerpen we de nulhypothese niet.