Voorbeeld van een ANOVA-berekening

Eén factoranalyse van variantie, ook bekend als ANOVA, geeft ons een manier om meerdere vergelijkingen van verschillende populatiegemiddelden te maken. In plaats van dit paarsgewijs te doen, kunnen we tegelijkertijd alle betrokken middelen bekijken. Om een ​​ANOVA-test uit te voeren, moeten we twee soorten variatie vergelijken, de variatie tussen de steekproefgemiddelden, en de variatie binnen elk van onze monsters.

We combineren al deze variatie in een enkele statistiek, genaamd de F statistiek omdat deze de F-verdeling gebruikt. We doen dit door de variatie tussen monsters te delen door de variatie binnen elk monster. De manier om dit te doen wordt meestal door software afgehandeld, maar het heeft enige zin om zo'n berekening te zien uitwerken.

Het zal gemakkelijk zijn om verdwaald te raken in wat volgt. Hier is de lijst met stappen die we in het onderstaande voorbeeld zullen volgen:

  1. Bereken de steekproefgemiddelden voor elk van onze steekproeven evenals het gemiddelde voor alle steekproefgegevens.
  2. Bereken de som van de vierkanten van fouten. Hier in elk monster kwadrateren we de afwijking van elke gegevenswaarde van het steekproefgemiddelde. De som van alle gekwadrateerde afwijkingen is de som van foutkwadraten, afgekort SSE.
  3. Bereken de som van de vierkanten van de behandeling. We kwadrateren de afwijking van elk steekproefgemiddelde van het totale gemiddelde. De som van al deze kwadratische afwijkingen wordt vermenigvuldigd met één minder dan het aantal monsters dat we hebben. Dit nummer is de som van behandelingsvierkanten, afgekort SST.
  4. Bereken de vrijheidsgraden. Het totale aantal vrijheidsgraden is één minder dan het totale aantal gegevenspunten in onze steekproef, of n - 1. Het aantal vrijheidsgraden is één minder dan het aantal gebruikte monsters, of m - 1. Het aantal vrijheidsgraden is het totale aantal gegevenspunten minus het aantal monsters, of n - m.
  5. Bereken het gemiddelde kwadraat van de fout. Dit wordt aangeduid als MSE = SSE / (n - m).
  6. Bereken het gemiddelde kwadraat van de behandeling. Dit wordt aangeduid als MST = SST /m - '1.
  7. Bereken de F statistiek. Dit is de verhouding tussen de twee gemiddelde vierkanten die we hebben berekend. Zo F = MST / MSE.

Software doet dit allemaal vrij eenvoudig, maar het is goed om te weten wat er achter de schermen gebeurt. In wat volgt, werken we een voorbeeld van ANOVA uit volgens de bovenstaande stappen.

Gegevens en voorbeeldmiddelen

Stel dat we vier onafhankelijke populaties hebben die voldoen aan de voorwaarden voor ANOVA met één factor. We willen de nulhypothese testen H0: μ1 = μ2 = μ3 = μ4. Voor dit voorbeeld gebruiken we een steekproef van grootte drie van elk van de onderzochte populaties. De gegevens uit onze monsters zijn:

  • Steekproef uit populatie # 1: 12, 9, 12. Dit heeft een steekproefgemiddelde van 11.
  • Steekproef uit populatie 2: 7, 10, 13. Dit heeft een steekproefgemiddelde van 10.
  • Steekproef uit populatie # 3: 5, 8, 11. Dit heeft een steekproefgemiddelde van 8.
  • Steekproef uit populatie # 4: 5, 8, 8. Dit heeft een steekproefgemiddelde van 7.

Het gemiddelde van alle gegevens is 9.

Som van kwadraten

We berekenen nu de som van de gekwadrateerde afwijkingen van elk steekproefgemiddelde. Dit wordt de som van de kwadraten genoemd.

  • Voor de steekproef uit populatie # 1: (12 - 11)2 + (9-11)2 +(12 - 11)2 = 6
  • Voor de steekproef uit populatie # 2: (7 - 10)2 + (10-10)2 +(13 - 10)2 = 18
  • Voor de steekproef uit populatie # 3: (5 - 8)2 + (8 - 8)2 +(11 - 8)2 = 18
  • Voor de steekproef uit populatie # 4: (5 - 7)2 + (8 - 7)2 +(8 - 7)2 = 6.

We voegen dan al deze som van kwadratische afwijkingen toe en verkrijgen 6 + 18 + 18 + 6 = 48.

Som van behandelingsvierkanten

Nu berekenen we de som van de vierkanten van de behandeling. Hier kijken we naar de gekwadrateerde afwijkingen van elk steekproefgemiddelde van het totale gemiddelde en vermenigvuldigen dit aantal met één minder dan het aantal populaties:

3 [(11 - 9)2 + (10 - 9)2 +(8 - 9)2 + (7 - 9)2] = 3 [4 + 1 + 1 + 4] = 30.

Graden van vrijheid

Voordat we naar de volgende stap gaan, hebben we de vrijheidsgraden nodig. Er zijn 12 gegevenswaarden en vier monsters. Het aantal vrijheidsgraden is dus 4 - 1 = 3. Het aantal vrijheidsgraden is 12 - 4 = 8.

Gemene Vierkanten

We delen nu onze som van vierkanten door het juiste aantal vrijheidsgraden om de gemiddelde vierkanten te verkrijgen.

  • Het gemiddelde vierkant voor behandeling is 30/3 = 10.
  • Het gemiddelde kwadraat voor fouten is 48/8 = 6.

De F-statistiek

De laatste stap hiervan is om het gemiddelde vierkant voor behandeling te delen door het gemiddelde vierkant voor fout. Dit is de F-statistiek uit de gegevens. Dus voor ons voorbeeld F = 10/6 = 5/3 = 1.667.

Waardetabellen of software kunnen worden gebruikt om te bepalen hoe waarschijnlijk het is om een ​​waarde van de F-statistiek te verkrijgen die even extreem is als deze waarde bij toeval.