Wat is een P-waarde?

Hypothesetests of significantietoets omvatten de berekening van een getal dat bekend staat als een p-waarde. Dit nummer is erg belangrijk voor het afsluiten van onze test. P-waarden zijn gerelateerd aan de teststatistiek en geven ons een meting van bewijsmateriaal tegen de nulhypothese.

Null en alternatieve hypothesen

Tests van statistische significantie beginnen allemaal met een nul en een alternatieve hypothese. De nulhypothese is de verklaring van geen effect of een verklaring van algemeen aanvaarde stand van zaken. De alternatieve hypothese is wat we proberen te bewijzen. De werkhypothese in een hypothesetest is dat de nulhypothese waar is.

Teststatistiek

We gaan ervan uit dat aan de voorwaarden is voldaan voor de specifieke test waarmee we werken. Een eenvoudige willekeurige steekproef geeft ons voorbeeldgegevens. Op basis van deze gegevens kunnen we een teststatistiek berekenen. Teststatistieken variëren sterk, afhankelijk van welke parameters onze hypothesetest betreft. Enkele veel voorkomende teststatistieken zijn:

  • z - statistiek voor hypothesetests met betrekking tot het populatiegemiddelde, wanneer we de standaarddeviatie van de populatie kennen.
  • t - statistiek voor hypothesetests betreffende het populatiegemiddelde, wanneer we de populatiestandaarddeviatie niet kennen.
  • t - statistiek voor hypothesetests betreffende het verschil tussen twee onafhankelijke populatiegemiddelden, wanneer we de standaardafwijking van een van de twee populaties niet kennen.
  • z - statistiek voor hypothesetests met betrekking tot een populatiepercentage.
  • Chi-kwadraat - statistiek voor hypothesetests betreffende het verschil tussen een verwachte en werkelijke telling voor categorische gegevens.

Berekening van P-waarden

Teststatistieken zijn nuttig, maar het kan nuttiger zijn om een ​​p-waarde aan deze statistieken toe te wijzen. Een p-waarde is de kans dat, als de nulhypothese waar zou zijn, we een statistiek zouden observeren die minstens zo extreem is als de waargenomen. Om een ​​p-waarde te berekenen, gebruiken we de juiste software of statistische tabel die overeenkomt met onze teststatistiek.

We zouden bijvoorbeeld een standaard normale verdeling gebruiken bij het berekenen van een z test statistiek. Waarden van z met grote absolute waarden (zoals die boven 2,5) zijn niet erg gebruikelijk en zouden een kleine p-waarde geven. Waarden van z die dichter bij nul komen, komen vaker voor en zouden veel grotere p-waarden geven.

Interpretatie van de P-waarde

Zoals we hebben opgemerkt, is een p-waarde een kans. Dit betekent dat het een reëel getal van 0 en 1 is. Hoewel een teststatistiek een manier is om te meten hoe extreem een ​​statistiek is voor een bepaalde steekproef, zijn p-waarden een andere manier om dit te meten.

Wanneer we een statistische gegeven steekproef verkrijgen, is de vraag die we altijd zouden moeten hebben: "Is deze steekproef zoals het bij toeval alleen is met een echte nulhypothese, of is de nulhypothese onjuist?" Als onze p-waarde klein is, dan dit kan een van twee dingen betekenen:

  1. De nulhypothese is waar, maar we hadden gewoon heel veel geluk met het verkrijgen van onze waargenomen steekproef.
  2. Onze steekproef is de manier waarop het te wijten is aan het feit dat de nulhypothese onjuist is.

Over het algemeen geldt dat hoe kleiner de p-waarde, hoe meer bewijsmateriaal we hebben tegen onze nulhypothese.

Hoe klein is klein genoeg?

Hoe klein van een p-waarde hebben we nodig om de nulhypothese te verwerpen? Het antwoord hierop is: "Dat hangt ervan af." Een algemene vuistregel is dat de p-waarde kleiner moet zijn dan of gelijk aan 0,05, maar er is niets universeels aan deze waarde.

Meestal kiezen we voordat we een hypothesetest uitvoeren een drempelwaarde. Als we een p-waarde hebben die kleiner is dan of gelijk is aan deze drempel, dan verwerpen we de nulhypothese. Anders verwerpen we de nulhypothese niet. Deze drempel wordt het significantieniveau van onze hypothesetest genoemd en wordt aangeduid met de Griekse letter alfa. Er is geen alfa-waarde die altijd de statistische significantie definieert.