Bij het uitvoeren van een significantietest of hypothesetest zijn er twee getallen die gemakkelijk in de war raken. Deze getallen zijn gemakkelijk verward omdat ze beide getallen tussen nul en één zijn en beide waarschijnlijkheden zijn. Eén nummer wordt de p-waarde van de teststatistiek genoemd. Het andere aantal interesses is het niveau van significantie of alfa. We zullen deze twee kansen onderzoeken en het verschil ertussen bepalen.
Het getal alfa is de drempelwaarde waartegen we p-waarden meten. Het vertelt ons hoe extreem waargenomen resultaten moeten zijn om de nulhypothese van een significantietest te verwerpen.
De waarde van alpha wordt geassocieerd met het betrouwbaarheidsniveau van onze test. Het volgende somt enkele betrouwbaarheidsniveaus op met hun bijbehorende alfa-waarden:
Hoewel in theorie en praktijk veel getallen kunnen worden gebruikt voor alfa, is de meest gebruikte 0,05. De reden hiervoor is zowel omdat consensus aantoont dat dit niveau in veel gevallen geschikt is en historisch gezien als de norm is aanvaard. Er zijn echter veel situaties waarin een kleinere alfa-waarde moet worden gebruikt. Er is geen enkele alfa-waarde die altijd de statistische significantie bepaalt.
De alpha-waarde geeft ons de kans op een type I-fout. Type I-fouten doen zich voor wanneer we een nulhypothese verwerpen die feitelijk waar is. Dus op de lange termijn, voor een test met een significantieniveau van 0,05 = 1/20, wordt een echte nulhypothese één op de 20 keer afgewezen.
Het andere getal dat deel uitmaakt van een significantietest is een p-waarde. Een p-waarde is ook een kans, maar deze komt uit een andere bron dan alfa. Elke teststatistiek heeft een overeenkomstige waarschijnlijkheid of p-waarde. Deze waarde is de waarschijnlijkheid dat de waargenomen statistiek alleen door toeval plaatsvond, ervan uitgaande dat de nulhypothese waar is.
Omdat er een aantal verschillende teststatistieken zijn, zijn er een aantal verschillende manieren om een p-waarde te vinden. Voor sommige gevallen moeten we de waarschijnlijkheidsverdeling van de bevolking kennen.
De p-waarde van de teststatistiek is een manier om te zeggen hoe extreem die statistiek is voor onze voorbeeldgegevens. Hoe kleiner de p-waarde, des te onwaarschijnlijker het waargenomen monster.
Om te bepalen of een waargenomen uitkomst statistisch significant is, vergelijken we de waarden van alfa en de p-waarde. Er zijn twee mogelijkheden die naar voren komen:
De implicatie van het bovenstaande is dat hoe kleiner de waarde van alfa is, hoe moeilijker het is om te beweren dat een resultaat statistisch significant is. Aan de andere kant, hoe groter de waarde van alpha, hoe gemakkelijker het is om te beweren dat een resultaat statistisch significant is. Hieraan gekoppeld is echter de hogere waarschijnlijkheid dat wat we hebben waargenomen kan worden toegeschreven aan toeval.