De statistische praktijk van het testen van hypothesen is niet alleen wijdverbreid in de statistiek, maar ook in de natuurlijke en sociale wetenschappen. Wanneer we een hypothesetest uitvoeren, kunnen er een aantal dingen misgaan. Er zijn twee soorten fouten, die door het ontwerp niet kunnen worden vermeden, en we moeten ons ervan bewust zijn dat deze fouten bestaan. De fouten krijgen de vrij voetgangersnamen van type I- en type II-fouten. Wat zijn type I- en type II-fouten en hoe onderscheiden we ze? Kort:
We zullen meer achtergrondinformatie achter dit soort fouten onderzoeken met het doel deze verklaringen te begrijpen.
Het proces van hypothesetesten kan nogal gevarieerd lijken met een veelheid aan teststatistieken. Maar het algemene proces is hetzelfde. Hypothesetesten behelzen de verklaring van een nulhypothese en de selectie van een significantieniveau. De nulhypothese is waar of onwaar en vertegenwoordigt de standaardclaim voor een behandeling of procedure. Bij het onderzoeken van de effectiviteit van een medicijn zou de nulhypothese zijn dat het medicijn geen effect heeft op een ziekte.
Na het formuleren van de nulhypothese en het kiezen van een significantieniveau, verwerven we gegevens door observatie. Statistische berekeningen vertellen ons of we de nulhypothese al dan niet moeten verwerpen.
In een ideale wereld zouden we altijd de nulhypothese verwerpen als deze onwaar is, en we zouden de nulhypothese niet verwerpen als die inderdaad waar is. Maar er zijn nog twee andere scenario's mogelijk, die elk tot een fout leiden.
De eerste soort fout die mogelijk is, is de afwijzing van een nulhypothese die echt waar is. Dit soort fout wordt een type I-fout genoemd en wordt soms een fout van de eerste soort genoemd.
Type I-fouten zijn gelijk aan valse positieven. Laten we teruggaan naar het voorbeeld van een medicijn dat wordt gebruikt om een ziekte te behandelen. Als we de nulhypothese in deze situatie verwerpen, dan is onze claim dat het medicijn in feite enig effect op een ziekte heeft. Maar als de nulhypothese waar is, bestrijdt het medicijn in werkelijkheid de ziekte helemaal niet. Er wordt ten onrechte beweerd dat het medicijn een positief effect heeft op een ziekte.
Type I-fouten kunnen worden gecontroleerd. De waarde van alpha, die gerelateerd is aan het niveau van significantie dat we hebben geselecteerd, heeft een directe invloed op type I-fouten. Alpha is de maximale waarschijnlijkheid dat we een type I-fout hebben. Voor een betrouwbaarheidsniveau van 95% is de waarde van alfa 0,05. Dit betekent dat er een kans van 5% is dat we een echte nulhypothese zullen verwerpen. Op de lange termijn zal een op de twintig hypothesetests die we op dit niveau uitvoeren, leiden tot een type I-fout.
Het andere soort fout dat mogelijk is, doet zich voor als we een nulhypothese die onjuist is niet verwerpen. Dit soort fouten wordt een type II-fout genoemd en wordt ook een fout van de tweede soort genoemd.
Type II-fouten zijn gelijk aan valse negatieven. Als we terugdenken aan het scenario waarin we een medicijn testen, hoe ziet een type II-fout eruit? Een type II-fout zou optreden als we zouden accepteren dat het medicijn geen effect op een ziekte had, maar in werkelijkheid wel.
De waarschijnlijkheid van een type II-fout wordt gegeven door de Griekse letter beta. Dit getal is gerelateerd aan de kracht of gevoeligheid van de hypothesetest, aangegeven met 1 - beta.
Type I en type II fouten maken deel uit van het proces van hypothesetesten. Hoewel de fouten niet volledig kunnen worden geëlimineerd, kunnen we één type fout minimaliseren.
Wanneer we de waarschijnlijkheid van het ene type fout proberen te verkleinen, neemt de kans op het andere type meestal toe. We kunnen de waarde van alfa verlagen van 0,05 naar 0,01, wat overeenkomt met een betrouwbaarheidsniveau van 99%. Als al het andere echter hetzelfde blijft, neemt de kans op een type II-fout vrijwel altijd toe.
Vaak zal de toepassing in de praktijk van onze hypothesetest bepalen of we type I- of Type II-fouten meer accepteren. Dit wordt vervolgens gebruikt bij het ontwerpen van ons statistisch experiment.