Hypothesetests zijn een van de belangrijkste onderwerpen op het gebied van inferentiële statistieken. Er zijn meerdere stappen om een hypothesetest uit te voeren en veel van deze vereisen statistische berekeningen. Statistische software, zoals Excel, kan worden gebruikt om hypothesetests uit te voeren. We zullen zien hoe de Excel-functie Z.TEST hypothesen over een onbekend populatiegemiddelde test.
Voorwaarden en veronderstellingen
We beginnen met het vermelden van de veronderstellingen en voorwaarden voor dit type hypothesetest. Voor de conclusie over het gemiddelde moeten we de volgende eenvoudige voorwaarden hebben:
De steekproef is een eenvoudige willekeurige steekproef.
De steekproef is klein in verhouding tot de populatie. Dit betekent meestal dat de populatiegrootte meer dan 20 keer zo groot is als de steekproef.
De variabele die wordt bestudeerd, is normaal verdeeld.
De populatiestandaarddeviatie is bekend.
Het populatiegemiddelde is onbekend.
In de praktijk zal waarschijnlijk niet aan al deze voorwaarden worden voldaan. Deze eenvoudige voorwaarden en de bijbehorende hypothesetest worden echter soms al vroeg in een statistiekklasse aangetroffen. Na het leren van het proces van een hypothesetest, worden deze voorwaarden ontspannen om in een meer realistische setting te werken.
Structuur van de hypothesetest
De specifieke hypothesetest die we beschouwen, heeft de volgende vorm:
Noem de nul- en alternatieve hypothesen.
Bereken de teststatistiek, wat een is z-partituur.
Bereken de p-waarde met behulp van de normale verdeling. In dit geval is de p-waarde de waarschijnlijkheid van het verkrijgen van minstens zo extreem als de waargenomen teststatistiek, ervan uitgaande dat de nulhypothese waar is.
Vergelijk de p-waarde met het significantieniveau om te bepalen of de nulhypothese wordt afgewezen of niet.
We zien dat stappen twee en drie rekenintensief zijn vergeleken met twee stappen één en vier. De functie Z.TEST voert deze berekeningen voor ons uit.
Z.TEST-functie
De functie Z.TEST voert alle berekeningen uit vanaf stap twee en drie hierboven. Het maakt een meerderheid van het aantal rekenwerk voor onze test en retourneert een p-waarde. Er zijn drie argumenten om de functie in te voeren, die elk worden gescheiden door een komma. Hieronder worden de drie soorten argumenten voor deze functie uitgelegd.
Het eerste argument voor deze functie is een reeks voorbeeldgegevens. We moeten een cellenbereik invoeren dat overeenkomt met de locatie van de voorbeeldgegevens in onze spreadsheet.
Het tweede argument is de waarde van μ die we testen in onze hypothesen. Dus als onze nulhypothese H is0: Μ = 5, dan zouden we een 5 voor het tweede argument invoeren.
Het derde argument is de waarde van de bekende populatiestandaarddeviatie. Excel behandelt dit als een optioneel argument
Opmerkingen en waarschuwingen
Er zijn een paar dingen die moeten worden opgemerkt over deze functie:
De p-waarde die wordt uitgevoerd door de functie is eenzijdig. Als we een tweezijdige test uitvoeren, moet deze waarde worden verdubbeld.
De eenzijdige p-waarde-uitvoer van de functie veronderstelt dat het steekproefgemiddelde groter is dan de waarde van μ waartegen we testen. Als het steekproefgemiddelde kleiner is dan de waarde van het tweede argument, moeten we de uitvoer van de functie van 1 aftrekken om de echte p-waarde van onze test te krijgen.
Het laatste argument voor de standaarddeviatie van de populatie is optioneel. Als dit niet wordt ingevoerd, wordt deze waarde automatisch in de berekeningen van Excel vervangen door de standaarddeviatie van het voorbeeld. Als dit is gebeurd, zou in plaats daarvan in theorie een t-test moeten worden gebruikt.
Voorbeeld
We veronderstellen dat de volgende gegevens afkomstig zijn van een eenvoudige willekeurige steekproef van een normaal verdeelde populatie met onbekend gemiddelde en standaarddeviatie van 3:
1, 2, 3, 3, 4, 4, 8, 10, 12
Met een significantieniveau van 10% willen we de hypothese testen dat de steekproefgegevens afkomstig zijn van een populatie met een gemiddelde van meer dan 5. Meer formeel hebben we de volgende hypothesen: