De looptest voor willekeurige sequenties

Gegeven een opeenvolging van gegevens, is een vraag die we ons misschien kunnen afvragen of de volgorde is ontstaan ​​door toevallige verschijnselen, of dat de gegevens niet willekeurig zijn. Willekeurigheid is moeilijk te identificeren, omdat het heel moeilijk is om eenvoudig naar gegevens te kijken en te bepalen of deze al dan niet door toeval zijn geproduceerd. Een methode die kan worden gebruikt om te bepalen of een reeks echt toevallig is ontstaan, wordt de run-test genoemd.

De looptest is een significantietest of hypothesetest. De procedure voor deze test is gebaseerd op een run of een reeks gegevens met een bepaalde eigenschap. Om te begrijpen hoe de looptest werkt, moeten we eerst het concept van een run onderzoeken.

Gegevensreeksen

We beginnen met een voorbeeld van runs. Overweeg de volgende reeks willekeurige cijfers:

6 2 7 0 0 1 7 3 0 5 0 8 4 6 8 7 0 6 5 5

Een manier om deze cijfers te classificeren is om ze in twee categorieën te splitsen, even (inclusief de cijfers 0, 2, 4, 6 en 8) of oneven (inclusief de cijfers 1, 3, 5, 7 en 9). We zullen de volgorde van willekeurige cijfers bekijken en de even getallen als E en oneven getallen als O aangeven:

E E O E E O O E O E E E E E O E E O O

De runs zijn gemakkelijker te zien als we dit herschrijven zodat alle Os samen zijn en alle Es samen zijn:

EE O EE OO E O EEEEE O EE OO

We tellen het aantal blokken van even of oneven nummers en zien dat er in totaal tien runs zijn voor de gegevens. Vier runs hebben lengte één, vijf hebben lengte twee en één heeft lengte vijf

Voorwaarden

Bij elke belangrijke test is het belangrijk om te weten welke voorwaarden nodig zijn om de test uit te voeren. Voor de looptest kunnen we elke gegevenswaarde uit de steekproef in een van twee categorieën classificeren. We tellen het totale aantal runs ten opzichte van het aantal gegevenswaarden dat in elke categorie valt.

De test is een tweezijdige test. De reden hiervoor is dat te weinig runs betekenen dat er waarschijnlijk niet voldoende variatie is en het aantal runs dat zou optreden vanuit een willekeurig proces. Er zullen te veel runs ontstaan ​​wanneer een proces te vaak tussen de categorieën wisselt om toevallig te worden beschreven.

Hypothesen en P-waarden

Elke belangrijke test heeft een nul- en een alternatieve hypothese. Voor de looptest is de nulhypothese dat de reeks een willekeurige reeks is. De alternatieve hypothese is dat de reeks steekproefgegevens niet willekeurig is.

Statistische software kan de p-waarde berekenen die overeenkomt met een bepaalde teststatistiek. Er zijn ook tabellen die kritische getallen op een bepaald niveau van betekenis geven voor het totale aantal runs.

Voert testvoorbeeld uit

We zullen het volgende voorbeeld doorlopen om te zien hoe de looptest werkt. Stel dat een student voor een opdracht 16 keer een munt moet omdraaien en de volgorde van koppen en staarten noteert die opdagen. Als we met deze gegevensset eindigen:

H T H H H T T H T T H T H T H H

We kunnen vragen of de student zijn huiswerk heeft gemaakt, of heeft hij vals gespeeld en een reeks H en T opgeschreven die er willekeurig uitzien? De looptest kan ons helpen. Aan de veronderstellingen is voldaan voor de looptest, omdat de gegevens in twee groepen kunnen worden ingedeeld, als kop of staart. We blijven doorgaan met het tellen van het aantal runs. Hergroeperen zien we het volgende:

H T HHH TT H TT H T H T HH

Er zijn tien runs voor onze gegevens met zeven staarten zijn negen koppen.

De nulhypothese is dat de gegevens willekeurig zijn. Het alternatief is dat het niet willekeurig is. Voor een significantieniveau van alfa gelijk aan 0,05, zien we door de juiste tabel te raadplegen dat we de nulhypothese verwerpen wanneer het aantal runs kleiner is dan 4 of groter dan 16. Aangezien onze gegevens tien runs bevatten, falen we om de nulhypothese af te wijzen H0.

Normale benadering

De looptest is een handig hulpmiddel om te bepalen of een reeks waarschijnlijk willekeurig is of niet. Voor een grote gegevensset is het soms mogelijk om een ​​normale benadering te gebruiken. Deze normale benadering vereist dat we het aantal elementen in elke categorie gebruiken en vervolgens het gemiddelde en de standaardafwijking van de juiste normale verdeling berekenen.