Robuustheid in de statistiek

In statistieken verwijst de term robuust of robuust naar de sterkte van een statistisch model, tests en procedures volgens de specifieke voorwaarden van de statistische analyse die een studie hoopt te bereiken. Gezien het feit dat aan deze voorwaarden van een studie is voldaan, kunnen de modellen worden geverifieerd als waar door het gebruik van wiskundige bewijzen.

Veel modellen zijn gebaseerd op ideale situaties die niet bestaan bij het werken met gegevens uit de echte wereld, en als gevolg daarvan kan het model correcte resultaten geven, zelfs als niet exact aan de voorwaarden wordt voldaan.

Robuuste statistieken zijn daarom alle statistieken die goede prestaties opleveren wanneer gegevens worden getrokken uit een breed scala aan waarschijnlijkheidsverdelingen die grotendeels niet worden beïnvloed door uitbijters of kleine afwijkingen van modelaannames in een bepaalde gegevensset. Met andere woorden, een robuuste statistiek is bestand tegen fouten in de resultaten.

Een manier om een algemeen gebruikte robuuste statistische procedure te observeren, moet men niet verder kijken dan t-procedures, die hypothesetests gebruiken om de meest nauwkeurige statistische voorspellingen te bepalen.

T-procedures naleven

Voor een voorbeeld van robuustheid zullen we overwegen t-procedures, waaronder het betrouwbaarheidsinterval voor een populatiegemiddelde met onbekende populatiestandaarddeviatie en hypothesetests over het populatiegemiddelde.

Het gebruik van t-procedures veronderstelt het volgende:

De gegevensset waarmee we werken is een eenvoudige steekproef van de populatie.
De populatie waaruit we hebben bemonsterd is normaal verdeeld.

In de praktijk met voorbeelden uit de praktijk hebben statistici zelden een populatie die normaal verdeeld is, dus in plaats daarvan wordt de vraag: "Hoe robuust zijn onze t-procedures?"

Over het algemeen is de voorwaarde dat we een eenvoudige willekeurige steekproef hebben belangrijker dan de voorwaarde die we hebben genomen uit een normaal verdeelde populatie; de reden hiervoor is dat de centrale limietstelling een steekproefverdeling garandeert die ongeveer normaal is - hoe groter onze steekproefgrootte, hoe dichter de steekproefverdeling van het steekproefgemiddelde normaal is.

Hoe T-procedures functioneren als robuuste statistieken

Dus robuustheid voor t-procedures hangt af van de steekproefomvang en de verdeling van onze steekproef. Overwegingen hiervoor zijn:

Als de steekproefgrootte groot is, wat betekent dat we 40 of meer observaties hebben, dan t-procedures kunnen zelfs worden gebruikt met scheve distributies.
Als de steekproefgrootte tussen 15 en 40 ligt, kunnen we gebruiken t-procedures voor elke vormverdeling, tenzij er uitbijters zijn of een hoge mate van scheefheid.
Als de steekproefgrootte kleiner is dan 15, kunnen we gebruiken t- procedures voor gegevens die geen uitschieters hebben, een enkele piek en bijna symmetrisch zijn.

In de meeste gevallen is robuustheid vastgesteld door technisch werk in wiskundige statistieken, en gelukkig hoeven we niet noodzakelijk deze geavanceerde wiskundige berekeningen te doen om ze correct te kunnen gebruiken; we hoeven alleen maar te begrijpen wat de algemene richtlijnen zijn voor de robuustheid van onze specifieke statistische methode.

T-procedures fungeren als robuuste statistieken omdat ze doorgaans goede prestaties per deze modellen opleveren door rekening te houden met de grootte van de steekproef in de basis voor de toepassing van de procedure.

Wetenschap