Wat is bootstrapping in statistieken?

Bootstrapping is een statistische techniek die onder de bredere kop van resamplen valt. Deze techniek omvat een relatief eenvoudige procedure maar wordt zo vaak herhaald dat deze sterk afhankelijk is van computerberekeningen. Bootstrapping biedt een andere methode dan betrouwbaarheidsintervallen om een populatieparameter te schatten. Bootstrapping lijkt heel veel te werken als magie. Lees verder om te zien hoe het zijn interessante naam verkrijgt.

Een uitleg van Bootstrapping

Een doel van inferentiële statistieken is het bepalen van de waarde van een parameter van een populatie. Het is meestal te duur of zelfs onmogelijk om dit direct te meten. Dus gebruiken we statistische steekproeven. We nemen een steekproef van een populatie, meten een statistiek van deze steekproef en gebruiken deze statistiek om iets te zeggen over de overeenkomstige parameter van de populatie.

In een chocoladefabriek willen we bijvoorbeeld garanderen dat snoeprepen een bepaald gemiddeld gewicht hebben. Het is niet mogelijk om elke geproduceerde candybar te wegen, dus gebruiken we steekproeftechnieken om willekeurig 100 candybars te kiezen. We berekenen het gemiddelde van deze 100 candybars en zeggen dat het populatiegemiddelde binnen een foutmarge valt van wat het gemiddelde van onze steekproef is.

Stel dat we een paar maanden later met grotere nauwkeurigheid - of minder een foutmarge - willen weten wat het gemiddelde gewicht van de reep was op de dag dat we de productielijn proefden. We kunnen de candybars van vandaag niet gebruiken, omdat er te veel variabelen in het spel zijn gekomen (verschillende partijen melk, suiker en cacaobonen, verschillende atmosferische omstandigheden, verschillende werknemers aan de lijn, enz.). Alles wat we hebben vanaf de dag dat we nieuwsgierig zijn naar zijn de 100 gewichten. Zonder een tijdmachine terug naar die dag, lijkt het erop dat de initiële foutmarge de beste is waarop we kunnen hopen.

Gelukkig kunnen we de techniek van bootstrapping gebruiken. In deze situatie nemen we steekproefsgewijs monsters met vervanging van de 100 bekende gewichten. We noemen dit vervolgens een bootstrap-voorbeeld. Omdat we vervanging toestaan, is dit bootstrap-monster waarschijnlijk niet identiek aan ons oorspronkelijke monster. Sommige gegevenspunten kunnen worden gedupliceerd en andere gegevenspunten van de eerste 100 kunnen worden weggelaten in een bootstrap-voorbeeld. Met behulp van een computer kunnen in relatief korte tijd duizenden bootstrap-samples worden gemaakt.

Een voorbeeld

Zoals gezegd, hebben we een computer nodig om echt bootstraptechnieken te gebruiken. Het volgende numerieke voorbeeld zal helpen aantonen hoe het proces werkt. Als we beginnen met de voorbeelden 2, 4, 5, 6, 6, zijn alle volgende mogelijke bootstrap-voorbeelden:

2, 5, 5, 6, 6
4, 5, 6, 6, 6
2, 2, 4, 5, 5
2, 2, 2, 4, 6
2, 2, 2, 2, 2
4,6, 6, 6, 6

Geschiedenis van de techniek

Bootstrap-technieken zijn relatief nieuw op het gebied van statistiek. Het eerste gebruik werd gepubliceerd in een paper van 1979 door Bradley Efron. Naarmate het rekenvermogen is toegenomen en goedkoper wordt, zijn bootstraptechnieken breder verspreid.

Waarom de naam Bootstrapping?

De naam "bootstrapping" komt van de uitdrukking: "Zichzelf opheffen door zijn bootstraps." Dit verwijst naar iets dat belachelijk en onmogelijk is. Probeer zo hard als je kunt, je kunt jezelf niet in de lucht tillen door stukjes leer aan je laarzen te trekken.

Er is een wiskundige theorie die bootstrappingtechnieken rechtvaardigt. Het gebruik van bootstrapping voelt echter alsof je het onmogelijke doet. Hoewel het niet lijkt alsof je de schatting van een populatiestatistiek zou kunnen verbeteren door hetzelfde monster steeds opnieuw te gebruiken, kan bootstrapping dit in feite doen.

Wetenschap