Het verschil tussen beschrijvende en inferentiële statistieken

Het statistiekveld is verdeeld in twee hoofddivisies: beschrijvend en inferentieel. Elk van deze segmenten is belangrijk en biedt verschillende technieken die verschillende doelen bereiken. Beschrijvende statistieken beschrijven wat er gaande is in een populatie of gegevensverzameling. Inferentiële statistieken daarentegen stellen wetenschappers in staat om bevindingen uit een steekproefgroep te nemen en deze te generaliseren naar een grotere populatie. De twee soorten statistieken hebben enkele belangrijke verschillen.

Beschrijvende statistieken

Beschrijvende statistiek is het type statistiek dat waarschijnlijk bij de meeste mensen opkomt als ze het woord 'statistiek' horen. In deze tak van statistiek is het doel te beschrijven. Numerieke metingen worden gebruikt om te vertellen over kenmerken van een set gegevens. Er zijn een aantal items die thuishoren in dit gedeelte van de statistieken, zoals:

Het gemiddelde of de maat van het midden van een gegevensset, bestaande uit het gemiddelde, de mediaan, de modus of het middenbereik
De verspreiding van een gegevensset, die kan worden gemeten met het bereik of de standaarddeviatie
Algemene gegevensbeschrijvingen, zoals de samenvatting met vijf cijfers
Metingen zoals scheefheid en kurtosis
De verkenning van relaties en correlatie tussen gepaarde gegevens
De presentatie van statistische resultaten in grafische vorm

Deze maatregelen zijn belangrijk en nuttig omdat ze wetenschappers in staat stellen patronen tussen gegevens te zien en dus die gegevens te begrijpen. Beschrijvende statistieken kunnen alleen worden gebruikt om de populatie of gegevensset die wordt onderzocht te beschrijven: de resultaten kunnen niet worden veralgemeend naar een andere groep of populatie.

Soorten beschrijvende statistieken

Er zijn twee soorten beschrijvende statistieken die sociale wetenschappers gebruiken:

Metingen van centrale tendens vangen algemene trends binnen de gegevens op en worden berekend en uitgedrukt als het gemiddelde, de mediaan en de modus. Een gemiddelde vertelt wetenschappers het wiskundige gemiddelde van alle gegevens, zoals de gemiddelde leeftijd bij het eerste huwelijk; de mediaan vertegenwoordigt het midden van de gegevensdistributie, zoals de leeftijd die zich bevindt in het midden van de leeftijd waarop mensen voor het eerst trouwen; en de modus is misschien de meest voorkomende leeftijd waarop mensen voor het eerst trouwen.

Verspreidingsmaatregelen beschrijven hoe de gegevens worden verdeeld en zich tot elkaar verhouden, waaronder:

Het bereik, het gehele bereik van waarden dat aanwezig is in een gegevensset
De frequentieverdeling, die bepaalt hoe vaak een bepaalde waarde binnen een gegevensset voorkomt
Kwartielen, subgroepen die worden gevormd binnen een gegevensset wanneer alle waarden worden verdeeld in vier gelijke delen over het bereik
Gemiddelde absolute afwijking, het gemiddelde van hoeveel elke waarde afwijkt van het gemiddelde
Variantie, die illustreert hoeveel van een spread in de gegevens bestaat
Standaarddeviatie, die de verspreiding van gegevens ten opzichte van het gemiddelde illustreert

Verspreidingsmaatregelen worden vaak visueel weergegeven in tabellen, taart- en staafdiagrammen en histogrammen om de trends in de gegevens beter te begrijpen.

Inferentiële statistieken

Inferentiële statistieken worden geproduceerd door middel van complexe wiskundige berekeningen waarmee wetenschappers trends kunnen afleiden over een grotere populatie op basis van een studie van een daaruit genomen steekproef. Wetenschappers gebruiken inferentiële statistieken om de relaties tussen variabelen binnen een steekproef te onderzoeken en vervolgens generalisaties of voorspellingen te doen over hoe die variabelen zich zullen verhouden tot een grotere populatie.

Het is meestal onmogelijk om elk lid van de bevolking afzonderlijk te onderzoeken. Dus kiezen wetenschappers een representatieve deelverzameling van de populatie, een statistische steekproef genoemd, en uit deze analyse kunnen ze iets zeggen over de populatie waaruit de steekproef kwam. Er zijn twee hoofdindelingen van inferentiële statistieken:

Een betrouwbaarheidsinterval geeft een bereik van waarden voor een onbekende parameter van de populatie door een statistische steekproef te meten. Dit wordt uitgedrukt in termen van een interval en de mate van vertrouwen dat de parameter binnen het interval valt.
Significante testen of testen van hypothesen waarbij wetenschappers een claim maken over de populatie door een statistische steekproef te analyseren. Door het ontwerp is er enige onzekerheid in dit proces. Dit kan worden uitgedrukt in termen van een niveau van significantie.

Technieken die sociale wetenschappers gebruiken om de relaties tussen variabelen te onderzoeken en daarmee inferentiële statistieken te maken, omvatten lineaire regressieanalyses, logistieke regressieanalyses, ANOVA, correlatieanalyses, structurele vergelijkingsmodellering en overlevingsanalyse. Bij het uitvoeren van onderzoek met behulp van inferentiële statistieken, voeren wetenschappers een belangrijke test uit om te bepalen of ze hun resultaten kunnen generaliseren naar een grotere populatie. Veelvoorkomende significantietests zijn de chikwadraat en de t-test. Deze vertellen wetenschappers de kans dat de resultaten van hun analyse van de steekproef representatief zijn voor de populatie als geheel.

Beschrijvende versus inferentiële statistieken

Hoewel beschrijvende statistieken nuttig zijn bij het leren van dingen zoals de verspreiding en het midden van de gegevens, kan niets in beschrijvende statistieken worden gebruikt om generalisaties te maken. In beschrijvende statistieken worden metingen zoals het gemiddelde en de standaarddeviatie als exacte getallen vermeld.

Hoewel inferentiële statistieken enkele vergelijkbare berekeningen gebruiken - zoals het gemiddelde en de standaarddeviatie - ligt de focus anders voor inferentiële statistieken. Inferentiële statistieken beginnen met een steekproef en generaliseren vervolgens naar een populatie. Deze informatie over een populatie wordt niet als een getal vermeld. In plaats daarvan drukken wetenschappers deze parameters uit als een bereik van potentiële getallen, samen met een zekere mate van vertrouwen.

Wetenschap