Hoeveel calorieën hebben we allemaal als ontbijt gegeten? Hoe ver van huis reisde iedereen vandaag? Hoe groot is de plaats die we thuis noemen? Hoeveel andere mensen noemen het thuis? Om al deze informatie te begrijpen, zijn bepaalde hulpmiddelen en denkwijzen nodig. De wiskundige wetenschap genaamd statistiek is wat ons helpt om met deze informatie-overbelasting om te gaan.
Statistiek is de studie van numerieke informatie, gegevens genoemd. Statistici verzamelen, organiseren en analyseren gegevens. Elk onderdeel van dit proces wordt ook nauwkeurig onderzocht. De technieken van statistiek worden toegepast op tal van andere kennisgebieden. Hieronder vindt u een inleiding tot enkele van de belangrijkste onderwerpen in de statistieken.
Een van de terugkerende statistiekthema's is dat we iets kunnen zeggen over een grote groep op basis van de studie van een relatief klein deel van die groep. De groep als geheel staat bekend als de bevolking. Het deel van de groep dat we bestuderen is het voorbeeld.
Stel bijvoorbeeld dat we de gemiddelde lengte van mensen in de Verenigde Staten wilden weten. We zouden kunnen proberen meer dan 300 miljoen mensen te meten, maar dit zou niet haalbaar zijn. Het zou een logistieke nachtmerrie zijn die de metingen zo uitvoert dat niemand werd gemist en niemand tweemaal werd geteld.
Vanwege het onmogelijke karakter om iedereen in de Verenigde Staten te meten, kunnen we in plaats daarvan statistieken gebruiken. In plaats van de hoogten van iedereen in de populatie te vinden, nemen we een statistische steekproef van een paar duizend. Als we de populatie correct hebben bemonsterd, zal de gemiddelde hoogte van de steekproef heel dicht bij de gemiddelde hoogte van de populatie liggen.
Om goede conclusies te trekken, hebben we goede gegevens nodig om mee te werken. De manier waarop we een populatie nemen om deze gegevens te verkrijgen, moet altijd nauwkeurig worden onderzocht. Welke soort steekproef we gebruiken, hangt af van welke vraag we stellen aan de bevolking. De meest gebruikte monsters zijn:
Het is even belangrijk om te weten hoe de meting van het monster wordt uitgevoerd. Om terug te keren naar het bovenstaande voorbeeld, hoe verkrijgen we de hoogten van die in onze steekproef?
Elk van deze manieren om de gegevens te verkrijgen, heeft zijn voor- en nadelen. Iedereen die de gegevens uit dit onderzoek gebruikt, wil weten hoe deze zijn verkregen.
Soms is er een veelheid aan gegevens en kunnen we letterlijk verdwalen in alle details. Het is moeilijk om door de bomen het bos te zien. Daarom is het belangrijk om onze gegevens goed georganiseerd te houden. Zorgvuldige organisatie en grafische weergave van de gegevens helpen ons om patronen en trends te herkennen voordat we daadwerkelijk berekeningen uitvoeren.
Omdat de manier waarop we onze gegevens grafisch presenteren, van verschillende factoren afhankelijk is. Veel voorkomende grafieken zijn:
Naast deze bekende grafieken zijn er nog andere die in gespecialiseerde situaties worden gebruikt.
Een manier om gegevens te analyseren, wordt beschrijvende statistiek genoemd. Het doel is hier om hoeveelheden te berekenen die onze gegevens beschrijven. Getallen die het gemiddelde, de mediaan en de modus worden genoemd, worden allemaal gebruikt om het gemiddelde of het midden van de gegevens aan te geven. Het bereik en de standaarddeviatie worden gebruikt om te zeggen hoe verspreid de gegevens zijn. Meer gecompliceerde technieken, zoals correlatie en regressie, beschrijven gegevens die gekoppeld zijn.
Wanneer we met een steekproef beginnen en vervolgens iets proberen te concluderen over de populatie, gebruiken we inferentiële statistieken. Bij het werken met dit gebied van statistiek ontstaat het onderwerp van hypothesetesten. Hier zien we de wetenschappelijke aard van het onderwerp statistiek, terwijl we een hypothese formuleren en vervolgens statistische hulpmiddelen gebruiken bij onze steekproef om de waarschijnlijkheid te bepalen dat we de hypothese moeten verwerpen of niet. Deze uitleg is eigenlijk alleen maar het oppervlak van dit zeer nuttige deel van de statistieken.
Het is niet overdreven om te zeggen dat de statistische instrumenten worden gebruikt door bijna elk gebied van wetenschappelijk onderzoek. Hier zijn een paar gebieden die sterk afhankelijk zijn van statistieken:
Hoewel sommigen statistieken beschouwen als een tak van de wiskunde, is het beter om het te beschouwen als een discipline die is gebaseerd op wiskunde. In het bijzonder worden statistieken opgebouwd uit het gebied van wiskunde dat bekend staat als waarschijnlijkheid. Waarschijnlijkheid geeft ons een manier om te bepalen hoe waarschijnlijk een gebeurtenis zal plaatsvinden. Het geeft ons ook een manier om over willekeur te praten. Dit is de sleutel tot statistieken omdat de typische steekproef willekeurig uit de populatie moet worden gekozen.
Waarschijnlijkheid werd voor het eerst bestudeerd in de jaren 1700 door wiskundigen zoals Pascal en Fermat. De jaren 1700 markeerden ook het begin van de statistieken. Statistieken bleven groeien vanuit de waarschijnlijkheidswortels en namen echt een vlucht in de 19e eeuw. Tegenwoordig wordt de theoretische reikwijdte ervan nog steeds uitgebreid in wat bekend staat als wiskundige statistieken.