Gepaarde gegevens in statistieken

Gepaarde gegevens in statistieken, vaak aangeduid als geordende paren, verwijzen naar twee variabelen in de individuen van een populatie die aan elkaar zijn gekoppeld om de correlatie daartussen te bepalen. Om een gegevensset als gepaarde gegevens te kunnen beschouwen, moeten beide gegevenswaarden aan elkaar zijn gekoppeld of aan elkaar zijn gekoppeld en niet afzonderlijk worden beschouwd.

Het idee van gepaarde gegevens staat in contrast met de gebruikelijke associatie van één nummer met elk gegevenspunt, zoals in andere kwantitatieve gegevenssets, omdat elk afzonderlijk gegevenspunt is geassocieerd met twee getallen, waardoor een grafiek ontstaat waarmee statistici de relatie tussen deze variabelen kunnen observeren in een bevolking.

Deze methode van gepaarde gegevens wordt gebruikt wanneer een onderzoek hoopt twee variabelen bij individuen van de populatie te vergelijken om een soort conclusie te trekken over de waargenomen correlatie. Bij het observeren van deze gegevenspunten is de volgorde van de koppeling belangrijk omdat het eerste getal een maat is voor één ding, terwijl het tweede een maat is voor iets heel anders.

Voorbeeld van gepaarde gegevens

Stel dat een leraar het aantal huiswerkopdrachten telt dat elke student voor een bepaalde eenheid heeft ingeleverd om een voorbeeld van gepaarde gegevens te zien en koppelt dit aantal vervolgens met het percentage van elke student op de eenheidstest. De paren zijn als volgt:

Een persoon die 10 opdrachten voltooide, verdiende 95% op zijn of haar test. (10, 95%)
Een persoon die 5 opdrachten voltooide, verdiende 80% op zijn of haar test. (5, 80%)
Een persoon die 9 opdrachten voltooide, verdiende 85% op zijn of haar test. (9, 85%)
Een persoon die 2 opdrachten voltooide, verdiende 50% op zijn of haar test. (2, 50%)
Een persoon die 5 opdrachten voltooide, verdiende 60% op zijn of haar test. (5, 60%)
Een persoon die 3 opdrachten voltooide, verdiende 70% op zijn of haar test. (3, 70%)

In elk van deze sets gepaarde gegevens kunnen we zien dat het aantal toewijzingen altijd eerst komt in het bestelde paar, terwijl het percentage verdiend op de test als tweede komt, zoals te zien in de eerste instantie van (10, 95%).

Hoewel een statistische analyse van deze gegevens ook kan worden gebruikt om het gemiddelde aantal voltooide huiswerkopdrachten of de gemiddelde testscore te berekenen, kunnen er andere vragen over de gegevens zijn. In dit geval wil de docent weten of er een verband bestaat tussen het aantal ingeleverde huiswerkopdrachten en de uitvoering van de test en moet de docent de gegevens gekoppeld houden om deze vraag te kunnen beantwoorden..

Gepaarde gegevens analyseren

De statistische technieken van correlatie en regressie worden gebruikt om gepaarde gegevens te analyseren, waarbij de correlatiecoëfficiënt kwantificeert hoe dicht de gegevens langs een rechte lijn liggen en de sterkte van de lineaire relatie meet.

Regressie wordt daarentegen gebruikt voor verschillende toepassingen, waaronder het bepalen welke lijn het beste bij onze set gegevens past. Deze lijn kan vervolgens op zijn beurt worden gebruikt om te schatten of te voorspellen Y waarden voor waarden van X die geen deel uitmaakten van onze oorspronkelijke gegevensset.

Er is een speciaal type grafiek dat vooral geschikt is voor gepaarde gegevens, een spreidingsdiagram. In dit type grafiek vertegenwoordigt één coördinaatas één hoeveelheid gepaarde gegevens, terwijl de andere coördinaatas de andere hoeveelheid gepaarde gegevens vertegenwoordigt.

Een spreidingsdiagram voor de bovenstaande gegevens zou hebben dat de x-as het aantal ingeleverde toewijzingen aangeeft, terwijl de y-as de scores op de eenheidstest aangeeft.

Wetenschap