Het is de middernachtshow van de nieuwste hitfilm. Mensen staan buiten het theater klaar om binnen te komen. Stel dat je wordt gevraagd het midden van de rij te vinden. Hoe zou u dit doen??
Er zijn een aantal verschillende manieren om dit probleem op te lossen. Uiteindelijk zou je erachter moeten komen hoeveel mensen er in de rij zaten en dan de helft van dat aantal nemen. Als het totale aantal even is, bevindt het midden van de lijn zich tussen twee personen. Als het totale aantal oneven is, zou het midden één persoon zijn.
U vraagt zich misschien af: "Wat heeft het vinden van het midden van een lijn te maken met statistieken?" Dit idee van het vinden van het centrum is precies wat wordt gebruikt bij het berekenen van de mediaan van een set gegevens.
De mediaan is een van de drie belangrijkste manieren om het gemiddelde van statistische gegevens te vinden. Het is moeilijker te berekenen dan de modus, maar niet zo arbeidsintensief als het berekenen van het gemiddelde. Het is het centrum op ongeveer dezelfde manier als het vinden van het centrum van een rij mensen. Nadat de gegevenswaarden in oplopende volgorde zijn vermeld, is de mediaan de gegevenswaarde met hetzelfde aantal gegevenswaarden erboven en eronder.
Elf batterijen worden getest om te zien hoe lang ze meegaan. Hun levensduur, in uren, wordt gegeven door 10, 99, 100, 103, 103, 105, 110, 111, 115, 130, 131. Wat is de mediane levensduur? Aangezien er een oneven aantal gegevenswaarden is, komt dit overeen met een lijn met een oneven aantal mensen. Het midden is de middelste waarde.
Er zijn elf gegevenswaarden, dus de zesde staat in het midden. Daarom is de gemiddelde levensduur van de batterij de zesde waarde in deze lijst, of 105 uur. Merk op dat de mediaan een van de gegevenswaarden is.
Twintig katten worden gewogen. Hun gewichten, in ponden, worden gegeven door 4, 5, 5, 5, 6, 6, 6, 7, 7, 7, 8, 8, 9, 10, 10, 10, 11, 12, 12, 13. Wat is het mediane gewicht van de kat? Aangezien er een even aantal gegevenswaarden is, komt dit overeen met de regel met een even aantal mensen. Het midden ligt tussen de twee middelste waarden.
In dit geval ligt het midden tussen de tiende en elfde gegevenswaarden. Om de mediaan te berekenen, berekenen we het gemiddelde van deze twee waarden en verkrijgen (7 + 8) / 2 = 7,5. Hier is de mediaan niet een van de gegevenswaarden.
De enige twee mogelijkheden zijn om een even of oneven aantal gegevenswaarden te hebben. Dus de twee bovenstaande voorbeelden zijn de enige mogelijke manieren om de mediaan te berekenen. Of de mediaan is de middelste waarde, of de mediaan is het gemiddelde van de twee middelste waarden. Gegevenssets zijn meestal veel groter dan degene die we hierboven hebben bekeken, maar het proces van het vinden van de mediaan is hetzelfde als deze twee voorbeelden.
Het gemiddelde en de modus zijn zeer gevoelig voor uitbijters. Wat dit betekent is dat de aanwezigheid van een uitbijter beide maatregelen van het centrum dramatisch zal beïnvloeden. Een voordeel van de mediaan is dat deze niet zoveel wordt beïnvloed door een uitbijter.
Om dit te zien, overweeg de gegevensset 3, 4, 5, 5, 6. Het gemiddelde is (3 + 4 + 5 + 5 + 6) / 5 = 4,6 en de mediaan is 5. Bewaar nu dezelfde gegevensset, maar voeg de waarde 100: 3, 4, 5, 5, 6, 100 toe. Het is duidelijk dat 100 een uitbijter is, omdat deze veel groter is dan alle andere waarden. Het gemiddelde van de nieuwe set is nu (3 + 4 + 5 + 5 + 6 + 100) / 6 = 20.5. De mediaan van de nieuwe set is echter 5. Hoewel de
Vanwege wat we hierboven hebben gezien, is de mediaan de voorkeursmaatstaf voor het gemiddelde wanneer de gegevens uitbijters bevatten. Wanneer inkomens worden gerapporteerd, is een typische aanpak om het mediane inkomen te rapporteren. Dit wordt gedaan omdat het gemiddelde inkomen wordt scheefgetrokken door een klein aantal mensen met zeer hoge inkomens (denk Bill Gates en Oprah).