Binnen gegevenssets zijn er verschillende beschrijvende statistieken. Het gemiddelde, de mediaan en de modus geven allemaal metingen van het midden van de gegevens, maar ze berekenen dit op verschillende manieren:
Op het eerste gezicht lijkt er geen verband te bestaan tussen deze drie getallen. Het blijkt echter dat er een empirische relatie bestaat tussen deze maten van centrum.
Voordat we verder gaan, is het belangrijk om te begrijpen waar we het over hebben als we verwijzen naar een empirische relatie en dit af te zetten tegen theoretische studies. Sommige resultaten in statistieken en andere kennisgebieden kunnen op theoretische wijze worden afgeleid uit enkele eerdere uitspraken. We beginnen met wat we weten en gebruiken vervolgens logica, wiskunde en deductieve redenering en kijken waar dit ons toe leidt. Het resultaat is een direct gevolg van andere bekende feiten.
In tegenstelling tot de theorie is de empirische manier om kennis te verwerven. In plaats van te redeneren vanuit reeds gevestigde principes, kunnen we de wereld om ons heen observeren. Uit deze observaties kunnen we vervolgens een verklaring formuleren van wat we hebben gezien. Veel van de wetenschap gebeurt op deze manier. Experimenten geven ons empirische gegevens. Het doel wordt dan om een verklaring te formuleren die bij alle gegevens past.
In statistieken is er een relatie tussen het gemiddelde, de mediaan en de modus die empirisch is gebaseerd. Waarnemingen van talloze gegevenssets hebben aangetoond dat het verschil tussen het gemiddelde en de modus meestal drie keer het verschil is tussen het gemiddelde en de mediaan. Deze relatie in vergelijkingsvorm is:
Gemiddeld - Modus = 3 (Gemiddeld - Mediaan).
Om de bovenstaande relatie met gegevens uit de echte wereld te bekijken, laten we eens kijken naar de Amerikaanse staatspopulaties in 2010. In miljoenen waren de populaties: Californië - 36.4, Texas - 23.5, New York - 19.3, Florida - 18.1, Illinois - 12.8, Pennsylvania - 12.4, Ohio - 11.5, Michigan - 10.1, Georgia - 9.4, North Carolina - 8.9, New Jersey - 8.7, Virginia - 7.6, Massachusetts - 6.4, Washington - 6.4, Indiana - 6.3, Arizona - 6.2, Tennessee - 6.0, Missouri - 5.8, Maryland - 5.6, Wisconsin - 5.6, Minnesota - 5.2, Colorado - 4.8, Alabama - 4.6, South Carolina - 4.3, Louisiana - 4.3, Kentucky - 4.2, Oregon - 3.7, Oklahoma - 3.6, Connecticut - 3.5, Iowa - 3.0, Mississippi - 2.9, Arkansas - 2.8, Kansas - 2.8, Utah - 2.6, Nevada - 2.5, New Mexico - 2.0, West Virginia - 1.8, Nebraska - 1.8, Idaho - 1.5, Maine - 1.3, New Hampshire - 1.3, Hawaii - 1.3, Rhode Island - 1.1, Montana - .9, Delaware - .9, South Dakota - .8, Alaska - .7, North Dakota - .6, Vermont - .6, Wyoming - .5
De gemiddelde bevolking is 6,0 miljoen. De mediane bevolking is 4,25 miljoen. De modus is 1,3 miljoen. Nu zullen we de verschillen met het bovenstaande berekenen:
Hoewel deze twee verschilgetallen niet exact overeenkomen, liggen ze relatief dicht bij elkaar.
Er zijn een aantal toepassingen voor de bovenstaande formule. Stel dat we geen lijst met gegevenswaarden hebben, maar wel twee van de gemiddelden, mediaan of modus kennen. De bovenstaande formule kan worden gebruikt om de derde onbekende hoeveelheid te schatten.
Als we bijvoorbeeld weten dat we een gemiddelde van 10 hebben, een modus van 4, wat is dan de mediaan van onze gegevensset? Aangezien Mean - Mode = 3 (Mean - Median), kunnen we zeggen dat 10 - 4 = 3 (10 - Median). Volgens sommige algebra zien we dat 2 = (10 - Mediaan), en dus is de mediaan van onze gegevens 8.
Een andere toepassing van de bovenstaande formule is het berekenen van scheefheid. Omdat scheefheid het verschil tussen het gemiddelde en de modus meet, kunnen we in plaats daarvan 3 (gemiddelde - modus) berekenen. Om deze hoeveelheid dimensieloos te maken, kunnen we het delen door de standaarddeviatie om een alternatieve manier te geven om de scheefheid te berekenen dan momenten in de statistiek te gebruiken.
Zoals hierboven gezien, is het bovenstaande geen exacte relatie. In plaats daarvan is het een goede vuistregel, vergelijkbaar met die van de bereikregel, die een bij benadering verband legt tussen de standaardafwijking en het bereik. Het gemiddelde, de mediaan en de modus passen misschien niet precies in de bovenstaande empirische relatie, maar de kans is redelijk groot.