Hoe een betrouwbaarheidsinterval te construeren voor een bevolkingsaandeel

Vertrouwensintervallen kunnen worden gebruikt om verschillende populatieparameters te schatten. Een type parameter dat kan worden geschat met behulp van inferentiële statistieken is een populatiepercentage. We willen bijvoorbeeld het percentage van de Amerikaanse bevolking weten dat een bepaald stuk wetgeving ondersteunt. Voor dit soort vragen moeten we een betrouwbaarheidsinterval vinden.

In dit artikel zullen we zien hoe we een betrouwbaarheidsinterval voor een populatie-aandeel kunnen construeren, en een deel van de theorie hierachter onderzoeken.

Algemeen kader

We beginnen met het grote geheel te bekijken voordat we op de details ingaan. Het type betrouwbaarheidsinterval dat we zullen overwegen is van de volgende vorm:

Schatting +/- foutmarge

Dit betekent dat er twee getallen zijn die we moeten bepalen. Deze waarden zijn een schatting voor de gewenste parameter, samen met de foutmarge.

Voorwaarden

Voordat u een statistische test of procedure uitvoert, is het belangrijk om ervoor te zorgen dat aan alle voorwaarden is voldaan. Voor een betrouwbaarheidsinterval voor een bevolkingsaandeel moeten we ervoor zorgen dat het volgende geldt:

  • We hebben een eenvoudige steekproef van grootte n uit een grote populatie
  • Onze individuen zijn onafhankelijk van elkaar gekozen.
  • Er zijn minstens 15 successen en 15 mislukkingen in onze steekproef.

Als het laatste item niet tevreden is, is het misschien mogelijk om onze steekproef enigszins aan te passen en een plus-vier betrouwbaarheidsinterval te gebruiken. In wat volgt gaan we ervan uit dat aan alle bovenstaande voorwaarden is voldaan.

Steekproef- en populatie-verhoudingen

We beginnen met de schatting voor onze populatie. Net zoals we een steekproefgemiddelde gebruiken om een ​​populatiegemiddelde te schatten, gebruiken we een steekproefverhouding om een ​​populatiegraad te schatten. Het bevolkingsaandeel is een onbekende parameter. De steekproefverhouding is een statistiek. Deze statistiek wordt gevonden door het aantal successen in onze steekproef te tellen en vervolgens te delen door het totale aantal personen in de steekproef.

Het bevolkingsaandeel wordt aangegeven met p en spreekt voor zichzelf. De notatie voor de steekproefverhouding is iets ingewikkelder. We geven een voorbeeldaandeel aan als p̂ en we lezen dit symbool als "p-hat" omdat het op de letter lijkt p met een hoed op de top.

Dit wordt het eerste deel van ons betrouwbaarheidsinterval. De schatting van p is p̂.

Steekproefverdeling van monsteraandeel

Om de formule voor de foutmarge te bepalen, moeten we nadenken over de steekproefverdeling van p̂. We moeten het gemiddelde, de standaardafwijking en de specifieke verdeling kennen waarmee we werken.

De steekproefverdeling van p̂ is een binomiale verdeling met kans van slagen p en n trials. Dit type willekeurige variabele heeft een gemiddelde van p en standaardafwijking van (p(1 - p) /n)0.5. Hier zijn twee problemen mee.

Het eerste probleem is dat een binomiale verdeling erg lastig kan zijn om mee te werken. De aanwezigheid van faculteiten kan tot zeer grote aantallen leiden. Dit is waar de voorwaarden ons helpen. Zolang aan onze voorwaarden wordt voldaan, kunnen we de binomiale verdeling schatten met de standaard normale verdeling.

Het tweede probleem is dat de standaardafwijking van p̂ gebruikt p in zijn definitie. De onbekende populatieparameter moet worden geschat met behulp van diezelfde parameter als een foutmarge. Deze cirkelredenering is een probleem dat moet worden opgelost.

De uitweg uit dit raadsel is om de standaarddeviatie te vervangen door de standaardfout. Standaardfouten zijn gebaseerd op statistieken, niet op parameters. Een standaardfout wordt gebruikt om een ​​standaardafwijking te schatten. Wat deze strategie de moeite waard maakt, is dat we niet langer de waarde van de parameter hoeven te weten p.

Formule

Om de standaardfout te gebruiken, vervangen we de onbekende parameter p met de statistiek p̂. Het resultaat is de volgende formule voor een betrouwbaarheidsinterval voor een bevolkingsaandeel:

p̂ + /- z * (p̂ (1 - p̂) /n)0.5.

Hier de waarde van z * wordt bepaald door ons niveau van vertrouwen C. Voor de standaard normale verdeling, precies C procent van de standaard normale verdeling ligt tussen -z * en z *. Gemeenschappelijke waarden voor z * omvatten 1.645 voor 90% vertrouwen en 1,96 voor 95% vertrouwen.

Voorbeeld

Laten we eens kijken hoe deze methode werkt met een voorbeeld. Stel dat we met 95% vertrouwen het percentage van de kiezers willen weten in een district dat zichzelf identificeert als Democratisch. We voeren een eenvoudige steekproef van 100 mensen in deze provincie en vinden dat 64 van hen identificeren als een democraat.

We zien dat aan alle voorwaarden is voldaan. De schatting van onze populatie is 64/100 = 0,64. Dit is de waarde van de steekproefverhouding p̂ en het is het centrum van ons betrouwbaarheidsinterval.

De foutmarge bestaat uit twee stukken. De eerste is z*. Zoals we al zeiden, is de waarde van voor 95% vertrouwen z* = 1,96.

Het andere deel van de foutmarge wordt gegeven door de formule (p̂ (1 - p̂) /n)0.5. We stellen p̂ = 0,64 in en berekenen = de standaardfout (0,64 (0,36) / 100)0.5 = 0,048.

We vermenigvuldigen deze twee getallen samen en verkrijgen een foutmarge van 0,09408. Het eindresultaat is:

0,64 +/- 0,09408,

of we kunnen dit herschrijven als 54.592% tot 73.408%. We hebben er dus 95% vertrouwen in dat het werkelijke bevolkingsaandeel van democraten ergens tussen deze percentages ligt. Dit betekent dat op lange termijn onze techniek en formule het bevolkingsaandeel van 95% van de tijd zal vangen.

Gerelateerde ideeën

Er zijn een aantal ideeën en onderwerpen die verband houden met dit type betrouwbaarheidsinterval. We kunnen bijvoorbeeld een hypothesetest uitvoeren met betrekking tot de waarde van de populatie. We kunnen ook twee verhoudingen van twee verschillende populaties vergelijken.