Standardafvigelse vs. variation

Standardafvigelse og varians er statistiske mål for spredning af StandardafvigelsevariansMatematisk formel Firkantet rod af variation Gennemsnit af kvadraterne for afvigelser for hver værdi fra gennemsnittet i en prøve. Symbol Græsk bogstav sigma - σ Intet dedikeret symbol; udtrykt i form af standardafvigelse eller andre værdier. Værdier i forhold til givet datasæt Samme skala som værdier i det givne datasæt; derfor udtrykt i de samme enheder. Skala større end værdierne i det givne datasæt; ikke udtrykt i samme enhed som værdierne i sig selv. Er værdier negative eller positive? Altid ikke-negativ Altid ikke-negativ Real World Application Befolkningsudtagning; identificere outliers Statistiske formler, finansiering.

Indhold: Standardafvigelse vs variation

  • 1 Vigtige koncepter
  • 2 symboler
  • 3 formler
  • 4 Eksempel
    • 4.1 Hvorfor kvadrere afvigelserne?
  • 5 Real World-applikationer
    • 5.1 Finde outliers
  • 6 Eksempelstandardafvigelse
  • 7 Referencer

Vigtige koncepter

  • Betyde: gennemsnittet af alle værdier i et datasæt (tilføj alle værdier og del deres sum med antallet af værdier).
  • Afvigelse: afstanden for hver værdi fra gennemsnittet. Hvis middelværdien er 3, har en værdi af 5 en afvigelse på 2 (trækker gennemsnittet fra værdien). Afvigelse kan være positiv eller negativ.

Symboler

Formlen for standardafvigelse og varians udtrykkes ofte ved hjælp af:

  • x̅ = middelværdien eller gennemsnittet af alle datapunkter i problemet
  • X = et individuelt datapunkt
  • N = antallet af punkter i datasættet
  • ∑ = summen af ​​[kvadraterne for afvigelserne]

formler

Variationen af ​​et sæt af n lige sandsynlige værdier kan skrives som:

Standardafvigelsen er kvadratroten af ​​variationen:

Formler med græske bogstaver har en måde at se skræmmende på, men det er mindre kompliceret end det ser ud til. Sådan sættes det i enkle trin:

  1. find gennemsnittet af alle datapunkter
  2. find ud af, hvor langt hvert punkt er væk fra gennemsnittet (dette er afvigelsen)
  3. kvadratisk hvert afvigelse (dvs. forskellen mellem hver værdi og gennemsnittet)
  4. divider summen af ​​firkanterne med antallet af point.

Det giver variansen. Tag den firkantede rod af variansen for at finde standardafvigelsen.

Denne fremragende video fra Khan Academy forklarer begreberne varians og standardafvigelse:

Eksempel

Lad os sige, at et datasæt inkluderer højden på seks mælkebøtter: 3 tommer, 4 tommer, 5 tommer, 4 tommer, 11 tommer og 6 tommer.

Find først middelværdien af ​​datapunkterne: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5,5

Så middelhøjden er 5,5 inches. Nu har vi brug for afvigelserne, så vi finder forskellen for hver plante fra gennemsnittet: -2,5, -1,5, -,5, -1,5, 5,5, 1,5

Kvadratér hver afvigelse og find deres sum: 6,25 + 2,25 + 0,25 + 2,25 + 30,25 + 2,25 = 43,5

Del nu summen af ​​kvadraterne med antallet af datapunkter, i dette tilfælde planter: 43,5 / 6 = 7,25

Så variansen af ​​dette datasæt er 7,25, hvilket er et ret vilkårligt tal. For at konvertere det til en måling i den virkelige verden skal du tage firkantsroden på 7,25 for at finde standardafvigelsen i inches.

Standardafvigelsen er ca. 2,69 inches. Det betyder, at enhver mælkebøtte inden for 2,69 tommer fra gennemsnittet (5,5 tommer) for prøven er 'normal'.

Hvorfor kvadrere afvigelserne?

Afvigelser er kvadreret for at forhindre, at negative værdier (afvigelser under middelværdien) annullerer de positive værdier. Dette fungerer, fordi et negativt antal i kvadrat bliver en positiv værdi. Hvis du havde et simpelt datasæt med afvigelser fra gennemsnittet af +5, +2, -1 og -6, vil summen af ​​afvigelserne komme ud som nul, hvis værdierne ikke er kvadratiske (dvs. 5 + 2 - 1 - 6 = 0).

Real World Applications

Variance udtrykkes som en matematisk spredning. Da det er et vilkårligt tal i forhold til de originale målinger af datasættet, er det vanskeligt at visualisere og anvende i en reel forstand. At finde variansen er normalt bare det sidste trin, før du finder standardafvigelsen. Variantværdier bruges undertiden i finans- og statistikformler.

Standardafvigelse, der udtrykkes i de originale enheder i datasættet, er meget mere intuitiv og tættere på værdierne for det originale datasæt. Det bruges ofte til at analysere demografi eller populationsprøver for at få en fornemmelse af, hvad der er normalt i befolkningen.

At finde outliers

En normal fordeling (Bell-kurve) med bånd svarende til 1σ

I en normal fordeling falder ca. 68% af befolkningen (eller værdierne) inden for 1 standardafvigelse (1σ) af gennemsnittet, og ca. 94% falder inden for 2σ. Værdier, der adskiller sig fra gennemsnittet med 1,7 or eller mere, betragtes normalt som outliers.

I praksis forsøger kvalitetssystemer som Six Sigma at reducere frekvensen af ​​fejl, så fejl bliver en outlier. Udtrykket "six sigma process" kommer fra forestillingen om, at hvis man har seks standardafvigelser mellem procesgennemsnittet og den nærmeste specifikationsgrænse, praktisk talt vil ingen varer ikke opfylde specifikationerne.[1]

Eksempel på standardafvigelse

I applikationer i den virkelige verden repræsenterer de anvendte datasæt normalt populationsprøver snarere end hele populationer. En let modificeret formel bruges, hvis populationsdækkende konklusioner skal drages fra en delvis prøve.

En 'prøvestandardafvigelse' bruges, hvis alt hvad du har er en prøve, men du ønsker at afgive en erklæring om den populationsstandardafvigelse, som prøven trækkes fra

Den eneste måde, hvor prøveeksempler med standardafvigelse adskiller sig fra standardafvigelsesformlen, er “-1” i nævneren.

Ved hjælp af eksempel på mælkebøtte ville denne formel være nødvendigt, hvis vi kun indtager stikprøven på 6 mælkebøtter, men ville bruge denne prøve til at angive standardafvigelsen for hele feltet med hundreder af mælkebøtter.

Summen af ​​firkanter vil nu blive divideret med 5 i stedet for 6 (n - 1), hvilket giver en varians på 8,7 (i stedet for 7,25), og en prøvestandardafvigelse på 2,95 tommer i stedet for 2,69 tommer for den originale standardafvigelse. Denne ændring bruges til at finde en fejlmargin i en prøve (9% i dette tilfælde).

Referencer

  • Enkelt eksempel på beregning af standardafvigelse - AppSpot
  • Standardafvigelsesformler - Matematik er sjov
  • Absoluut afvigelse og variation - Laerd Statistik
  • Standardafvigelse og variation - Matematik er sjov
  • Wikipedia: Standardafvigelse
  • Wikipedia: Variance # Egenskaber
  • Område, varians og standardafvigelse som mål for spredning - Khan Academy
  • Tilstande, medianer og midler: Et samlende perspektiv