Standardafvigelse og varians er statistiske mål for spredning af
Formlen for standardafvigelse og varians udtrykkes ofte ved hjælp af:
Variationen af et sæt af n lige sandsynlige værdier kan skrives som:
Standardafvigelsen er kvadratroten af variationen:
Formler med græske bogstaver har en måde at se skræmmende på, men det er mindre kompliceret end det ser ud til. Sådan sættes det i enkle trin:
Det giver variansen. Tag den firkantede rod af variansen for at finde standardafvigelsen.
Denne fremragende video fra Khan Academy forklarer begreberne varians og standardafvigelse:
Lad os sige, at et datasæt inkluderer højden på seks mælkebøtter: 3 tommer, 4 tommer, 5 tommer, 4 tommer, 11 tommer og 6 tommer.
Find først middelværdien af datapunkterne: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5,5
Så middelhøjden er 5,5 inches. Nu har vi brug for afvigelserne, så vi finder forskellen for hver plante fra gennemsnittet: -2,5, -1,5, -,5, -1,5, 5,5, 1,5
Kvadratér hver afvigelse og find deres sum: 6,25 + 2,25 + 0,25 + 2,25 + 30,25 + 2,25 = 43,5
Del nu summen af kvadraterne med antallet af datapunkter, i dette tilfælde planter: 43,5 / 6 = 7,25
Så variansen af dette datasæt er 7,25, hvilket er et ret vilkårligt tal. For at konvertere det til en måling i den virkelige verden skal du tage firkantsroden på 7,25 for at finde standardafvigelsen i inches.
Standardafvigelsen er ca. 2,69 inches. Det betyder, at enhver mælkebøtte inden for 2,69 tommer fra gennemsnittet (5,5 tommer) for prøven er 'normal'.
Afvigelser er kvadreret for at forhindre, at negative værdier (afvigelser under middelværdien) annullerer de positive værdier. Dette fungerer, fordi et negativt antal i kvadrat bliver en positiv værdi. Hvis du havde et simpelt datasæt med afvigelser fra gennemsnittet af +5, +2, -1 og -6, vil summen af afvigelserne komme ud som nul, hvis værdierne ikke er kvadratiske (dvs. 5 + 2 - 1 - 6 = 0).
Variance udtrykkes som en matematisk spredning. Da det er et vilkårligt tal i forhold til de originale målinger af datasættet, er det vanskeligt at visualisere og anvende i en reel forstand. At finde variansen er normalt bare det sidste trin, før du finder standardafvigelsen. Variantværdier bruges undertiden i finans- og statistikformler.
Standardafvigelse, der udtrykkes i de originale enheder i datasættet, er meget mere intuitiv og tættere på værdierne for det originale datasæt. Det bruges ofte til at analysere demografi eller populationsprøver for at få en fornemmelse af, hvad der er normalt i befolkningen.
I en normal fordeling falder ca. 68% af befolkningen (eller værdierne) inden for 1 standardafvigelse (1σ) af gennemsnittet, og ca. 94% falder inden for 2σ. Værdier, der adskiller sig fra gennemsnittet med 1,7 or eller mere, betragtes normalt som outliers.
I praksis forsøger kvalitetssystemer som Six Sigma at reducere frekvensen af fejl, så fejl bliver en outlier. Udtrykket "six sigma process" kommer fra forestillingen om, at hvis man har seks standardafvigelser mellem procesgennemsnittet og den nærmeste specifikationsgrænse, praktisk talt vil ingen varer ikke opfylde specifikationerne.[1]
I applikationer i den virkelige verden repræsenterer de anvendte datasæt normalt populationsprøver snarere end hele populationer. En let modificeret formel bruges, hvis populationsdækkende konklusioner skal drages fra en delvis prøve.
En 'prøvestandardafvigelse' bruges, hvis alt hvad du har er en prøve, men du ønsker at afgive en erklæring om den populationsstandardafvigelse, som prøven trækkes fra
Den eneste måde, hvor prøveeksempler med standardafvigelse adskiller sig fra standardafvigelsesformlen, er “-1” i nævneren.
Ved hjælp af eksempel på mælkebøtte ville denne formel være nødvendigt, hvis vi kun indtager stikprøven på 6 mælkebøtter, men ville bruge denne prøve til at angive standardafvigelsen for hele feltet med hundreder af mælkebøtter.
Summen af firkanter vil nu blive divideret med 5 i stedet for 6 (n - 1), hvilket giver en varians på 8,7 (i stedet for 7,25), og en prøvestandardafvigelse på 2,95 tommer i stedet for 2,69 tommer for den originale standardafvigelse. Denne ændring bruges til at finde en fejlmargin i en prøve (9% i dette tilfælde).