Introduktion
Standard Deviation (SD) og Standard Error (SE) er tilsyneladende lignende terminologier; de er imidlertid begrebsmæssigt så forskellige, at de næsten udskiftes i statistiklitteraturen. Begge termer er normalt forudgående med et plus-minus-symbol (+/-), hvilket er tegn på det faktum, at de definerer en symmetrisk værdi eller repræsenterer et interval af værdier. I begge tilfælde vises begge udtryk med et gennemsnit (gennemsnit) af et sæt målte værdier.
Interessant nok har en SE intet at gøre med standarder, med fejl eller med formidling af videnskabelige data.
Et detaljeret kig på oprindelsen og forklaringen til SD og SE vil afsløre, hvorfor professionelle statistikere og dem, der bruger det cursorily, begge har en tendens til at fejle.
Standardafvigelse (SD)
En SD er en beskrivende statistik, der beskriver spredningen af en distribution. Som en metrisk er det nyttigt, når dataene normalt distribueres. Det er dog mindre nyttigt, når data er meget skæve eller bimodale, fordi de ikke beskriver fordelingen af formen meget godt. Vi bruger typisk SD, når vi rapporterer egenskaberne for prøven, fordi vi agter at gøre det beskrive hvor meget dataene varierer omkring gennemsnittet. Andre nyttige statistikker til at beskrive spredningen af dataene er inter-kvartil interval, den 25. og 75. procentdel og intervallet af data.
Figur 1. SD er et mål for spredningen af dataene. Når data er en prøve fra en normalt distribueret distribution, forventer man, at to tredjedele af dataene ligger inden for 1 standardafvigelse fra gennemsnittet.
Variance er a beskrivende statistik også, og det er defineret som kvadratet for standardafvigelsen. Det rapporteres normalt ikke, når man beskriver resultater, men det er en mere matematisk drejelig formel (f.eks. Summen af kvadratiske afvigelser) og spiller en rolle i beregningen af statistikker.
For eksempel, hvis vi har to statistikker P & Q med kendte afvigelser Var(P) & Var(Q), derefter variansen af summen P + Q er lig med summen af afvigelserne: Var(P) +Var(Q). Det er nu tydeligt, hvorfor statistikere kan lide at tale om afvigelser.
Men standardafvigelser har en vigtig betydning for spredning, især når dataene normalt distribueres: Intervalets middelværdi +/ - 1 SD kan forventes at fange 2/3 af prøven og intervallet gennemsnit +- 2 SD kan forventes at fange 95% af prøven.
SD giver en indikation af, hvor langt de enkelte svar på et spørgsmål varierer eller "afviger" fra gennemsnittet. SD fortæller forskeren, hvordan spredte svar er - er de koncentreret omkring middelværdien, eller spredt langt og bredt? Vurderede alle dine respondenter dit produkt midt i din skala, eller godkendte nogle det, og nogle afviste det?
Overvej et eksperiment, hvor respondenterne bliver bedt om at bedømme et produkt på en række attributter i en 5-punkts skala. Gennemsnittet for en gruppe på ti respondenter (mærket 'A' til 'J' nedenfor) for "god værdi for pengene" var 3,2 med en SD på 0,4 og middelværdien for "produktpålidelighed" var 3,4 med en SD på 2,1.
Ved første øjekast (kun set på midlerne) ser det ud til, at pålideligheden blev bedømt højere end værdien. Men den højere SD for pålidelighed kunne indikere (som vist i fordelingen nedenfor), at svarene var meget polariserede, hvor de fleste respondenter ikke havde nogen pålidelighedsproblemer (bedømte attributten som en "5"), men et mindre, men vigtigt segment af respondenterne havde et pålidelighedsproblem og vurderede attributten “1”. At se på middelværdien alene fortæller kun en del af historien, men ofte er det forskere, der fokuserer på. Fordelingen af svar er vigtig at overveje, og SD giver et værdifuldt beskrivende mål for dette.
Respondenten | God værdi for pengene | Produkt pålidelighed |
EN | 3 | 1 |
B | 3 | 1 |
C | 3 | 1 |
D | 3 | 1 |
E | 4 | 5 |
F | 4 | 5 |
G | 3 | 5 |
H | 3 | 5 |
jeg | 3 | 5 |
J | 3 | 5 |
Betyde | 3.2 | 3.4 |
Std. dev. | 0,4 | 2.1 |
Første undersøgelse: Respondenter bedømmer et produkt i en 5-punkts skala
To meget forskellige fordelinger af svar til en 5-punkts bedømmelsesskala kan give det samme gennemsnit. Overvej følgende eksempel, der viser responsværdier for to forskellige ratings.
I det første eksempel (Bedømmelse “A”) er SD nul, fordi ALLE svar var nøjagtigt middelværdien. De individuelle svar afviste slet ikke fra gennemsnittet.
I bedømmelse “B” er standardafvigelsen højere, selvom gruppemidlet er det samme (3.0) som den første distribution. Standardafvigelsen fra 1.15 viser, at de individuelle svar i gennemsnit * var lidt over 1 point væk fra gennemsnittet.
Respondenten | Bedømmelse “A” | Bedømmelse “B” |
EN | 3 | 1 |
B | 3 | 2 |
C | 3 | 2 |
D | 3 | 3 |
E | 3 | 3 |
F | 3 | 3 |
G | 3 | 3 |
H | 3 | 4 |
jeg | 3 | 4 |
J | 3 | 5 |
Betyde | 3,0 | 3,0 |
Std. dev. | 0.00 | 1,15 |
Anden undersøgelse: Respondenter bedømmer et produkt i en 5-punkts skala
En anden måde at se på SD er ved at plotte distributionen som et histogram af svar. En fordeling med en lav SD ville vises som en høj smal form, mens en stor SD ville blive indikeret med en bredere form.
SD angiver generelt ikke "rigtigt eller forkert" eller "bedre eller værre" - en lavere SD er ikke nødvendigvis mere ønskelig. Det bruges rent som en beskrivende statistik. Den beskriver fordelingen i forhold til gennemsnittet.
Tteknisk ansvarsfraskrivelse vedrørende SD
At tænke på SD som en ”gennemsnitlig afvigelse” er en glimrende måde at begrebeligt forstå dens betydning. Imidlertid beregnes det ikke faktisk som et gennemsnit (hvis det var, vil vi kalde det ”gennemsnitafvigelse”). I stedet er det "standardiseret", en noget kompleks metode til beregning af værdien ved hjælp af summen af firkanterne.
Til praktiske formål er beregningen ikke vigtig. De fleste tabelprogrammer, regneark eller andre datastyringsværktøjer beregner SD'en for dig. Mere vigtigt er at forstå, hvad statistikken formidler.
Standard fejl
En standardfejl er en empiriske statistik, der bruges, når man sammenligner stikprøven betyder (gennemsnit) på tværs af populationer. Det er et mål for præcision af gennemsnittet af prøven. Prøveværdien er en statistik afledt af data, der har en underliggende fordeling. Vi kan ikke visualisere det på samme måde som dataene, da vi har udført et enkelt eksperiment og kun har en enkelt værdi. Statistisk teori fortæller os, at eksempeldelen (for en stor "nok" prøve og under få regulære betingelser) er omtrent normalt fordelt. Standardafvigelsen for denne normale distribution er, hvad vi kalder standardfejlen.
Figur 2. Distributionen nederst represænker fordelingen af dataene, mens fordelingen øverst er den teoretiske fordeling af eksempelmidlet. SD'et på 20 er et mål for spredningen af dataene, mens SE 5 er et mål for usikkerhed omkring gennemsnittet af stikprøven.
Når vi ønsker at sammenligne midlerne til resultater fra et to-prøveeksperiment af Behandling A vs. Behandling B, så er vi nødt til at estimere, hvor præcist vi har målt måderne.
Faktisk er vi interesseret i, hvor præcist vi har målt forskellen mellem de to midler. Vi kalder dette mål for standardfejlen til forskellen. Du er måske ikke overrasket over at høre, at standardfejlen til forskellen i prøveindretningen er en funktion af standardfejlene til midlerne:
Nu, hvor du har forstået, at standardfejlen i middelværdien (SE) og standardafvigelsen for distributionen (SD) er to forskellige dyr, kan du undre dig over, hvordan de blev forvirrede i første omgang. Selvom de adskiller sig konceptuelt, har de et simpelt forhold matematisk:
,hvor n er antallet af datapunkter.
Bemærk, at standardfejlen afhænger af to komponenter: standardafvigelsen for prøven og størrelsen på prøven n. Dette giver intuitiv mening: jo større standardafvigelse af prøven er, desto mindre præcise kan vi være omkring vores estimat af det sande middelværdi.
Jo større prøvestørrelse er, jo mere information har vi om befolkningen, og jo mere præcist kan vi estimere det sande middelværdi.
SE er en indikation af gennemsnittets pålidelighed. En lille SE er en indikation af, at eksempeldelen er en mere nøjagtig afspejling af det faktiske populationsmiddelværdi. En større prøvestørrelse resulterer normalt i en mindre SE (mens SD ikke er direkte påvirket af prøvestørrelse).
Den fleste undersøgelsesundersøgelser involverer at tegne en prøve fra en befolkning. Derefter foretager vi konklusioner om populationen fra de resultater, der er opnået fra den prøve. Hvis der blev trukket en anden prøve, svarer resultaterne sandsynligvis ikke nøjagtigt til den første prøve. Hvis middelværdien for en bedømmelsesattribut var 3,2 for en prøve, kan den muligvis være 3,4 for en anden prøve af samme størrelse. Hvis vi skulle trække et uendeligt antal prøver (af samme størrelse) fra vores befolkning, kunne vi vise de observerede midler som en fordeling. Vi kunne derefter beregne et gennemsnit af alle vores prøveeksempler. Dette middel ville svare til det sande befolkningsgennemsnit. Vi kan også beregne SD'et for fordelingen af prøvemidler. SD for denne fordeling af prøveorganer er SE for hvert individuelt prøvemiddel.
Vi har således vores mest markante observation: SE er SD for befolkningens middelværdi.
Prøve | Betyde |
1st | 3.2 |
2nd | 3.4 |
3. | 3.3 |
4. | 3.2 |
5. | 3.1 |
... . | ... . |
... . | ... . |
... . | ... . |
... . | ... . |
... . | ... . |
Betyde | 3.3 |
Std. dev. | 0,13 |
Tabel, der illustrerer forholdet mellem SD og SE
Det er nu klart, at hvis SD for denne distribution hjælper os med at forstå, hvor langt et stikprøven er fra det sande befolknings middelværdi, så kan vi bruge dette til at forstå, hvor nøjagtigt ethvert individuelt eksempelmiddel er i forhold til det sande middelværdi. Det er essensen i SE.
I virkeligheden har vi kun trukket en enkelt prøve fra vores befolkning, men vi kan bruge dette resultat til at give et skøn over pålideligheden af vores observerede prøve-middelværdi.
Faktisk fortæller SE os, at vi kan være 95% sikre på, at vores observerede prøve middelværdi er plus eller minus cirka 2 (faktisk 1,96) Standardfejl fra befolkningsgenomsnittet.
Nedenstående tabel viser fordelingen af svar fra vores første (og eneste) prøve, der blev brugt til vores forskning. SE-værdien på 0,13, da den er relativt lille, giver os en indikation af, at vores gennemsnit er relativt tæt på det sande gennemsnit af vores samlede befolkning. Fejlmargenen (med 95% konfidens) for vores gennemsnit er (nogenlunde) det dobbelte af den værdi (+/- 0,26), hvilket fortæller os, at det sande gennemsnit mest sandsynligt er mellem 2,94 og 3,46.
Respondenten | Bedømmelse |
EN | 3 |
B | 3 |
C | 3 |
D | 3 |
E | 4 |
F | 4 |
G | 3 |
H | 3 |
jeg | 3 |
J | 3 |
Betyde | 3.2 |
Std. Err | 0,13 |
Resumé
Mange forskere forstår ikke sondringen mellem standardafvigelse og standardfejl, selvom de ofte er inkluderet i dataanalyse. Mens de faktiske beregninger for Standardafvigelse og Standardfejl ser meget ens ud, repræsenterer de to meget forskellige, men komplementære, mål. SD fortæller os om formen på vores distribution, hvor tæt de individuelle dataværdier er fra middelværdien. SE fortæller os, hvor tæt vores gennemsnit er til det sande gennemsnit af den samlede befolkning. Sammen hjælper de med at give et mere komplet billede, end gennemsnittet alene kan fortælle os.