Central tendens vs spredning
I beskrivende og inferentiel statistik bruges flere indekser til at beskrive et datasæt svarende til dets centrale tendens, spredning og skævhed: de tre vigtigste egenskaber, der bestemmer den relative form for fordelingen af et datasæt.
Hvad er den centrale tendens?
Central tendens henviser til og lokaliserer centrum for fordelingen af værdier. Gennemsnit, tilstand og median er de mest almindeligt anvendte indekser til beskrivelse af et datasæts centrale tendens. Hvis et datasæt er symmetrisk, falder både medianen og gennemsnittet af datasættet sammen.
Givet et datasæt beregnes middelværdien ved at tage summen af alle dataværdier og derefter dele det med antallet af data. For eksempel måles vægten på 10 personer (i kg) til at være 70, 62, 65, 72, 80, 70, 63, 72, 77 og 79. Derefter kan de gennemsnitlige vægt af de ti personer (i kg) være beregnet som følger. Summen af vægtene er 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79 = 710. Gennemsnit = (sum) / (antal data) = 710/10 = 71 (i kg). Det forstås, at outliers (datapunkter, der afviger fra den normale tendens) har en tendens til at påvirke middelværdien. I nærvær af outliers vil middelværdi alene ikke give et korrekt billede af centrum af datasættet.
Medianen er datapunktet, der findes i den nøjagtige midt i datasættet. En måde at beregne medianen er at bestille datapunkterne i stigende rækkefølge og derefter lokalisere datapunktet i midten. For eksempel, hvis det forrige datasæt en gang er bestilt, ser det ud, 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Derfor er (70 + 72) / 2 = 71 i midten. Fra dette ses det, at median ikke behøver at være i datasættet. Median påvirkes ikke af tilstedeværelsen af udliggerne. Derfor vil medianen fungere som et bedre mål for central tendens i nærværelse af outliers.
Funktionen er den hyppigst forekommende værdi i datasættet. I det foregående eksempel forekommer værdien 70 og 72 begge to gange, og derfor er begge tilstande. Dette viser, at der i nogle distributioner er mere end en modal værdi. Hvis der kun er én tilstand, siges datasættet at være unimodalt, i dette tilfælde er datasættet bimodalt.
Hvad er spredning?
Spredning er mængden af spredning af data om distributionens centrum. Område og standardafvigelse er de mest anvendte målinger af spredning.
Området er simpelthen den højeste værdi minus den laveste værdi. I det foregående eksempel er den højeste værdi 80 og den laveste værdi 62, så området er 80-62 = 18. Men interval giver ikke et tilstrækkeligt billede af spredningen.
For at beregne standardafvigelsen beregnes først afvigelserne af dataværdier fra gennemsnittet. Rodkvadratværdien af afvigelser kaldes standardafvigelsen. I det foregående eksempel er de respektive afvigelser fra gennemsnittet (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) = 1, (80 - 71) = 9, (70 - 71) = -1, (63 - 71) = -8, (72 - 71) = 1, (77 - 71) = 6 og (79 - 71) = 8. Summen af afvigelsekvadrat er (-1)2 + (-9)2 + (-6)2 + 12 + 92 + (-1)2 + (-8)2 + 12 + 62 + 82 = 366. Standardafvigelsen er √ (366/10) = 6,05 (i kg). Medmindre datasættet er meget skævt, kan det heraf konkluderes, at størstedelen af dataene er i intervallet 71 ± 6,05, og det er faktisk tilfældet i dette særlige eksempel.
Hvad er forskellen mellem central tendens og spredning? • Central tendens henviser til og lokaliserer centrum for fordelingen af værdier • Spredning er mængden af spredning af data om midten af et datasæt.
|