I statistik refererer udtrykket prøveudtagning til valg af en del af samlede statistiske data med det formål at indhente relevant information om helheden. Samlet eller hel statistisk information om en bestemt karakter af alle medlemmer, der er omfattet af undersøgelsen, kaldes 'befolkning' eller 'univers'. (Das, N.G., 2010). Den valgte del af befolkningen, der bruges til at opnå egenskaber for befolkningen eller universet, kaldes 'prøve'. Befolkningen tages for at være lavet af individuelle enheder eller medlemmer, og nogle af enhederne er inkluderet i stikprøven. Det samlede antal enheder i befolkningen kaldes populationstørrelse, og det af stikprøven kaldes stikprøvestørrelse. Befolkning og prøve kan være endelig eller uendelig, og på lignende måde kan de være eksisterende eller hypotetiske.
varians: Variance er en numerisk værdi, der viser, hvor vidt de enkelte figurer i et datasæt distribuerer sig selv om middelværdien. Det er, hvor langt hvert tal er fra middelværdien og dermed fra hinanden. En varians af nulværdi betyder, at alle data er identiske. Mere variansen, jo mere er værdierne spredt om middelværdien og dermed fra hinanden. Mindre variansen, mindre er værdierne spredt om middelværdien og dermed fra hinanden, og variansen kan ikke være negativ.
Den største forskel mellem populationsvarians og stikprøvevarians vedrører beregning af variation. Variansen beregnes i fem trin. Det første middelværdi beregnes, derefter beregnes afvigelser fra gennemsnittet, og for det tredje er afvigelserne kvadratisk, for det fjerde opsummeres de kvadratiske afvigelser, og til sidst divideres denne sum med antallet af poster, som variansen beregnes for. Således varians = Σ (xi-x -) / n. Hvor xi = ith. Antal, x- = middelværdi og n = antal varer ...
Når nu variansen skal beregnes ud fra populationsdata, er n lig med antallet af poster. Så hvis afvigelse i blodtryk for alle 1000 mennesker skal beregnes ud fra data om blodtryk for alle 1000 mennesker, så er n = 1000. Men når afvigelsen beregnes ud fra prøvedata, skal der fratrækkes n for inden opdelingen af summen af de kvadratiske afvigelser. Således i ovenstående eksempel, hvis eksempeldata har 100 poster, vil nævneren være 100 - 1 = 99.
På grund af dette er variansværdien beregnet ud fra eksempeldata højere end den værdi, der kunne være fundet ud ved hjælp af populationsdata. Logikken med at gøre det er at kompensere for vores manglende information om befolkningsdata. Det er umuligt at finde ud af variansen i højder hos mennesker, for vores absolutte mangel på information om alle levende menneskers højder og ikke at tale om fremtiden. Selv hvis vi tager et moderat eksempel, som befolkningsdata om højderne for alle de levende mænd i USA, er det fysisk muligt, men omkostningerne og tiden, der er involveret i dette, ville besejre formålet med dens beregning. Dette er grunden til, at der er taget stikprøvedata til de fleste af de statistiske formål, og dette ledsages af mangel på oplysninger om størstedelen af data. For at kompensere dette er værdien af varians og standardafvigelse, der er kvadratroten af varians, højere i tilfælde af eksempeldata end afvigelse fra populationsdata.
Dette fungerer som et automatisk skjold for analytikere og beslutningstagere. Logikken gælder for beslutninger om kapitalbudgettering, personlig og erhvervsfinansiering, byggeri, trafikstyring og mange relevante felter. Dette hjælper stakeholderen til at være på den sikre side, mens han tager beslutning eller for andre konklusioner.
Resumé: Befolkningsvarians refererer til værdien af varians, der beregnes ud fra populationsdata, og prøvevarians er den varians, der er beregnet ud fra eksempeldata. På grund af denne værdi af nævneren i formlen for varians i tilfælde af eksempeldata er 'n-1', og den er 'n' for populationsdata. Som et resultat er både varians og standardafvigelse afledt fra eksempeldata mere end dem, der findes af populationsdata.