Variance vs Covariance
Variance og covariance er to mål, der bruges i statistikker. Variance er et mål for spredningen af dataene, og samvariation indikerer graden af ændring af to tilfældige variabler sammen. Variance er snarere et intuitivt begreb, men samvariation er matematisk defineret i ikke så intuitivt i starten.
Mere om variation
Variance er et mål for spredning af dataene fra middelværdien af fordelingen. Den fortæller, hvor langt datapunkter ligger fra gennemsnittet af fordelingen. Det er en af de primære beskrivelser af sandsynlighedsfordelingen og et af fordelingsmomenterne. Varians er også en parameter for populationen, og variansen af en prøve fra befolkningen fungerer som en estimator for variationen i populationen. Fra et perspektiv defineres det som kvadratet for standardafvigelsen.
På almindeligt sprog kan det beskrives som gennemsnittet af kvadraterne for afstanden mellem hvert datapunkt og gennemsnittet af fordelingen. Følgende formel bruges til at beregne variansen.
Var (X) = E [(X-μ)2 ] for en befolkning, og
Var (X) = E [(X-~x)2 ] for en prøve
Det kan yderligere forenkles at give Var (X) = E [X2 ] - (E [X])2.
Variance har nogle signaturegenskaber, og ofte brugt i statistikker for at gøre brugen enklere. Variationen er ikke-negativ, fordi det er kvadratet på afstande. Variansens rækkevidde er dog ikke begrænset og afhænger af den særlige distribution. Varianten af en konstant tilfældig variabel er nul, og variansen ændres ikke med hensyn til en lokaliseringsparameter.
Mere om Covariance
I statistisk teori er samvariation et mål for, hvor meget to tilfældige variabler ændrer sig sammen. Med andre ord er samvariation et mål på styrken af korrelationen mellem to tilfældige variabler. Det kan også betragtes som en generalisering af begrebet varians mellem to tilfældige variabler.
Kovarians af to tilfældige variabler X og Y, der er fordelt i fællesskab med endelig anden momentum, kaldes σXY= E [(X-E [X]) (Y-E [Y])]. Fra dette kan varians ses som et specielt tilfælde af covariance, hvor to variabler er de samme. Cov (X, X) = Var (X)
Ved at normalisere kovariansen kan den lineære korrelationskoefficient eller Pearsons korrelationskoefficient opnås, som er defineret som ρ = E [(X-E [X]) (Y-E [Y])] / (σx σY ) = (Cov (X, Y)) / (σx σY)
Grafisk set kan samvariation mellem et par datapunkter ses som området af rektanglet med datapunkterne i de modsatte hjørner. Det kan fortolkes som et mål på størrelsen af adskillelsen mellem de to datapunkter. I betragtning af rektanglerne for hele befolkningen kan overlapningen af rektanglerne, der svarer til alle datapunkter, betragtes som styrken af separationen; varians af de to variabler. Kovarians er i to dimensioner på grund af to variabler, men forenkling af den til en variabel giver variationen af en enkelt som adskillelsen i en dimension.
Hvad er forskellen mellem Variance og Covariance?
• Variance er målet for spredning / spredning i en population, mens kovarians betragtes som et mål for variation af to tilfældige variabler eller styrken af korrelationen.
• Variance kan betragtes som et specielt tilfælde af covariance.
• Variance og covariance er afhængig af størrelsen af dataværdierne og kan ikke sammenlignes; derfor normaliseres de. Kovarians normaliseres i korrelationskoefficienten (divideres med produktet af standardafvigelserne for de to tilfældige variabler), og variansen normaliseres til standardafvigelsen (ved at tage kvadratroten)