Regression vs korrelation
I statistikker er det vigtigt at bestemme forholdet mellem to tilfældige variabler. Det giver mulighed for at forudsige om en variabel i forhold til andre. Regressionsanalyse og korrelation anvendes i vejrprognoser, adfærd på det finansielle marked, etablering af fysiske forhold ved eksperimenter og i langt mere virkelige verdensscenarier.
Hvad er regression?
Regression er en statistisk metode, der bruges til at tegne forholdet mellem to variabler. Ofte når data indsamles kan der være variabler, der er afhængige af andre. Den nøjagtige forbindelse mellem disse variabler kan kun fastlægges ved regressionsmetoder. At bestemme dette forhold hjælper med at forstå og forudsige adfærd fra en variabel til den anden.
Den mest almindelige anvendelse af regressionsanalysen er at estimere værdien af den afhængige variabel for en given værdi eller række af værdier for de uafhængige variabler. For eksempel ved hjælp af regression kan vi fastlægge forholdet mellem råvareprisen og forbruget, baseret på de data, der er indsamlet fra en tilfældig stikprøve. Regressionsanalyse producerer regressionsfunktionen af et datasæt, som er en matematisk model, der bedst passer til de tilgængelige data. Dette kan nemt repræsenteres af en scatter-plot. Grafisk svarer regression til at finde den bedste passende kurve for give-datasættet. Kurvens funktion er regressionsfunktionen. Ved hjælp af den matematiske model kan efterspørgslen efter en vare forudsiges for en given pris.
Derfor er regressionsanalysen vidt brugt til at forudsige og forudsige. Det bruges også til at etablere sammenhænge i eksperimentelle data inden for områderne fysik, kemi og mange naturvidenskabelige og ingeniørdiscipliner. Hvis forholdet eller regressionsfunktionen er en lineær funktion, er processen kendt som en lineær regression. I scatter-plot kan det repræsenteres som en lige linje. Hvis funktionen ikke er en lineær kombination af parametrene, er regressionen ikke-lineær.
Hvad er korrelation?
Korrelation er et mål på styrken i forholdet mellem to variabler. Korrelationskoefficienten kvantificerer ændringsgraden i en variabel baseret på ændringen i den anden variabel. I statistikker er sammenhængen forbundet med begrebet afhængighed, som er det statistiske forhold mellem to variabler.
Pearsons's korrelationskoefficient eller bare korrelationskoefficienten r er en værdi mellem -1 og 1 (-1≤r≤ + 1). Det er den mest almindeligt anvendte korrelationskoefficient og gælder kun for et lineært forhold mellem variablerne. Hvis r = 0, findes der ikke noget forhold, og hvis r≥0, er forholdet direkte proportionalt; dvs. værdien af en variabel stiger med stigningen i den anden. Hvis r≤0, er forholdet omvendt proportionalt; dvs. den ene variabel falder, når den anden øges.
På grund af linearitetstilstanden kan korrelationskoefficient r også bruges til at bestemme tilstedeværelsen af et lineært forhold mellem variablerne.
Hvad er forskellen mellem regression og korrelation?
Regression giver formen for forholdet mellem to tilfældige variabler, og sammenhængen giver relationens styrke.
Regressionsanalyse producerer en regressionsfunktion, som hjælper med at ekstrapolere og forudsige resultater, mens korrelation kun muligvis giver information om, hvilken retning den kan ændre.
De mere nøjagtige lineære regressionsmodeller er givet ved analysen, hvis korrelationskoefficienten er højere. (| R | ≥0.8)