Lineær vs logistisk regression
I statistisk analyse er det vigtigt at identificere forholdet mellem de berørte variabler til undersøgelsen. Nogle gange kan det være det eneste formål med selve analysen. Et stærkt værktøj, der anvendes til at fastslå eksistensen af forhold og identificere forholdet, er regressionsanalyse.
Den enkleste form for regressionsanalyse er den lineære regression, hvor forholdet mellem variablerne er et lineært forhold. Statistisk set viser det forholdet mellem den forklarende variabel og responsvariablen. For eksempel kan vi ved hjælp af regression etablere forholdet mellem råvareprisen og forbruget baseret på data indsamlet fra en tilfældig stikprøve. Regressionsanalyse vil producere en regressionsfunktion af datasættet, som er en matematisk model, der bedst passer til de tilgængelige data. Dette kan nemt repræsenteres af en scatter-plot. Grafisk regression svarer til at finde den bedste passende kurve for det givne datasæt. Kurvens funktion er regressionsfunktionen. Ved hjælp af den matematiske model kan brugen af en vare forudsiges for en given pris.
Derfor er regressionsanalysen vidt brugt til at forudsige og forudsige. Det bruges også til at etablere sammenhænge i eksperimentelle data inden for fysik, kemi og i mange naturvidenskabelige og ingeniørdiscipliner. Hvis forholdet eller regressionsfunktionen er en lineær funktion, er processen kendt som en lineær regression. I scatter-plot kan det repræsenteres som en lige linje. Hvis funktionen ikke er en lineær kombination af parametrene, er regressionen ikke-lineær.
Logistisk regression kan sammenlignes med multivariat regression, og den skaber en model til at forklare virkningen af flere prediktorer på en responsvariabel. I logistisk regression skal slutresultatvariablen imidlertid være kategorisk (normalt opdelt; dvs. et par opnåelige resultater, som død eller overlevelse, skønt specielle teknikker muliggør modellering af mere kategoriseret information). En kontinuerlig udgangsvariabel kan omdannes til en kategorisk variabel, der skal bruges til logistisk regression; kollapsede kontinuerlige variabler på denne måde frarådes imidlertid stort set, fordi det reducerer nøjagtigheden.
I modsætning til i den lineære regression behøver ikke prediktorvariablerne i logistisk regression at blive tvunget til at være lineært forbundet, ofte distribueret eller for at have samme varians i hver klynge. Som et resultat er forholdet mellem prediktoren og udgangsvariablerne sandsynligvis ikke en lineær funktion.
Hvad er forskellen mellem logistisk og lineær regression?
• Ved lineær regression antages en lineær forbindelse mellem den forklarende variabel og responsvariablen, og parametre, der tilfredsstiller modellen, findes ved analyse for at give det nøjagtige forhold.
• Lineær regression udføres for kvantitative variabler, og den resulterende funktion er en kvantitativ.
• I den logistiske regression kan anvendte data være kategoriske eller kvantitative, men resultatet er altid kategorisk.