Forskel mellem klassificering og regression

Det vigtigste forskel mellem klassificering og regressionstræ er det i klassificering er de afhængige variabler kategoriske og uordnede, mens de afhængige variabler i regression er kontinuerlige eller ordnede hele værdier.

Klassificering og regression er indlæringsteknikker til at skabe modeller af forudsigelse fra indsamlede data. Begge teknikker præsenteres grafisk som klassificerings- og regressionstræer eller snarere flowdiagrammer med inddeling af data efter hvert trin, eller rettere sagt "gren" i træet. Denne proces kaldes rekursiv partitionering. Felter som Mining bruger disse klassificerings- og regressionslæringsteknikker. Denne artikel fokuserer på klassificeringstræet og regressionstræet.

INDHOLD

1. Oversigt og nøgleforskel
2. Hvad er klassificering
3. Hvad er regression
4. Sammenligning side ved side - Klassificering vs regression i tabelform
5. Resume

Hvad er klassificering?

Klassificering er en teknik, der bruges til at nå frem til et skema, der viser organisering af data, der starter med en forløbervariabel. De afhængige variabler er det, der klassificerer dataene.

Figur 01: Datamining

Klassificeringstræet starter med den uafhængige variabel, der forgrenes i to grupper som bestemt af de eksisterende afhængige variabler. Det er beregnet til at belyse svarene i form af kategorisering fremkaldt af de afhængige variabler.

Hvad er regression

Regression er en forudsigelsesmetode, der er baseret på en antaget eller kendt numerisk outputværdi. Denne outputværdi er resultatet af en række rekursive partitioneringer, hvor hvert trin har en numerisk værdi og en anden gruppe af afhængige variabler, der forgrener sig til et andet par som dette.

Regressionstræet starter med en eller flere forløbsvariabler og afsluttes med en endelig outputvariabel. De afhængige variabler er enten kontinuerlige eller diskrete numeriske variabler.

Hvad er forskellen mellem klassificering og regression?

 Klassificering vs regression

En træmodel, hvor målvariablen kan tage et diskret sæt værdier. En træmodel, hvor målvariablen kan tage kontinuerlige værdier typisk reelle tal.
Afhængig variabel
For klassificeringstræ er de afhængige variabler kategoriske. For regressionstræ er de afhængige variabler numeriske.
Værdier
Har en indstillet mængde uordnede værdier. Har enten diskrete endnu bestilte værdier eller udiskrete værdier.
Formål med konstruktion
Formålet med at konstruere regressionstræet er at passe et regressionssystem til hver determinantgren på en sådan måde, at den forventede outputværdi kommer op. Et klassificeringstræ forgrenes som bestemt af en afhængig variabel afledt fra den forrige knude.

Resume - Klassificering vs regression

Regression og klassificeringstræer er nyttige teknikker til at kortlægge den proces, der peger på et studeret resultat, hvad enten det er i klassificering eller en enkelt numerisk værdi. Forskellen mellem klassificeringstræet og regressionstræet er deres afhængige variabel. Klassificeringstræer har afhængige variabler, der er kategoriske og uordnede. Regressionstræer har afhængige variabler, der er kontinuerlige værdier eller ordnede hele værdier.

Reference:

1. "Decision Tree Learning". Wikipedia, Wikimedia Foundation, 13. maj 2018. Tilgængelig her 

Billede høflighed:

1.'Data Mining'By Arbeck - Eget arbejde, (CC BY 3.0) via Commons Wikimedia