Forskellen mellem Bagging og Random Forest

I årenes løb har flere klassificeringssystemer, også kaldet ensemblesystemer, været et populært forskningsemne og nydt voksende opmærksomhed inden for computern intelligens og maskinlæring samfund. Det tiltrakk forskere fra flere områder, herunder maskinlæring, statistik, mønstergenkendelse og videnopdagelse i databaser. Over tid har ensemblemetoderne vist sig at være meget effektive og alsidige inden for et bredt spektrum af problemdomæner og applikationer i den virkelige verden. Oprindeligt udviklet til at reducere variationen i automatiseret beslutningstagningssystem, har ensemblemetoder siden været anvendt til at tackle en række maskinlæringsproblemer. Vi præsenterer en oversigt over de to mest fremtrædende ensemble-algoritmer - Bagging og Random Forest - og diskuterer derefter forskellene mellem de to.

I mange tilfælde har bagging, der anvender bootstrap-sampling, klassificerings-tress vist sig at have større nøjagtighed end et enkelt klassificeringstræ. Bagging er en af ​​de ældste og enkleste ensemble-baserede algoritmer, der kan anvendes på træbaserede algoritmer for at forbedre præcisionen i forudsigelserne. Der er endnu en forbedret version af bagging, der kaldes Random Forest-algoritme, som i det væsentlige er et ensemble af beslutningstræer, der er trænet med en posemekanisme. Lad os se, hvordan den tilfældige skovalgoritme fungerer, og hvordan er den anderledes end bagging i ensemble-modeller.

afsækningskapacitet

Bootstrap-aggregering, også kendt som bagging, er en af ​​de tidligste og enkleste ensemble-baserede algoritmer for at gøre beslutningstræer mere robuste og for at opnå bedre ydelse. Konceptet bag bagging er at kombinere forudsigelser fra flere baselærere for at skabe et mere nøjagtigt output. Leo Breiman introducerede bagging-algoritmen i 1994. Han viste, at bootstrap-aggregering kan give de ønskede resultater i ustabile læringsalgoritmer, hvor små ændringer i træningsdataene kan forårsage store variationer i forudsigelserne. En bootstrap er en prøve af et datasæt med udskiftning, og hver prøve genereres ved ensartet prøveudtagning af m-størrelse træningssæt, indtil et nyt sæt med m-instanser er opnået.

Tilfældig skov

Tilfældig skov er en overvåget maskinlæringsalgoritme, der er baseret på ensemblæring og en udvikling af Breimans oprindelige baggingalgoritme. Det er en stor forbedring i forhold til sække beslutningstræer for at bygge flere beslutningstræer og samle dem for at få et nøjagtigt resultat. Breiman tilføjede en yderligere tilfældig variation i posningsproceduren, hvilket skabte større mangfoldighed blandt de resulterende modeller. Tilfældige skove adskiller sig fra posede træer ved at tvinge træet til kun at bruge en undergruppe af dets tilgængelige prediktorer til at splitte på i vækstfasen. Alle beslutningstræer, der udgør en tilfældig skov, er forskellige, fordi hvert træ er bygget på en anden tilfældig undergruppe af data. Fordi det minimerer overfitting, har det en tendens til at være mere nøjagtigt end et enkelt beslutningstræ.

Forskellen mellem Bagging og Random Forest

Grundlæggende

- Både sækning og tilfældige skove er ensemble-baserede algoritmer, der sigter mod at reducere kompleksiteten af ​​modeller, der overfylder træningsdataene. Bootstrap-aggregering, også kaldet bagging, er en af ​​de ældste og kraftfulde ensemble-metoder til at forhindre overfitting. Det er en metateknik, der bruger flere klassificeringsmaskiner til at forbedre den forudsigelige nøjagtighed. Bagging betyder simpelthen at trække tilfældige prøver ud af træningsprøven til udskiftning for at få et ensemble af forskellige modeller. Tilfældig skov er en overvåget maskinlæringsalgoritme, der er baseret på ensembleindlæring og en udvikling af Breimans originale baggingalgoritme.

Koncept

- Konceptet med bootstrap sampling (bagging) er at træne en masse ubeskyttede beslutningstræer på forskellige tilfældige undergrupper af træningsdataene, prøveudtagning med udskiftning, for at reducere variansen af ​​beslutningstræer. Ideen er at kombinere forudsigelser fra flere baselever for at skabe en mere nøjagtig output. Med tilfældige skove tilføjes en ekstra tilfældig variation i posningsproceduren for at skabe større mangfoldighed blandt de resulterende modeller. Tanken bag tilfældige skove er at bygge flere beslutnings træer og samle dem for at få et nøjagtigt resultat.

Mål

- Både sækede træer og tilfældige skove er de mest almindelige læringsinstrumenter for ensemble, der bruges til at tackle forskellige maskinlæringsproblemer. Bootstrap sampling er en meta-algoritme designet til at forbedre nøjagtigheden og stabiliteten af ​​maskinlæringsmodeller ved hjælp af ensemblæring og reducere kompleksiteten af ​​overfitting modeller. Den tilfældige skovalgoritme er meget robust mod overfitting og den er god med ubalancerede og manglende data. Det er også det foretrukne valg af algoritme til opbygning af forudsigelige modeller. Målet er at reducere variansen ved at gennemsnit flere dybe beslutnings træer, der er trænet på forskellige prøver af dataene.

Bagging vs. Random Forest: Sammenligningstabel

Resumé

Både sækede træer og tilfældige skove er de mest almindelige læringsinstrumenter for ensemble, der bruges til at tackle forskellige maskinlæringsproblemer. Bagging er en af ​​de ældste og enkleste ensemble-baserede algoritmer, der kan anvendes på træbaserede algoritmer for at forbedre præcisionen i forudsigelserne. Random Forests er på den anden side en overvåget maskinlæringsalgoritme og en forbedret version af bootstrap sampling model brugt til både regressions- og klassificeringsproblemer. Ideen bag tilfældig skov er at bygge flere beslutnings træer og samle dem for at få et nøjagtigt resultat. En tilfældig skov har en tendens til at være mere nøjagtig end et enkelt beslutningstræ, fordi det minimerer overfitting.