Overvåget læring og uovervåget læring er to centrale begreber inden for maskinlæring. Supervised Learning er en Machine Learning-opgave med at lære en funktion, der kortlægger et input til et output baseret på eksemplet input-output-par. Uovervåget læring er Machine Learning opgaven med at udlede en funktion til at beskrive skjult struktur fra umærkede data. Det vigtigste forskel mellem overvåget og uovervåget maskinlæring er det overvåget læring bruger mærkede data, mens uovervåget læring bruger umærkede data.
Machine Learning er et felt inden for datalogi, der giver et computersystem mulighed for at lære af data uden at være eksplicit programmeret. Det giver mulighed for at analysere dataene og forudsige mønstre i dem. Der er mange anvendelser af maskinlæring. Nogle af dem er ansigtsgenkendelse, gestusgenkendelse og talegenkendelse. Der er forskellige algoritmer relateret til maskinlæring. Nogle af dem er regression, klassificering og klynger. De mest almindelige programmeringssprog til udvikling af maskinlæringsbaserede applikationer er R og Python. Andre sprog som Java, C ++ og Matlab kan også bruges.
1. Oversigt og nøgleforskel
2. Hvad er Superviseret læring
3. Hvad er uovervåget læring
4. Ligheder mellem overvåget og uovervåget maskinlæring
5. Sammenligning side ved side - Overvåget vs uovervåget maskinlæring i tabelform
6. Resume
I maskinlæringsbaserede systemer fungerer modellen i henhold til en algoritme. I overvåget læring overvåges modellen. Først kræves det at træne modellen. Med den vundne viden kan den forudsige svar til de fremtidige tilfælde. Modellen trænes ved hjælp af et mærket datasæt. Når en out of sample data gives til systemet, kan det forudsige resultatet. Følgende er et lille uddrag fra det populære IRIS datasæt.
I henhold til ovenstående tabel kaldes Sepal længde, Sepal bredde, Patel længde, Patel bredde og arter attributterne. Kolonnerne er kendt som funktioner. En række har data for alle attributter. Derfor kaldes en række en observation. Dataene kan enten være numeriske eller kategoriske. Modellen gives observationer med det tilsvarende artsnavn som input. Når der gives en ny observation, skal modellen forudsige den type art, den tilhører.
I overvåget læring er der algoritmer til klassificering og regression. Klassificering er processen med at klassificere de mærkede data. Modellen skabte grænser, der adskilte datakategorierne. Når nye data leveres til modellen, kan de kategoriseres ud fra, hvor punktet findes. K-Nearest Neighbours (KNN) er en klassificeringsmodel. Afhængig af k-værdien afgøres kategorien. For eksempel, når k er 5, hvis et bestemt datapunkt er tæt på otte datapunkter i kategori A og seks datapunkter i kategori B, klassificeres datapunktet som A.
Regression er processen med at forudsige trenden med de tidligere data til at forudsige resultatet af de nye data. I regression kan output bestå af en eller flere kontinuerlige variabler. Forudsigelse udføres ved hjælp af en linje, der dækker de fleste datapunkter. Den enkleste regressionsmodel er en lineær regression. Det er hurtigt og kræver ikke indstillingsparametre som i KNN. Hvis dataene viser en parabolsk tendens, er den lineære regressionsmodel ikke egnet.
Dette er nogle eksempler på overvåget indlæringsalgoritmer. Generelt er resultaterne, der genereres fra overvågede læringsmetoder, mere nøjagtige og pålidelige, fordi inputdataene er velkendte og mærkede. Derfor skal maskinen kun analysere de skjulte mønstre.
I uovervåget læring overvåges modellen ikke. Modellen fungerer på egen hånd for at forudsige resultaterne. Den bruger maskinlæringsalgoritmer til at komme til konklusioner om umærkede data. Generelt er de uovervågede indlæringsalgoritmer sværere end overvåget indlæringsalgoritmer, fordi der er få oplysninger. Clustering er en type uovervåget læring. Det kan bruges til at gruppere de ukendte data ved hjælp af algoritmer. K-middelværdien og densitetsbaseret clustering er to klyngealgoritmer.
k-middelalgoritme, placerer k centroid tilfældigt for hver klynge. Derefter tildeles hvert datapunkt til den nærmeste centroid. Euklidisk afstand bruges til at beregne afstanden fra datapunktet til centroid. Datapunkter er klassificeret i grupper. Positionerne for k centroider beregnes igen. Den nye centroidposition bestemmes af gennemsnittet af alle punkter i gruppen. Igen tildeles hvert datapunkt til den nærmeste centroid. Denne proces gentages, indtil centroiderne ikke længere ændres. k-mean er en hurtig klynge-algoritme, men der er ingen specificeret initialisering af klyngepunkter. Der er også en stor variation af klyngemodeller baseret på initialisering af klyngepunkter.
En anden klynge-algoritme er Tæthedsbaseret gruppering. Det er også kendt som densitetsbaserede rumlige klynge-applikationer med støj. Det fungerer ved at definere en klynge som det maksimale sæt af tæthedsforbundne punkter. De er to parametre, der bruges til densitetsbaseret klynger. De er Ɛ (epsilon) og minimumspunkter. Ɛ er den maksimale radius for nabolaget. Minimumspunkter er det mindste antal point i Ɛ-kvarteret for at definere en klynge. Dette er nogle eksempler på klynger, der falder ind i uovervåget læring.
Generelt er resultaterne, der genereres fra uovervåget indlæringsalgoritmer, ikke meget nøjagtige og pålidelige, fordi maskinen skal definere og mærke inputdataene, før de skjulte mønstre og funktioner bestemmes.
Overvåget vs uovervåget maskinlæring | |
Overvåget læring er Machine Learning opgaven med at lære en funktion, der kortlægger et input til et output baseret på eksempelvis input-output-par. | Uovervåget læring er Machine Learning-opgaven med at udlede en funktion til at beskrive skjult struktur fra umærkede data. |
Hovedfunktionalitet | |
I overvåget læring forudsiger modellen resultatet ud fra de mærkede inputdata. | I uovervåget læring forudsiger modellen resultatet uden mærkede data ved at identificere mønstrene alene. |
Resultaterne er nøjagtige | |
Resultaterne, der genereres fra overvågede læringsmetoder, er mere nøjagtige og pålidelige. | Resultaterne, der genereres fra ikke-overvågede læringsmetoder, er ikke meget nøjagtige og pålidelige. |
Hovedalgoritmer | |
Der er algoritmer til regression og klassificering i overvåget læring. | Der er algoritmer til klynge i uovervåget læring. |
Overvåget læring og uovervåget læring er to typer maskinlæring. Overvåget læring er Machine Learning opgaven med at lære en funktion, der kortlægger et input til et output baseret på eksempelvis input-output-par. Uovervåget læring er Machine Learning-opgaven med at udlede en funktion til at beskrive skjult struktur fra umærkede data. Forskellen mellem overvåget og uovervåget maskinlæring er, at overvåget indlæring bruger mærkede data, mens uovervåget skæve bruger umærkede data.
1.TheBigDataUniversity. Maskinlæring - Overvåget VS Ikke-overvåget læring, kognitiv klasse, 13. mar. 2017. Findes her
2. "Uovervåget læring." Wikipedia, Wikimedia Foundation, 20. mar. 2018. Tilgængelig her
3. "Overvåget læring." Wikipedia, Wikimedia Foundation, 15. mar. 2018. Tilgængelig her
1.'2729781 'af GDJ (Public Domain) via pixabay