Clustering- og klassificeringsteknikker bruges til maskinlæring, informationsindhentning, billedundersøgelse og relaterede opgaver.
Disse to strategier er de to hovedafdelinger inden for data mining processer. I dataanalysverdenen er disse væsentlige i styring af algoritmer. Specifikt opdeler begge disse processer data i sæt. Denne opgave er meget relevant i nutidens informationsalder, da den enorme stigning i data kombineret med udvikling skal tilpasses passende.
Især hjælper klynger og klassificering med at løse globale spørgsmål som kriminalitet, fattigdom og sygdomme gennem datavidenskab.
Grundlæggende involverer klynger gruppering af data med hensyn til deres ligheder. Det drejer sig primært om afstandsmålinger og grupperingsalgoritmer, der beregner forskellen mellem data og systematisk opdeler dem.
For eksempel grupperes studerende med lignende læringsformer og undervises adskilt fra dem med forskellige læringsmetoder. I data mining er klynger oftest benævnt "unsupervised learning technic", da grupperingen er baseret på en naturlig eller iboende egenskab.
Det anvendes inden for flere videnskabelige områder såsom informationsteknologi, biologi, kriminologi og medicin.
Clustering har ingen præcis definition, hvorfor der er forskellige klynge-algoritmer eller klyngemodeller. Groft sagt er de to slags klynger hårde og bløde. Hård klyngering handler om at mærke et objekt som simpelthen tilhørende en klynge eller ej. I modsætning hertil specificerer blød clustering eller fuzzy clustering graden for, hvordan noget hører til en bestemt gruppe.
Validering eller vurdering af resultater fra klyngebaseanalyse er ofte vanskelige at konstatere på grund af dens iboende inaktivitet.
Da det er en uovervåget læringsstrategi, er analysen kun baseret på aktuelle funktioner; således er der ikke behov for nogen streng regulering.
Klassificering indebærer tildeling af etiketter til eksisterende situationer eller klasser; følgelig udtrykket "klassificering". For eksempel klassificeres studerende, der udviser visse læringsegenskaber, som visuelle elever.
Klassificering er også kendt som "overvåget læringsteknik", hvor maskiner lærer af allerede mærkede eller klassificerede data. Det er meget anvendeligt inden for mønstergenkendelse, statistik og biometri.
For at analysere data er en klassifikator en defineret algoritme, der konkret kortlægger en information til en bestemt klasse. For eksempel vil en klassificeringsalgoritme træne en model til at identificere, om en bestemt celle er ondartet eller godartet.
Kvaliteten af en klassificeringsanalyse vurderes ofte ved hjælp af præcision og tilbagekaldelse, som er populære metriske procedurer. En klassifikator vurderes med hensyn til dens nøjagtighed og følsomhed ved identifikation af output.
Klassificering er en overvåget læringsteknik, da den tildeler tidligere bestemte identiteter baseret på sammenlignelige funktioner. Den trækker en funktion ud af et mærket træningssæt.
Den største forskel er, at klynger ikke overvåges og betragtes som ”selvlæring”, mens klassificering overvåges, da det afhænger af foruddefinerede etiketter.
Klynger anvender ikke gripende træningssæt, som er grupper af forekomster, der anvendes til at generere grupperingerne, mens klassificering nødvendigvis har brug for træningssæt for at identificere lignende funktioner.
Clustering fungerer med umærkede data, da den ikke har brug for træning. På den anden side omhandler klassificering både umærkede og mærkede data i dets processer.
Klynger grupperer objekter med det formål at indsnævre forhold såvel som lære nye oplysninger fra skjulte mønstre, mens klassificering søger at bestemme, hvilken eksplicit gruppe et bestemt objekt hører til.
Mens klassificering ikke specificerer, hvad der skal læres, specificerer klynger den krævede forbedring, da den påpeger forskellene ved at overveje lighederne mellem data.
Generelt består klynger kun af en enkelt fase (gruppering), mens klassificering har to faser, træning (model lærer af træningsdatasæt) og test (målklasse er forudsagt).
Bestemmelse af grænsevilkårene er meget vigtigt i klassificeringsprocessen sammenlignet med klynger. For eksempel er det nødvendigt at kende det procentvise interval af "lavt" sammenlignet med "moderat" og "højt" til at fastlægge klassificeringen.
Sammenlignet med klynger er klassificering mere involveret i forudsigelse, da den især sigter mod identitet målklasser. Dette kan for eksempel anvendes i "detektion af ansigtsnøglepunkter", da det kan bruges til at forudsige, om et bestemt vidne lyver eller ej.
Da klassificering består af flere stadier, beskæftiger sig med forudsigelse og involverer grader eller niveauer, er dens 'karakter mere kompliceret sammenlignet med klynger, der hovedsageligt drejer sig om at gruppere lignende attributter.
Clustering-algoritmer er hovedsageligt lineære og ikke-lineære, mens klassificering består af mere algoritmiske værktøjer, såsom lineære klassifikatorer, neurale netværk, kernenestimering, beslutningstræer og supportvektormaskiner..
clustering | Klassifikation |
Ikke-overvågede data | Overvågede data |
Værdsætter ikke træningssæt meget | Har træningssæt af meget værdi |
Arbejder udelukkende med umærkede data | Involverer både umærkede og mærkede data |
Formålet er at identificere ligheder mellem data | Formålet med at kontrollere, hvor et nulpunkt hører til |
Angiver den nødvendige ændring | Angiver ikke den nødvendige forbedring |
Har en enkelt fase | Har to faser |
Det er ikke vigtigt at fastlægge grænsevilkår | Det er vigtigt at identificere grænsevilkårene i udførelsen af faser |
Handler generelt ikke forudsigelser | Beskæftiger sig med forudsigelse |
Hovedsagelig beskæftiger to algoritmer | Har et antal sandsynlige algoritmer at bruge |
Processen er mindre kompleks | Processen er mere kompleks |