Hierarkisk vs Partitional Clustering
Clustering er en maskinlæringsteknologi til analyse af data og opdeling i grupper af lignende data. Disse grupper eller sæt lignende data er kendt som klynger. Klyngeanalyse ser på klyngealgoritmer, der automatisk kan identificere klynger. Hierarkiske og partitionelle er to sådanne klasser af klynge-algoritmer. Hierarkiske grupperingsalgoritmer opdeler dataene i et hierarki af klynger. Paritionalalgoritmer opdeler datasættet i gensidigt adskilte partitioner.
Hvad er hierarkisk klynge?
Hierarkiske klyngealgoritmer gentager cyklussen med enten at fusionere mindre klynger til større eller dele større klynger til mindre. Uanset hvad det producerer et hierarki af klynger kaldet et dendogram. Agglomerativ klyngestrategi bruger bottom-up tilgangen til at fusionere klynger ind i større, mens den opdelende klyngestrategi bruger top-down tilgangen til at opdele til mindre. Typisk bruges den grådige tilgang til at beslutte, hvilke større / mindre klynger der bruges til fusion / opdeling. Euklidisk afstand, Manhattan-afstand og kosinus-lighed er nogle af de mest almindeligt anvendte målinger af lighed for numeriske data. For ikke-numeriske data bruges målinger som f.eks. Hamming-afstanden. Det er vigtigt at bemærke, at de faktiske observationer (forekomster) ikke er nødvendige for hierarkisk klynge, fordi kun matrixen for afstande er tilstrækkelig. Dendogram er en visuel repræsentation af klyngerne, der viser hierarkiet meget tydeligt. Brugeren kan opnå forskellige klynger afhængigt af det niveau, på hvilket dendogrammet skæres.
Hvad er Partitional Clustering?
Partitionelle grupperingsalgoritmer genererer forskellige partitioner og evaluerer dem derefter efter et eller andet kriterium. De omtales også som ikke-hierarkiske, da hvert tilfælde er placeret i nøjagtigt en af k gensidigt eksklusive klynger. Fordi kun et sæt klynger er output fra en typisk partitional klyngerealgoritme, er brugeren forpligtet til at indtaste det ønskede antal klynger (normalt kaldet k). En af de mest almindeligt anvendte partitional klyngeralgoritmer er k-middel klynge algoritmen. Det kræves, at brugeren angiver antallet af klynger (k) inden start, og algoritmen starter først centrene (eller centroiderne) for k-partitionerne. I en nøddeskal tildeler k-betyder klyngerealgoritme medlemmer derefter baseret på de nuværende centre og omvurderer centre baseret på de aktuelle medlemmer. Disse to trin gentages, indtil en bestemt objektivfunktion inden for klyngelighed og objektivfunktion mellem forskellige klynger er optimeret. Derfor er fornuftig initialisering af centre en meget vigtig faktor i opnåelse af kvalitetsresultater fra partitional klyngeralgoritmer.
Hvad er forskellen mellem Hierarkisk og Partitional Clustering?
Hierarkisk og partuel klynge har centrale forskelle i køretid, antagelser, inputparametre og resulterende klynger. Partitional klynger er typisk hurtigere end hierarkisk klynge. Hierarkisk klynge kræver kun en lighedstiltag, mens partitionel klynge kræver stærkere antagelser såsom antal klynger og de indledende centre. Hierarkisk klyngering kræver ingen inputparametre, mens partitionelle klyngerealgoritmer kræver, at antallet af klynger begynder at køre. Hierarkisk klynge giver en meget mere meningsfuld og subjektiv opdeling af klynger, men delvis klynge resulterer i nøjagtigt k klynger. Hierarkiske grupperingsalgoritmer er mere velegnede til kategoriske data, så længe en lighedstal kan defineres i overensstemmelse hermed.