KDD vs Data mining
KDD (Knowledge Discovery in Databases) er et felt inden for datalogi, der inkluderer værktøjer og teorier til at hjælpe mennesker med at udtrække nyttige og tidligere ukendte oplysninger (dvs. viden) fra store samlinger af digitaliserede data. KDD består af flere trin, og Data Mining er et af dem. Data Mining er anvendelse af en specifik algoritme for at udtrække mønstre fra data. Ikke desto mindre bruges KDD og Data Mining om hverandre.
Hvad er KDD?
Som nævnt ovenfor er KDD et felt inden for datalogi, der beskæftiger sig med ekstraktion af tidligere ukendte og interessante oplysninger fra rådata. KDD er hele processen med at forsøge at give mening om data ved at udvikle passende metoder eller teknikker. Denne proces omhandler kortlægning af data på lavt niveau i andre former, som er mere kompakte, abstrakte og nyttige. Dette opnås ved at oprette korte rapporter, modellere processen med at generere data og udvikle forudsigelige modeller, der kan forudsige fremtidige tilfælde. På grund af den eksponentielle vækst af data, især inden for områder som erhvervsliv, er KDD blevet en meget vigtig proces til at konvertere dette store væld af data til forretningsinformation, da manuel udvinding af mønstre er blevet tilsyneladende umulig i de sidste par årtier. F.eks. Er det i øjeblikket blevet brugt til forskellige applikationer såsom analyse af socialt netværk, bedrageri påvisning, videnskab, investering, fremstilling, telekommunikation, datarensning, sport, informationsindsamling og stort set til markedsføring. KDD bruges normalt til at besvare spørgsmål som hvad er de vigtigste produkter, der kan hjælpe med at opnå høj fortjeneste næste år i Wal-Mart ?. Denne proces har flere trin. Det starter med at udvikle en forståelse af applikationsdomænet og målet og derefter oprette et måldatasæt. Dette efterfølges af rengøring, forarbejdning, reduktion og projicering af data. Næste trin er at bruge Data Mining (forklaret nedenfor) til at identificere mønster. Endelig konsolideres opdaget viden ved at visualisere og / eller fortolke.
Hvad er Data Mining?
Som nævnt ovenfor er Data Mining kun et trin i den samlede KDD-proces. Der er to store Data Mining-mål som defineret af applikationens mål, og det er nemlig verifikation eller opdagelse. Verifikation verificerer brugerens hypotese om data, mens opdagelsen automatisk finder interessante mønstre. Der er fire vigtige dataindvindingsopgaver: klynger, klassificering, regression og tilknytning (opsummering). Clustering identificerer lignende grupper fra ustrukturerede data. Klassificering er indlæringsregler, der kan anvendes på nye data. Regression er at finde funktioner med minimal fejl ved modeldata. Og tilknytning er på udkig efter sammenhænge mellem variabler. Derefter skal den specifikke dataindvindingsalgoritme vælges. Afhængigt af målet kan forskellige algoritmer som lineær regression, logistisk regression, beslutningstræer og Naïve Bayes vælges. Derefter søges interessemønstre i en eller flere repræsentative former. Endelig evalueres modeller enten ved hjælp af forudsigelig nøjagtighed eller forståelighed.
Hvad er forskellen mellem KDD og Data mining?
Selvom de to udtryk KDD og Data Mining er stærkt anvendt om hverandre, henviser de til to relaterede, men lidt forskellige koncepter. KDD er den overordnede proces med at udvinde viden fra data, mens Data Mining er et trin inde i KDD-processen, der beskæftiger sig med at identificere mønstre i data. Med andre ord er Data Mining kun anvendelsen af en bestemt algoritme baseret på det overordnede mål for KDD-processen.