Data Mining vs OLAP
Både data mining og OLAP er to af de fælles Business Intelligence (BI) teknologier. Business intelligence henviser til computerbaserede metoder til at identificere og udtrække nyttige oplysninger fra forretningsdata. Data mining er det felt inden for datalogi, der beskæftiger sig med at udtrække interessante mønstre fra store datasæt. Det kombinerer mange metoder fra kunstig intelligens, statistik og databasestyring. OLAP (online analytisk behandling), som navnet antyder, er en samling af måder at forespørge multidimensionelle databaser på.
Data mining er også kendt som Knowledge Discovery in data (KDD). Som nævnt ovenfor er det et felt inden for datalogi, der beskæftiger sig med udvinding af tidligere ukendte og interessante oplysninger fra rådata. På grund af den eksponentielle vækst af data, især inden for områder som erhvervslivet, er dataindvinding blevet et meget vigtigt værktøj til at konvertere dette store væld af data til forretningsinformation, da manuel udtrækning af mønstre er blevet tilsyneladende umulig i de sidste par årtier. F.eks. Er det i øjeblikket brugt til forskellige applikationer såsom analyse af socialt netværk, bedrageri og markedsføring. Data mining behandler normalt følgende fire opgaver: klynger, klassificering, regression og tilknytning. Clustering identificerer lignende grupper fra ustrukturerede data. Klassificering er læringsregler, der kan anvendes på nye data og vil typisk omfatte følgende trin: forbehandling af data, design af modellering, indlæring / valg af funktion og evaluering / validering. Regression er at finde funktioner med minimal fejl ved modeldata. Og tilknytning er på udkig efter sammenhænge mellem variabler. Data mining bruges normalt til at besvare spørgsmål som hvad der er de vigtigste produkter, der kan hjælpe med at opnå høj fortjeneste næste år i Wal-Mart.
OLAP er en klasse af systemer, der giver svar på multidimensionelle forespørgsler. OLAP bruges typisk til marketing, budgettering, prognoser og lignende applikationer. Det siger sig selv, at databaserne, der bruges til OLAP, er konfigureret til komplekse og ad-hoc forespørgsler med en hurtig ydelse i tankerne. Typisk bruges en matrix til at vise output fra en OLAP. Rækkerne og kolonnerne er dannet af dimensionerne på forespørgslen. De bruger ofte aggregeringsmetoder i flere tabeller for at få oversigter. F.eks. Kan det bruges til at finde ud af hvad der er salg i år i Wal-Mart sammenlignet med sidste år? Hvad er forudsigelsen af salget i det næste kvartal? Hvad der kan siges om tendensen ved at se på den procentvise ændring?
Selvom det er åbenlyst, at Data mining og OLAP ligner, fordi de opererer på data for at få intelligens, kommer den største forskel fra, hvordan de fungerer på data. OLAP-værktøjer giver multidimensional dataanalyse, og de giver resume af dataene, men kontrastvis fokuserer data mining på forhold, mønstre og påvirkninger i datasættet. Det er en OLAP-aftale med aggregering, der koger ned til driften af data via "tilføjelse", men datadrift svarer til "opdeling". En anden bemærkelsesværdig forskel er, at selvom data mining-værktøjer modellerer data og returnerer handlingsregler, vil OLAP udføre sammenlignings- og kontrastteknikker langs forretningsdimension i realtid.