Data mining vs Data Warehousing
Datamining og datalagring er begge meget kraftige og populære teknikker til analyse af data. Brugere, der er tilbøjelige til statistik, bruger Data Mining. De bruger statistiske modeller til at se efter skjulte mønstre i data. Databehandlere er interesseret i at finde nyttige forhold mellem forskellige dataelementer, hvilket i sidste ende er rentabelt for virksomheder. Men på den anden side har dataeksperter, der kan analysere dimensioner af virksomheden direkte, brug af datalager.
Data mining er også kendt som Knowledge Discovery in data (KDD). Som nævnt ovenfor er det et felt inden for datalogi, der beskæftiger sig med udvinding af tidligere ukendte og interessante oplysninger fra rådata. På grund af den eksponentielle vækst af data, især inden for områder som erhvervslivet, er dataindvinding blevet et meget vigtigt værktøj til at konvertere dette store væld af data til forretningsinformation, da manuel udtrækning af mønstre er blevet tilsyneladende umulig i de sidste par årtier. F.eks. Er det i øjeblikket brugt til forskellige applikationer såsom analyse af socialt netværk, bedrageri og markedsføring. Data mining behandler normalt følgende fire opgaver: klynger, klassificering, regression og tilknytning. Clustering identificerer lignende grupper fra ustrukturerede data. Klassificering er læringsregler, der kan anvendes på nye data og vil typisk omfatte følgende trin: forbehandling af data, design af modellering, læring / valg af funktion og evaluering / validering. Regression er at finde funktioner med minimal fejl ved modeldata. Og tilknytning er på udkig efter sammenhænge mellem variabler. Data mining bruges normalt til at besvare spørgsmål som hvad der er de vigtigste produkter, der kan hjælpe med at opnå høj fortjeneste næste år i Wal-Mart?
Som nævnt ovenfor bruges datalagring også til analyse af data, men af forskellige sæt brugere og et lidt andet mål i tankerne. Når det f.eks. Kommer til detailsektoren, er brugere af datalager mere opmærksomme på, hvilke slags indkøb der er populære blandt kunder, så resultaterne af analysen kan hjælpe kunden ved at forbedre kundeoplevelsen. Men datagruverne antager først en hypotese som f.eks. Hvilke kunder der køber en bestemt type produkt og analyserer dataene for at teste hypotesen. Opbevaring af data kunne udføres af en større detailhandler, der oprindeligt lagrer sine butikker med de samme størrelser af produkter for senere at finde ud af, at New York-butikker sælger lager i mindre størrelse meget hurtigere end i Chicago-butikker. Så ved at se på dette resultat kan forhandleren lagre New York-butikken med mindre størrelser sammenlignet med Chicago-butikker.
Så som du tydeligt kan se, synes disse to typer analyser at være af samme art med det blotte øje. Begge bekymrer sig om at øge overskuddet baseret på de historiske data. Men selvfølgelig er der centrale forskelle. Enkelt sagt er Data Mining og Data Warehousing dedikeret til at levere forskellige typer analyser, men bestemt til forskellige typer brugere. Med andre ord ser Data Mining efter sammenhænge, klappere til støtte for en statistisk hypotese. Men, Data Warehousing besvarer et relativt bredere spørgsmål, og det skiver og terninger data derfra og frem for at genkende måder til forbedringer i fremtiden.