Obsah:
Definícia - Čo znamená dolovanie údajov?
Dolovanie údajov je proces analýzy skrytých vzorcov údajov podľa rôznych perspektív kategorizácie do užitočných informácií, ktoré sa zhromažďujú a zhromažďujú v spoločných oblastiach, ako sú dátové sklady, na efektívnu analýzu, algoritmy získavania údajov, uľahčujúce obchodné rozhodovanie a ďalšie informácie. požiadavky na konečné zníženie nákladov a zvýšenie príjmov.
Dolovanie údajov je známe aj ako zisťovanie a zisťovanie poznatkov.
Techopedia vysvetľuje ťažbu dát
Hlavné kroky zapojené do procesu získavania údajov sú:
- Extrahujte, transformujte a načítajte údaje do dátového skladu
- Ukladajte a spravujte údaje vo viacrozmerných databázach
- Poskytujte prístup k údajom obchodným analytikom pomocou aplikačného softvéru
- Analyzované údaje uvádzajte v ľahko zrozumiteľných formách, ako sú napríklad grafy
Prvým krokom pri získavaní údajov je zhromažďovanie relevantných údajov, ktoré sú pre podnikanie kritické. Údaje o spoločnosti sú transakčné, nefunkčné alebo metaúdaje. Transakčné údaje sa zaoberajú každodennými operáciami, ako sú predaj, zásoby a náklady atď. Neoperačné údaje sa zvyčajne predpovedajú, zatiaľ čo metadáta sa týkajú logického návrhu databázy. Vzory a vzťahy medzi dátovými prvkami poskytujú relevantné informácie, ktoré môžu zvýšiť organizačné príjmy. Organizácie so silným zameraním na spotrebiteľa sa zaoberajú technikami získavania údajov, ktoré poskytujú jasné obrázky o predávaných výrobkoch, cenách, konkurencii a demografických údajoch o zákazníkoch.
Napríklad maloobchodný gigant Wal-Mart prenáša všetky svoje relevantné informácie do dátového skladu s terabajtmi údajov. K týmto údajom môžu ľahko pristupovať dodávatelia, ktorí im umožňujú identifikovať nákupné modely zákazníkov. Môžu generovať vzorce o nákupných zvyklostiach, najviac nakupovaných dňoch, najvyhľadávanejších produktoch a iných údajoch pomocou techník získavania údajov.
Druhým krokom v získavaní údajov je výber vhodného algoritmu - mechanizmu vytvárajúceho model získavania údajov. Všeobecné fungovanie algoritmu zahŕňa identifikáciu trendov v súbore údajov a použitie výstupu na definovanie parametrov. Najobľúbenejšie algoritmy používané na získavanie údajov sú klasifikačné algoritmy a regresné algoritmy, ktoré sa používajú na identifikáciu vzťahov medzi dátovými prvkami. Hlavní predajcovia databáz, ako sú Oracle a SQL, zahŕňajú algoritmy dolovania dát, ako sú klastrovanie a regresná banka, aby uspokojili dopyt po získavaní údajov.
