Obsah:
- Definícia - Čo znamená získavanie poznatkov v databázach (KDD)?
- Techopedia vysvetľuje získavanie poznatkov v databázach (KDD)
Definícia - Čo znamená získavanie poznatkov v databázach (KDD)?
Zisťovanie znalostí v databázach (KDD) je proces zisťovania užitočných znalostí zo súboru údajov. Táto široko používaná technika získavania údajov je proces, ktorý zahŕňa prípravu a výber údajov, čistenie údajov, začlenenie predchádzajúcich poznatkov o súboroch údajov a interpretáciu presných riešení z pozorovaných výsledkov.
Medzi hlavné oblasti použitia KDD patrí marketing, detekcia podvodov, telekomunikácie a výroba.
Techopedia vysvetľuje získavanie poznatkov v databázach (KDD)
Tradične sa získavanie údajov a zisťovanie poznatkov uskutočňovalo manuálne. Postupom času sa množstvo údajov v mnohých systémoch zväčšilo na väčšiu ako terabajtová veľkosť a už ich nebolo možné manuálne udržiavať. Navyše, pre úspešnú existenciu akéhokoľvek podnikania je nevyhnutné odhaliť základné vzorce údajov. Výsledkom bolo vyvinutie niekoľkých softvérových nástrojov na zisťovanie skrytých údajov a vytváranie predpokladov, ktoré tvorili súčasť umelej inteligencie.
Proces KDD dosiahol svoj vrchol za posledných 10 rokov. Teraz obsahuje mnoho rôznych prístupov k objavovaniu, ktoré zahŕňajú induktívne učenie, bayesovskú štatistiku, optimalizáciu sémantického dotazu, získavanie znalostí pre expertné systémy a teóriu informácií. Konečným cieľom je získať znalosti vysokej úrovne z údajov na nízkej úrovni.
KDD zahŕňa multidisciplinárne činnosti. Zahŕňa to ukladanie a prístup k údajom, algoritmy škálovania rozsiahlych súborov údajov a interpretáciu výsledkov. Proces čistenia údajov a prístupu k údajom zahrnutý do skladovania údajov uľahčuje proces KDD. Umelá inteligencia tiež podporuje KDD objavovaním empirických zákonov z experimentov a pozorovaní. Vzory rozpoznané v údajoch musia byť platné pre nové údaje a musia mať určitý stupeň istoty. Tieto vzorce sa považujú za nové vedomosti. Kroky zapojené do celého procesu KDD sú:
- Identifikujte cieľ procesu KDD z pohľadu zákazníka.
- Pochopte zapojené aplikačné domény a potrebné znalosti
- Vyberte cieľovú množinu údajov alebo podmnožinu vzoriek údajov, na ktorých sa má vykonať zisťovanie.
- Vyčistite a predspracujte údaje rozhodovaním o stratégiách spracovania chýbajúcich polí a o zmene údajov podľa požiadaviek.
- Zjednodušte množinu údajov odstránením nežiaducich premenných. Potom analyzujte užitočné funkcie, ktoré môžu byť použité na znázornenie údajov, v závislosti od cieľa alebo úlohy.
- Porovnajte ciele KDD s metódami získavania údajov, aby ste navrhli skryté vzory.
- Vyberte algoritmy dolovania dát na odhalenie skrytých vzorov. Tento proces zahŕňa rozhodnutie, ktoré modely a parametre by mohli byť vhodné pre celkový proces KDD.
- Vyhľadajte vzorce záujmu v konkrétnej reprezentatívnej forme, ktoré zahŕňajú klasifikačné pravidlá alebo stromy, regresiu a zoskupovanie.
- Interpretovať základné poznatky z ťažených vzorov.
- Využite znalosti a začleňte ich do iného systému pre ďalšie konanie.
- Zdokumentujte to a podávajte správy zainteresovaným stranám.
