Obsah:
Definícia - Čo znamenajú špinavé údaje?
Špinavé údaje sa týkajú údajov, ktoré obsahujú chybné informácie. Môže sa tiež použiť pri odkazovaní na údaje, ktoré sú v pamäti a ešte nie sú načítané do databázy. Úplné odstránenie znečistených údajov zo zdroja je nepraktické alebo prakticky nemožné.
Za špinavé údaje možno považovať nasledujúce údaje:
- Klamlivé údaje
- Duplicitné údaje
- Nesprávne údaje
- Nepresné údaje
- Neintegrované údaje
- Údaje, ktoré porušujú obchodné pravidlá
- Dáta bez všeobecného formátovania
- Nesprávne interpunkčné alebo napísané údaje
Techopedia vysvetľuje Dirty Data
Okrem nesprávneho zadávania údajov je možné pomocou nesprávnych metód správy údajov a ukladania údajov generovať aj špinavé údaje. Niektoré špinavé typy údajov sú vysvetlené nižšie:
- Nesprávne údaje - Aby sa zabezpečilo, že údaje sú správne alebo správne, mala by zadaná hodnota zodpovedať platným hodnotám poľa. Napríklad hodnota zadaná v poli mesiac by sa mala pohybovať v rozmedzí od 1 do 12 alebo vek jednotlivca musí byť menší ako 130. Správnosť hodnoty údajov sa môže programovo vynútiť pomocou vyhľadávacích tabuliek alebo pomocou kontrol úprav.
- Nepresné údaje - Je možné, že hodnota údajov môže byť správna, ale nie presná. Niekedy je praktické preskúmať proti iným súborom alebo poliam a zistiť, či je hodnota údajov presná na základe kontextu, v ktorom sa používa. Presnosť však stále môže byť potvrdená iba manuálnym overením.
- Porušovanie obchodných pravidiel - údaje, ktoré porušujú obchodné pravidlá, sú ďalším typom špinavých údajov. Napríklad dátum účinnosti musí vždy predchádzať dátumu exspirácie. Ďalším príkladom porušenia obchodných pravidiel môže byť pacientova poistná žiadosť Medicare, kde pacient môže byť stále v dôchodkovom veku a nemá nárok na Medicare.
- Nekonzistentné údaje - Nekontrolovaná redundancia údajov vedie k nekonzistentnosti údajov. Každá organizácia je ovplyvnená nekonzistentnými a opakujúcimi sa údajmi. To je typické najmä pre údaje o zákazníkoch.
- Neúplné údaje - údaje s chýbajúcimi hodnotami sú hlavným typom neúplných údajov.
- Duplicitné údaje - Duplicitné údaje sa môžu vyskytnúť v dôsledku opakovaného odoslania, nesprávneho spojenia údajov alebo chyby používateľa.
Aby sa zvýšila kvalita údajov a zabránilo sa špinavým údajom, organizácie by mali používať metodiky na zabezpečenie úplnosti, platnosti, konzistentnosti a správnosti údajov.