Obsah:
Definícia - Čo znamená detekcia odľahlých údajov?
Detekcia odľahlých údajov je proces zisťovania a následného vylúčenia odľahlých hodnôt z daného súboru údajov.
Odľahlá hodnota sa môže definovať ako časť údajov alebo pozorovaní, ktoré sa výrazne líšia od danej normy alebo priemeru súboru údajov. Odľahlá hodnota môže byť spôsobená jednoducho náhodou, môže to však tiež naznačovať chybu merania alebo to, že daný súbor údajov má distribúciu s veľkým chvostom.
Toto je jednoduchý scenár pri detekcii odľahlých hodnôt, proces merania konzistentne vytvára hodnoty medzi 1 a 10, ale v niektorých zriedkavých prípadoch dostávame merania väčšie ako 20.
Tieto zriedkavé merania presahujúce normu sa nazývajú odľahlé hodnoty, pretože „ležia mimo“ normálnej distribučnej krivky.
Techopedia vysvetľuje detekciu odľahlých údajov
V skutočnosti neexistuje štandardizovaná a rigidná matematická metóda na určovanie odľahlých hodnôt, pretože sa skutočne líši v závislosti od súboru alebo dátovej populácie, takže jeho stanovenie a detekcia sa v konečnom dôsledku stáva subjektívnym. Prostredníctvom nepretržitého odberu vzoriek v danom dátovom poli sa môžu stanoviť charakteristiky odľahlej hodnoty, aby sa uľahčila detekcia.
Existujú modelové metódy na zisťovanie odľahlých hodnôt a predpokladajú, že všetky údaje sú prevzaté z normálneho rozdelenia a ako odľahlé hodnoty identifikujú pozorovania alebo body, ktoré sa považujú za nepravdepodobné na základe priemernej alebo štandardnej odchýlky. Existuje niekoľko metód detekcie odľahlých hodnôt:
- Grubbov test na odľahlé hodnoty - je založený na predpoklade, že údaje majú normálnu distribúciu a odstraňujú jeden odľahlý údaj súčasne s testom, ktorý sa opakuje, až už nie je možné nájsť žiadne odľahlé hodnoty.
- Dixonov Q test - táto metóda tiež testovaná na zlé údaje, založená na normálnosti súboru údajov. Zistilo sa, že by sa to malo v súbore údajov používať striedmo a nikdy viac ako raz.
- Chauvenetovo kritérium - používa sa na analýzu toho, či je odľahlá hodnota falošná alebo je stále v rámci hraníc a považuje sa za súčasť súboru. Zoberie sa stredná a štandardná odchýlka a vypočíta sa pravdepodobnosť, že sa táto odchýlka vyskytne. Výsledky určia, či by mali byť zahrnuté alebo nie.
- Pierce's Criterion - Hranica chyby je stanovená pre celý rad pozorovaní, po uplynutí ktorých budú všetky pozorovania zahodené, pretože už obsahujú takú veľkú chybu.
