Q:
Aký je jednoduchý spôsob, ako opísať zaujatosť a odchýlku v strojovom učení?
A:Existuje mnoho komplikovaných spôsobov, ako opísať zaujatosť a rozptyl v strojovom učení. Mnohé z nich využívajú výrazne zložité matematické rovnice a prostredníctvom grafu ukazujú, ako konkrétne príklady predstavujú rôzne úrovne zaujatosti a rozptylu.
Tu je jednoduchý spôsob, ako opísať zaujatosť, odchýlku a kompromis medzi odchýlkou a odchýlkou v strojovom učení.
Základom je zaujatosť nadmerným zjednodušením. Môže byť dôležité pridať do definície zaujatosti určitý predpoklad alebo predpokladanú chybu.
Keby sa veľmi skreslený výsledok nedopustil omylu - ak by bol na peniazoch - bol by to veľmi presný. Problém je v tom, že zjednodušený model obsahuje určitú chybu, takže sa nejedná o býčie oko - významná chyba sa v priebehu strojového učiaceho programu opakuje alebo dokonca zosilňuje.
Jednoduchá definícia rozptylu spočíva v tom, že výsledky sú príliš rozptýlené. To často vedie k nadmernej zložitosti programu a problémom medzi testovacími a školiacimi súpravami.
Vysoký rozptyl znamená, že malé zmeny spôsobujú veľké zmeny vo výstupoch alebo výsledkoch.
Ďalším spôsobom, ako jednoducho opísať odchýlku, je to, že v modeli je príliš veľa šumu, a preto je pre program strojového učenia ťažšie izolovať a identifikovať skutočný signál.
Jedným z najjednoduchších spôsobov porovnania skreslenia a rozptylu je navrhnúť, aby inžinieri strojového učenia museli kráčať po jemnej hranici medzi príliš veľkým skreslením alebo nadmerným zjednodušením a príliš veľkým rozptylom alebo nadmernou komplexnosťou.
Ďalším spôsobom, ako reprezentovať túto studňu, je štvorčtvrtinový graf ukazujúci všetky kombinácie vysokého a nízkeho rozptylu. V kvadrante s nízkym vychýlením / rozptylom sa všetky výsledky zhromažďujú spolu v presnom zoskupení. Vo výsledku s vysokou odchýlkou vychýlenia / nízkym rozptylom sa všetky výsledky zhromažďujú spolu v nepresnom zoskupení. Vo výsledku s nízkym predpätím / vysokou rozptylom sú výsledky rozptýlené okolo centrálneho bodu, ktorý by predstavoval presný klaster, zatiaľ čo vo výsledku s vysokým skreslením / vysokým rozptylom sú dátové body rozptýlené a spoločne nepresné.