Domov trendy Aký je jednoduchý spôsob, ako opísať zaujatosť a odchýlku v strojovom učení?

Aký je jednoduchý spôsob, ako opísať zaujatosť a odchýlku v strojovom učení?

Anonim

Q:

Aký je jednoduchý spôsob, ako opísať zaujatosť a odchýlku v strojovom učení?

A:

Existuje mnoho komplikovaných spôsobov, ako opísať zaujatosť a rozptyl v strojovom učení. Mnohé z nich využívajú výrazne zložité matematické rovnice a prostredníctvom grafu ukazujú, ako konkrétne príklady predstavujú rôzne úrovne zaujatosti a rozptylu.

Tu je jednoduchý spôsob, ako opísať zaujatosť, odchýlku a kompromis medzi odchýlkou ​​a odchýlkou ​​v strojovom učení.

Základom je zaujatosť nadmerným zjednodušením. Môže byť dôležité pridať do definície zaujatosti určitý predpoklad alebo predpokladanú chybu.

Keby sa veľmi skreslený výsledok nedopustil omylu - ak by bol na peniazoch - bol by to veľmi presný. Problém je v tom, že zjednodušený model obsahuje určitú chybu, takže sa nejedná o býčie oko - významná chyba sa v priebehu strojového učiaceho programu opakuje alebo dokonca zosilňuje.

Jednoduchá definícia rozptylu spočíva v tom, že výsledky sú príliš rozptýlené. To často vedie k nadmernej zložitosti programu a problémom medzi testovacími a školiacimi súpravami.

Vysoký rozptyl znamená, že malé zmeny spôsobujú veľké zmeny vo výstupoch alebo výsledkoch.

Ďalším spôsobom, ako jednoducho opísať odchýlku, je to, že v modeli je príliš veľa šumu, a preto je pre program strojového učenia ťažšie izolovať a identifikovať skutočný signál.

Jedným z najjednoduchších spôsobov porovnania skreslenia a rozptylu je navrhnúť, aby inžinieri strojového učenia museli kráčať po jemnej hranici medzi príliš veľkým skreslením alebo nadmerným zjednodušením a príliš veľkým rozptylom alebo nadmernou komplexnosťou.

Ďalším spôsobom, ako reprezentovať túto studňu, je štvorčtvrtinový graf ukazujúci všetky kombinácie vysokého a nízkeho rozptylu. V kvadrante s nízkym vychýlením / rozptylom sa všetky výsledky zhromažďujú spolu v presnom zoskupení. Vo výsledku s vysokou odchýlkou ​​vychýlenia / nízkym rozptylom sa všetky výsledky zhromažďujú spolu v nepresnom zoskupení. Vo výsledku s nízkym predpätím / vysokou rozptylom sú výsledky rozptýlené okolo centrálneho bodu, ktorý by predstavoval presný klaster, zatiaľ čo vo výsledku s vysokým skreslením / vysokým rozptylom sú dátové body rozptýlené a spoločne nepresné.

Aký je jednoduchý spôsob, ako opísať zaujatosť a odchýlku v strojovom učení?