Q:
Prečo bagging pri strojovom učení zmenšuje rozptyl?
A:Agregácia zavádzania alebo „bagging“ v strojovom vzdelávaní znižuje rozptyl vytváraním pokročilejších modelov zložitých súborov údajov. Konkrétne metóda vrecovania vytvára podskupiny, ktoré sa často prekrývajú, aby sa údaje mohli modelovať podrobnejšie.
Jeden zaujímavý a priamy názor na to, ako aplikovať vrecovanie, je odobrať súbor náhodných vzoriek a získať jednoduchý priemer. Potom pomocou rovnakej sady vzoriek vytvorte desiatky podmnožín zostavených ako rozhodovacie stromy na manipuláciu s prípadnými výsledkami. Druhý priemer by mal ukazovať pravdivejší obraz o tom, ako sa tieto jednotlivé vzorky navzájom hodnotovo hodnotia. Rovnaká myšlienka sa môže uplatniť na akúkoľvek vlastnosť ktorejkoľvek sady dátových bodov.
Zdarma na stiahnutie: Strojové učenie a prečo na tom záleží |
Pretože tento prístup zjednocuje objav do viac definovaných hraníc, znižuje rozptyl a pomáha s nadmerným prispôsobovaním. Pomysli na rozptyl s trochu distribuovanými dátovými bodmi; pomocou metódy vrecovania „inžinieri“ zmenšujú zložitosť a zameriavajú sa línie zisťovania na hladšie parametre.
Niektorí hovoria o hodnote vrecovania ako o „rozdelení a dobytí“ alebo o type „asistovanej heuristiky“. Myšlienka je taká, že prostredníctvom modelovania súborov, ako je napríklad použitie náhodných lesov, môžu tí, ktorí používajú techniku pytlovania, získať výsledky údajov, ktoré sú menej rozptylové. Z hľadiska zmenšenia zložitosti môže vrecovanie tiež pomôcť s nadmerným osadením. Pomyslite na model s príliš veľkým počtom dátových bodov: povedzme body „connect-the-dot“ so 100 nevyrovnanými bodkami. Výsledná vizuálna dátová čiara bude zubatá, dynamická a prchavá. Potom túto odchýlku „vyžehlite“ zostavením súborov hodnotení. Pri skupinovom vzdelávaní sa to často považuje za spojenie niekoľkých „slabých študentov“, aby sa dosiahol výsledok spolupráce „silného vzdelávania“. Výsledkom je plynulejší a tvarovanejší dátový riadok a menšie divoké rozptyly v modeli.
Je ľahké pochopiť, ako sa dá myšlienka vrecovania uplatniť na podnikové IT systémy. Vedúci predstavitelia firiem často chcú „pohľad z vtáčej perspektívy“ na to, čo sa deje s produktmi, zákazníkmi atď. Prefabrikovaný model môže priniesť menej stráviteľné údaje a viac „rozptýlených“ výsledkov, kde balenie môže „stabilizovať“ model a urobiť ho užitočnejším. koncovým používateľom.