Q:
Ako sa stalo zoškrabovanie údajov pre strojové učenie najnáročnejšou pracovnou náročnosťou od manuálneho zadávania údajov v pôvodnej migrácii?
A:Jedným z praktických problémov, s ktorými sa spoločnosti môžu stretnúť pri pokuse o začatie projektu strojového učenia (ML), je výzva na získanie počiatočných súborov údajov o školeniach. Môže to zahŕňať procesy náročné na pracovnú silu, ako je napríklad zoškrabanie z webu alebo iné zoškrabanie údajov.
Výrazy webový škrabanie a šrotovanie dát sa vo veľkej miere vzťahujú na automatizovanú činnosť pomocou počítačového softvéru, ale v prípade mnohých projektov ML sa vyskytnú prípady, keď počítače nebudú mať sofistikovanosť na zhromažďovanie správnych cielených údajov, takže sa bude musieť urobiť. "ručne." Toto by ste mohli nazvať „ľudský web / zoškrabovanie údajov“ a je to nevďačná práca. Spravidla to znamená ísť von a hľadať údaje alebo obrázky, ktoré „nakŕmia“ program ML prostredníctvom výcvikových súprav. Je to často dosť opakujúce sa, čo spôsobuje únavu, zdĺhavú a náročnú prácu.
Zdarma na stiahnutie: Strojové učenie a prečo na tom záleží |
Šrotovanie dát pre školiace súpravy ML predstavuje jedinečne problematické miesto v strojovom vzdelávaní, čiastočne preto, že veľká časť ďalšej práce je vysoko koncepčná a nie opakujúca sa. Mnoho ľudí môže prísť s vynikajúcim nápadom pre novú aplikáciu, ktorá vykonáva úlohy strojového učenia, ale matice a skrutky a praktická práca môžu byť oveľa ťažšie. Delegovanie práce na zostavovaní školiacich súprav môže byť v skutočnosti jednou z najťažších častí projektu ML, ako sa to v televíznej relácii Mike Judge "Silicon Valley" úplne preskúmalo. V štvrtej epizóde sezóny začínajúci podnikateľ najprv vytrhne partnera, ktorý vykonáva prácu náročnú na prácu, a potom sa ho pokúša odovzdať vysokoškolským študentom tým, že ho zamaskuje ako domácu úlohu.
Tento príklad je poučný, pretože ukazuje, ako je nemajetné a zdanlivo nedôležité manuálne zoškrabovanie údajov. Zároveň však ukazuje, že tento proces je potrebný pre širokú škálu produktov strojového vzdelávania. Aj keď väčšina ľudí nenávidí zadávanie údajov, školiace súpravy sa musia nejakým spôsobom zostaviť. Odborníci na tento proces často odporúčajú používať službu webového škrabania - v podstate iba externe zadávajú túto prácu, ktorá je veľmi náročná na prácu, externým stranám, čo by však mohlo mať bezpečnostné dôsledky a spôsobiť ďalšie problémy. Pri manuálnom zbere údajov je potrebné znovu ustanoviť, čo je často veľmi manuálny a časovo náročný proces.
V niektorých ohľadoch „zoškrabovanie ľudských údajov“ pre strojové učenie vyzerá ako manuálne zadávanie údajov, ktoré sa niekedy muselo vykonať pri staršej migrácii. Keď sa cloud stal čoraz populárnejším a spoločnosti vkladali svoje procesy a pracovné postupy do cloudu, niektorí zistili, že neprešli praktickými aspektmi toho, ako preniesť svoje podnikové údaje z izolovaného starého systému do cloudových natívnych aplikácií. Výsledkom bolo, že niektorí ľudia, ktorí boli inak vedcami údajov alebo tvorivými ľuďmi so základnými zručnosťami v oblasti IT, sa ocitli vo vykonávaní nepríjemných úloh pri zadávaní údajov.
To isté sa pravdepodobne stane pri strojovom učení. Možno počujete vedca údajov, ktorý sa sťažuje, že „som kreatívny človek“ alebo „som na strane vývoja“ - ale niekto musí robiť špinavú prácu.
Ak kreatívny tok opäť nezodpovedá praktickému vyhodnoteniu delegovania pracovných postupov, bude existovať nesúlad v tom, ako sa riadi spracovanie úloh. Ak spoločnosť nemá ľudí, ktorí by vykonávali prácu na zbere údajov pri zhromažďovaní súborov údajov, chýba mu kľúčová časť postupu pre úspešný projekt. Je potrebné pamätať na to vždy, keď sa spoločnosť snaží urobiť dobrý nápad, ktorý je založený na vývoji nových aplikácií strojového učenia.