Domov audio Aké sú kľúčové spôsoby automatizácie a optimalizácie procesov vedy o údajoch?

Aké sú kľúčové spôsoby automatizácie a optimalizácie procesov vedy o údajoch?

Anonim

Q:

Aké sú kľúčové spôsoby automatizácie a optimalizácie procesov vedy o údajoch?

A:

Procesy vedy o údajoch v kontexte strojového učenia a umelej inteligencie sa dajú rozdeliť do štyroch rôznych fáz:

  1. získavanie a prieskum údajov,
  2. modelovanie budov,
  3. - nasadenie modelu a -
  4. online hodnotenie a vylepšovanie.

Podľa mojich skúseností sú najviac prekážajúcimi fázami fázy získavania údajov a zavádzania modelov v akomkoľvek procese strojového vzdelávania založenom na údajoch a tu sú dva spôsoby, ako ich optimalizovať:

1. Zriadiť vysoko prístupný databázu údajov.

Vo väčšine organizácií sa údaje neukladajú na jednom centrálnom mieste. Zoberme si iba informácie týkajúce sa zákazníkov. Máte kontaktné informácie o zákazníkoch, e-maily podpory zákazníkov, spätnú väzbu od zákazníkov a históriu prehliadania zákazníkov, ak je vaša firma webovou aplikáciou. Všetky tieto údaje sú prirodzene rozptýlené, pretože slúžia na rôzne účely. Môžu byť umiestnené v rôznych databázach a niektoré môžu byť úplne štruktúrované a iné neštruktúrované a dokonca môžu byť uložené ako obyčajné textové súbory.

Bohužiaľ, rozptýlenosť týchto súborov údajov je vysoko obmedzená na prácu s údajmi, pretože základom všetkých problémov s NLP, strojovým učením a AI sú údaje . Takže mať všetky tieto údaje na jednom mieste - dátovom sklade - je rozhodujúce pri zrýchľovaní vývoja a zavádzania modelov. Vzhľadom na to, že ide o zásadný prvok všetkých procesov vedy o údajoch, organizácie by mali najať kvalifikovaných údajových inžinierov, ktorí im pomôžu pri zostavovaní ich databáz údajov. To sa môže ľahko začať tým, že sa jednoduché výpisy údajov rozložia na jedno miesto a pomaly sa rozvinú do premysleného úložiska údajov, ktoré je plne zdokumentované a dá sa do frontu pomocou pomocných nástrojov na exportovanie podskupín údajov do rôznych formátov na rôzne účely.

2. Vystavujte svoje modely ako službu pre bezproblémovú integráciu.

Okrem umožnenia prístupu k údajom je tiež dôležité integrovať modely vyvinuté vedcami údajov do produktu. Integrácia modelov vyvinutých v Pythone s webovou aplikáciou, ktorá beží na Ruby, môže byť veľmi náročná. Okrem toho môžu mať modely veľa dátových závislostí, ktoré váš produkt nemusí poskytnúť.

Jedným zo spôsobov, ako to vyriešiť, je vytvoriť silnú infraštruktúru okolo vášho modelu a odhaliť len toľko funkcií, ktoré váš produkt potrebuje na to, aby sa model mohol používať ako „webová služba“. Napríklad, ak vaša aplikácia vyžaduje klasifikáciu sentimentu pri recenziách produktov, všetko, čo by malo urobiť, je vyvolať webovú službu, poskytnúť relevantný text a služba by vrátila príslušnú klasifikáciu sentimentu, ktorú môže produkt priamo použiť. Týmto spôsobom je integrácia jednoducho vo forme API volania. Oddelenie modelu a produktu, ktorý ho používa, skutočne uľahčuje nové produkty, ktoré prichádzate, používať aj tieto modely s malými problémami.

Teraz je nastavenie infraštruktúry okolo vášho modelu úplne iný príbeh a vyžaduje si od svojich inžinierskych tímov počiatočnú investíciu. Akonáhle je infraštruktúra tam, je to len otázka modelovania spôsobom, ktorý zapadá do infraštruktúry.

Aké sú kľúčové spôsoby automatizácie a optimalizácie procesov vedy o údajoch?