Domov audio Analytika Hadoop: nie je tak jednoduchá vo viacerých zdrojoch údajov

Analytika Hadoop: nie je tak jednoduchá vo viacerých zdrojoch údajov

Obsah:

Anonim

Hadoop je skvelým miestom na odkladanie dát na analytické spracovanie alebo na modelovanie väčších objemov jediného zdroja údajov, ktorý nie je možný pri existujúcich systémoch. Keďže však spoločnosti prinášajú údaje z mnohých zdrojov do spoločnosti Hadoop, existuje rastúci dopyt po analýze údajov z rôznych zdrojov, ktoré je veľmi ťažké dosiahnuť. Tento príspevok je prvý zo série pozostávajúcej z troch častí, ktorý vysvetľuje problémy, ktorým organizácie čelia, keď sa pokúšajú analyzovať rôzne zdroje a typy údajov v rámci Hadoop a ako tieto problémy vyriešiť. Dnešný príspevok sa zameriava na problémy, ktoré sa vyskytujú pri kombinovaní viacerých interných zdrojov. Nasledujúce dva príspevky vysvetľujú, prečo sa tieto problémy zvyšujú so zložitosťou, pretože sa pridávajú externé zdroje údajov a ako nové prístupy ich pomáhajú riešiť.

Dáta z rôznych zdrojov, ktoré je ťažké pripojiť a mapovať

Údaje z rôznych zdrojov majú rôzne štruktúry, ktoré sťažujú spojenie a mapovanie typov údajov dohromady, dokonca aj údajov z vnútorných zdrojov. Kombinácia údajov môže byť obzvlášť ťažká, ak zákazníci majú viac čísel účtov alebo ak organizácia získala alebo sa spojila s inými spoločnosťami. V posledných niekoľkých rokoch sa niektoré organizácie pokúsili použiť aplikácie na zisťovanie údajov alebo na ich využitie na analýzu údajov z viacerých zdrojov uložených v Hadoope. Tento prístup je problematický, pretože si vyžaduje veľa dohadov: používatelia sa musia rozhodnúť, ktoré cudzie kľúče majú použiť na pripojenie rôznych zdrojov údajov a pri vytváraní prekrytí dátového modelu musia vychádzať z predpokladov. Tieto odhady sa dajú ťažko testovať a často nesprávne, ak sa používajú v mierke, čo vedie k chybnej analýze údajov a nedôvere k zdrojom.

Experti spoločnosti Hadoop sa pokúšajú zlúčiť údaje spoločne

Organizácie, ktoré chcú analyzovať údaje naprieč zdrojmi údajov, sa preto rozhodli najať odborníkov spoločnosti Hadoop, aby vytvorili vlastné skripty špecifické pre daný zdroj, aby sa súbory dát zlúčili dohromady. Títo odborníci spoločnosti Hadoop zvyčajne nie sú odborníkmi na integráciu údajov ani na riešenie problémov entít, ale robia maximum, aby dokázali riešiť okamžité potreby organizácie. Títo odborníci zvyčajne používajú Pig alebo Java na písanie tvrdých a rýchlych pravidiel, ktoré určujú, ako kombinovať štruktúrované údaje z konkrétnych zdrojov, napr. Zodpovedajúce záznamy na základe čísla účtu. Po napísaní skriptu pre dva zdroje, ak je potrebné pridať tretí zdroj, musí byť prvý skript vyhodený a nový skript navrhnutý tak, aby kombinoval tri konkrétne zdroje. To isté sa stane, ak sa pridá iný zdroj a tak ďalej. Nielenže je tento prístup neefektívny, ale tiež zlyhá, keď sa uplatňuje v mierke, zle rieši prípady na hranách, môže viesť k veľkému počtu duplikátov záznamov a často spája veľa záznamov, ktoré by sa nemali kombinovať.

Analytika Hadoop: nie je tak jednoduchá vo viacerých zdrojoch údajov