Obsah:
- Veľké dáta sú neštruktúrované alebo čiastočne štruktúrované
- Ak nemôžeme spracovať veľké dáta, nemá zmysel
- Ako Hadoop rieši problém veľkých dát
- Obchodné prípad spoločnosti Hadoop
Veľké dáta sú … dobre … veľké! Presne to, koľko údajov možno klasifikovať ako veľké údaje, nie je veľmi jasné, takže sa v tejto rozprave nezaujímajte. Pre malú spoločnosť, ktorá sa používa na spracovanie údajov v gigabajtoch, by 10 TB údajov bolo BIG. Avšak pre spoločnosti ako Facebook a Yahoo sú petabajty veľké.
Len veľkosť veľkých dát znemožňuje (alebo prinajmenšom obmedzuje náklady) ich uloženie v tradičnom úložisku, ako sú databázy alebo konvenčné súbory. Hovoríme o nákladoch na ukladanie gigabajtov údajov. Používanie tradičných ukladacích súborov môže stáť veľa peňazí za ukladanie veľkých dát.
Tu sa pozrieme na veľké údaje, ich problémy a ako ich môže spoločnosť Hadoop vyriešiť. Po prvé, veľké dáta sú najväčšie výzvy.
Veľké dáta sú neštruktúrované alebo čiastočne štruktúrované
Mnoho veľkých dát nie je štruktúrovaných. Napríklad údaje denníka kliknutí môžu vyzerať takto:
časová pečiatka, user_id, stránka, referrer_page
Nedostatok štruktúry spôsobuje, že relačné databázy nie sú vhodné na ukladanie veľkých údajov. Navyše, nie veľa databáz sa dokáže vyrovnať s ukladaním miliárd riadkov údajov.
Ak nemôžeme spracovať veľké dáta, nemá zmysel
Ukladanie veľkých dát je súčasťou hry. Musíme to spracovať, aby z toho vyťažili inteligenciu. Tradičné úložné systémy sú dosť „hlúpe“ v tom zmysle, že jednoducho ukladajú kúsky. Neponúkajú žiadnu spracovateľskú silu.
Tradičný model spracovania údajov má dáta uložené v úložnom klastri, ktorý sa skopíruje do výpočtového klastra na spracovanie. Výsledky sa zapíšu späť do úložného klastra.
Tento model však nefunguje len pre veľké dáta, pretože kopírovanie toľkých údajov do počítačového klastra môže byť príliš časovo náročné alebo nemožné. Aká je odpoveď?
Jedným z riešení je spracovanie veľkých dát na mieste, napríklad v zdvojnásobení úložného klastra ako počítačového klastra.
Ako sme videli vyššie, veľké dáta sa vzpierajú tradičnému úložisku. Ako teda zvládneme veľké údaje?
Ako Hadoop rieši problém veľkých dát
Hadoop je postavený tak, aby bežal na klastri strojovZačnime príkladom. Povedzme, že musíme uložiť veľa fotografií. Začneme jedným diskom. Ak presiahneme jeden disk, môžeme použiť niekoľko diskov naskladaných na počítači. Keď maximalizujeme všetky disky na jednom počítači, musíme získať veľa strojov, každý s partiou diskov.
Takto sa vyrába Hadoop. Hadoop je navrhnutý tak, aby od začiatku fungoval na klastri strojov.
Hadoop klastre merajú vodorovne
Viac úložného a výpočtového výkonu je možné dosiahnuť pridaním viacerých uzlov do klastra Hadoop. To vylučuje potrebu nakupovať stále výkonnejší a drahší hardvér.
Hadoop dokáže spracovať neštruktúrované / čiastočne štruktúrované údaje
Hadoop nevynucuje schému uložených údajov. Dokáže spracovať ľubovoľné textové a binárne údaje. Hadoop tak môže ľahko stráviť akékoľvek neštruktúrované údaje.
Klastre Hadoop poskytujú úložisko a výpočtovú techniku
Videli sme, že samostatné klastre na ukladanie a spracovanie nie sú pre veľké údaje najvhodnejšie. Klastre Hadoop však poskytujú úložisko a distribuované výpočty všetko v jednom.
Obchodné prípad spoločnosti Hadoop
Hadoop poskytuje ukladanie veľkých dát za rozumnú cenuUkladanie veľkých údajov pomocou tradičného ukladania môže byť drahé. Hadoop je postavený na komoditnom hardvéri, takže poskytuje pomerne veľké úložisko za rozumnú cenu. Hadoop sa v tejto oblasti používa v petabyte.
Jedna štúdia spoločnosti Cloudera naznačila, že podniky zvyčajne minú približne 25 000 až 50 000 dolárov za terabajt ročne. Pri spoločnosti Hadoop táto cena klesne na niekoľko tisíc dolárov za terabajt ročne. Keďže hardware je lacnejší a lacnejší, tieto náklady aj naďalej klesajú.
Hadoop umožňuje zachytenie nových alebo viacerých údajov
Organizácie niekedy nezachytávajú určitý typ údajov, pretože ich uloženie bolo príliš nákladné. Pretože spoločnosť Hadoop poskytuje ukladanie za rozumnú cenu, je možné tento typ údajov zachytiť a uložiť.
Jedným z príkladov by boli denníky kliknutia na webové stránky. Pretože objem týchto protokolov môže byť veľmi vysoký, nezachytilo ich veľa organizácií. Teraz je možné pomocou protokolu Hadoop zaznamenávať a ukladať protokoly.
S Hadoop môžete ukladať dáta dlhšie
V záujme spravovania objemu uložených údajov spoločnosti periodicky odstraňujú staršie údaje. Napríklad bolo možné uložiť iba denníky za posledné tri mesiace, zatiaľ čo staršie záznamy boli vymazané. S Hadoopom je možné uchovávať historické údaje dlhšie. To umožňuje vykonávať novú analýzu na starších historických údajoch.
Napríklad zaznamenajte kliknutia z webovej stránky. Pred niekoľkými rokmi boli tieto denníky uložené na krátky čas, aby sa vypočítali štatistické údaje, napríklad populárne stránky. Teraz je Hadoop životaschopné ukladať tieto protokoly kliknutí na dlhšie časové obdobie.
Hadoop poskytuje škálovateľnú analýzu
Ak tieto údaje nemôžeme analyzovať, nemá zmysel ukladať všetky tieto údaje. Hadoop poskytuje nielen distribuované úložisko, ale aj distribuované spracovanie, čo znamená, že dokážeme naraziť na veľké množstvo údajov súčasne. Výpočtový rámec Hadoop sa nazýva MapReduce. MapReduce sa osvedčil na úrovni petabytov.
Hadoop poskytuje bohatú analytiku
Native MapReduce podporuje Javu ako primárny programovací jazyk. Možno použiť aj iné jazyky, ako sú Ruby, Python a R.
Písanie vlastného kódu MapReduce samozrejme nie je jediný spôsob, ako analyzovať údaje v Hadoope. K dispozícii je mapa na vyššej úrovni. Napríklad nástroj s názvom Pig používa angličtinu ako jazyk toku údajov a prekladá ich do MapReduce. Ďalší nástroj, Hive, prijíma dotazy SQL a spúšťa ich pomocou MapReduce.
Nástroje business intelligence (BI) môžu poskytnúť ešte vyššiu úroveň analýzy. Existujú aj nástroje pre tento typ analýzy.
Tento obsah je výňatkom z knihy „Hadoop Illuminated“ od Mark Kerzner a Sujee Maniyam. Bola sprístupnená prostredníctvom licencie Creative Commons typu Uvedenie autora - nekomerčné, ShareAlike 3.0.