Obsah:
Všetci hovoria o technológii Hadoop, novej horúcej technológii, ktorá je vysoko cenená medzi vývojármi a ktorá by mohla zmeniť svet (opäť). Ale čo to vlastne je? Je to programovací jazyk? Databáza? Systém spracovania? Príjemný indický čaj?
Všeobecná odpoveď: Hadoop sú všetky tieto veci (okrem príjemného čaju) a ďalšie. Je to softvérová knižnica, ktorá poskytuje programovací rámec pre lacné a užitočné spracovanie iného moderného buzzwordu: veľkých dát.
Odkiaľ pochádza Hadoop?
Apache Hadoop je súčasťou nadačného projektu od Apache Software Foundation, neziskovej organizácie, ktorej poslaním je „poskytovať softvér pre verejné blaho“. Knižnica Hadoop ako taká je bezplatný softvér s otvoreným zdrojom, ktorý je k dispozícii všetkým vývojárom.
Základná technológia, ktorá poháňa Hadoop, bola skutočne vynájdená spoločnosťou Google. V prvých dňoch potreboval vyhľadávací nástroj, ktorý nie je dosť veľký, spôsob, ako indexovať obrovské množstvo údajov, ktoré zbierali z internetu, a zmeniť ho na zmysluplné a relevantné výsledky pre jeho používateľov. Keďže spoločnosť Google nemala k dispozícii nič, čo by vyhovovalo ich požiadavkám, postavila svoju vlastnú platformu.
Tieto inovácie boli vydané v projekte open source s názvom Nutch, ktorý Hadoop neskôr použil ako nadácia. Hadoop v podstate uplatňuje silu spoločnosti Google na veľké dáta spôsobom, ktorý je dostupný pre spoločnosti všetkých veľkostí.
Akým spôsobom liek Hadoop účinkuje?
Ako už bolo spomenuté, Hadoop nie je jedna vec - je to veľa vecí. Softvérová knižnica, ktorá je Hadoop, sa skladá zo štyroch primárnych častí (modulov) a množstva doplnkových riešení (ako sú databázy a programovacie jazyky), ktoré zvyšujú jej využitie v reálnom svete. Štyri moduly sú:- Hadoop Common: Toto je zbierka bežných nástrojov (spoločná knižnica), ktorá podporuje moduly Hadoop.
- Distribuovaný systém súborov Hadoop (HDFS): Robustný systém distribuovaných súborov bez obmedzení uložených údajov (čo znamená, že údaje môžu byť štruktúrované alebo neštruktúrované a schemaless, kde veľa DFS bude ukladať iba štruktúrované údaje), ktoré poskytujú vysokovýkonný prístup s redundanciou ( HDFS umožňuje ukladanie údajov na viacerých počítačoch - takže ak jeden stroj zlyhá, dostupnosť sa zachová prostredníctvom ostatných počítačov).
- Hadoop YARN: Tento rámec je zodpovedný za plánovanie úloh a správu klastrových prostriedkov; zabezpečuje, že údaje sú rozložené dostatočne na viacerých strojoch, aby sa zachovala redundancia. YARN je modul, vďaka ktorému je Hadoop cenovo dostupným a nákladovo efektívnym spôsobom spracovania veľkých dát.
- Hadoop MapReduce: Tento systém založený na technológii YARN, postavený na technológii Google, vykonáva paralelné spracovanie veľkých súborov dát (štruktúrovaných aj nestrukturovaných). MapReduce nájdete aj vo väčšine dnešných veľkých rámcov na spracovanie údajov, vrátane databáz MPP a NoSQL.
Hardvér, ktorý zvládne množstvo výpočtového výkonu potrebného na prácu s veľkými dátami, je drahý, mierne povedané. Toto je skutočná inovácia firmy Hadoop: schopnosť rozdeliť obrovské množstvo výpočtového výkonu na viac menších počítačov, každý s vlastným lokalizovaným výpočtom a uložením, spolu so vstavanou redundanciou na úrovni aplikácie, aby sa predišlo chybám.
Čo robí Hadoop?
Jednoducho povedané, Hadoop umožňuje prístup k veľkým údajom a ich použiteľnosť pre všetkých.
Pred spoločnosťou Hadoop to spoločnosti, ktoré používali veľké údaje, spravovali väčšinou s relačnými databázami a podnikovými dátovými skladmi (ktoré používajú obrovské množstvo drahého hardvéru). Aj keď tieto nástroje sú vynikajúce na spracovanie štruktúrovaných údajov - čo sú dáta, ktoré už sú usporiadané a usporiadané zvládnuteľným spôsobom - kapacita na spracovanie neštruktúrovaných údajov bola extrémne obmedzená, takže prakticky neexistovala. Aby boli údaje použiteľné, museli byť najprv štruktúrované, aby sa prehľadne zmestili do tabuliek.
Rámec Hadoop túto požiadavku mení a robí to lacno. S Hadoopom je možné spracovávať obrovské množstvo dát od 10 do 100 gigabajtov a vyššie, štruktúrovaných aj nestrukturovaných, pomocou bežných (komoditných) serverov.
Hadoop prináša potenciálne veľké dátové aplikácie pre podniky všetkých veľkostí v každom odvetví. Rámec open-source umožňuje finančným spoločnostiam vytvárať sofistikované modely na hodnotenie portfólia a analýzu rizika, alebo online maloobchodníci môžu doladiť svoje odpovede na vyhľadávanie a nasmerovať zákazníkov na produkty, ktoré si pravdepodobne kúpia.
S Hadoopom sú možnosti skutočne neobmedzené.