Domov trendy 7 vecí, ktoré by ste mali vedieť o hadoope

7 vecí, ktoré by ste mali vedieť o hadoope

Obsah:

Anonim

Čo je liek Hadoop? Je to žltý slon pre hračky. Nie to, čo ste očakávali? A čo toto: Doug Cutting - spolutvorca tohto softvérového projektu s otvoreným zdrojovým kódom - požičal si meno od jeho syna, ktorý náhodou zavolal svojho hračkárskeho slona Hadoopa. Stručne povedané, Hadoop je softvérový rámec vyvinutý Apache Software Foundation, ktorý sa používa na vývoj dátovo náročných distribuovaných výpočtov. A je to kľúčový komponent v iných čítačkách hesiel, ktoré nikdy nedokážu mať dosť: veľké dáta. Tu je sedem vecí, ktoré by ste mali vedieť o tomto jedinečnom, voľne licencovanom softvéri.

Ako sa Hadoop dostal na svoj začiatok?

Pred dvanástimi rokmi spoločnosť Google vybudovala platformu na manipuláciu s veľkým množstvom údajov, ktoré zhromažďovala. Ako spoločnosť často, spoločnosť Google sprístupnila svoj dizajn verejnosti v podobe dvoch dokumentov: Google File System a MapReduce.


V tom istom čase Doug Cutting a Mike Cafarella pracovali na novom vyhľadávači Nutch. Obaja tiež zápasili s tým, ako spracovať veľké množstvo údajov. Potom dvaja vedci získali prehľad o dokumentoch spoločnosti Google. Táto šťastná križovatka všetko zmenila zavedením Cutting and Cafarella do lepšieho systému súborov a spôsobu, ako sledovať dáta, čo nakoniec viedlo k vytvoreniu Hadoopu.

Čo je také dôležité na Hadoope?

V súčasnosti je zber údajov ľahší ako kedykoľvek predtým. Mať všetky tieto údaje predstavuje veľa príležitostí, existujú však aj výzvy:

  • Veľké množstvo údajov si vyžaduje nové metódy spracovania.
  • Zaznamenané údaje sú v neštruktúrovanom formáte.
Na prekonanie problémov manipulácie s obrovským množstvom neštruktúrovaných údajov, Cutting and Cafarella prišiel s dvojdielnym riešením. Na vyriešenie problému s kvantitou údajov spoločnosť Hadoop využíva distribuované prostredie - sieť komoditných serverov - a vytvára paralelný procesorový klaster, ktorý prináša väčšiu výpočtovú silu na priradenú úlohu.


Ďalej museli riešiť neštruktúrované údaje alebo údaje vo formátoch, ktoré štandardné systémy relačných databáz nedokázali spracovať. Cutting a Cafarella navrhli Hadoop pre prácu s akýmkoľvek typom dát: štruktúrované, nestrukturované, obrázky, zvukové súbory, dokonca aj text. Tento dokument Cloudera (integrátor Hadoop) vysvetľuje, prečo je to dôležité:

    „Vďaka použitiu všetkých vašich údajov, nielen toho, čo je vo vašich databázach, vám Hadoop umožní odhaliť skryté vzťahy a odhalí odpovede, ktoré boli vždy mimo dosahu. Môžete začať robiť viac rozhodnutí na základe tvrdých údajov, namiesto poľovných mien, a pozrieť sa v úplných súboroch údajov, nielen v prípade vzoriek a súhrnov. ““

Čo je schéma na čítanie?

Ako už bolo uvedené, jednou z výhod spoločnosti Hadoop je jej schopnosť spracovať neštruktúrované údaje. V istom zmysle je to „kopanie plechovky po ceste“. Nakoniec údaje potrebujú nejakú štruktúru, aby ju mohli analyzovať.


Tam prichádza do hry schéma pri čítaní. Schéma pri čítaní je zlúčenie formátu, v ktorom sú údaje, kde ich možno nájsť (pamätajte, že údaje sú rozptýlené medzi niekoľko serverov) a čo je potrebné urobiť s údajmi - nie je to jednoduchá úloha. Hovorí sa, že manipulácia s údajmi v systéme Hadoop vyžaduje zručnosti obchodného analytika, štatistika a programátora Java. Bohužiaľ, nie je veľa ľudí s takouto kvalifikáciou.

Čo je Úľ?

Ak mal Hadoop uspieť, práca s údajmi sa musela zjednodušiť. Takže open-source dav začal fungovať a vytvoril Úľ:

    „Úľ poskytuje mechanizmus na premietanie štruktúry do týchto údajov a na dotazovanie údajov pomocou jazyka podobného SQL s názvom HiveQL. Tento jazyk zároveň umožňuje aj tradičným mapovým / redukčným programátorom pripojiť svoje vlastné mapovače a reduktory, keď je to nevhodné alebo neefektívne vyjadriť túto logiku v HiveQL. “

Úľ umožňuje to najlepšie z oboch svetov: pracovníci databázy oboznámení s príkazmi SQL môžu s údajmi manipulovať a vývojári, ktorí sú oboznámení so schémou procesu čítania, sú stále schopní vytvárať prispôsobené dotazy.

Aké údaje analyzuje spoločnosť Hadoop?

Web analytics je prvá vec, ktorá príde na myseľ, analyzuje webové denníky a webový prenos s cieľom optimalizovať webové stránky. Napríklad Facebook je určite súčasťou webovej analýzy, pomocou Hadoopu triedi cez terabajty údajov, ktoré spoločnosť zhromažďuje.


Spoločnosti používajú klastre Hadoop na vykonávanie analýzy rizík, zisťovania podvodov a segmentácie zákazníckej základne. Spoločnosti poskytujúce verejné služby používajú program Hadoop na analýzu údajov senzorov z elektrickej siete, čo im umožňuje optimalizovať výrobu elektrickej energie. Hlavné spoločnosti ako Target, 3M a Medtronics používajú Hadoop na optimalizáciu distribúcie produktov, hodnotenia obchodných rizík a segmentácie zákazníckej základne.


Univerzity sa investujú aj do spoločnosti Hadoop. Brad Rubin, docent na postgraduálnom štúdiu programov v softvéri na University of St. Thomas, uviedol, že jeho odbornosť v oblasti Hadoop pomáha pri triedení veľkého množstva údajov, ktoré zostavujú výskumné skupiny na univerzite.

Môžete uviesť príklad hadoopu v skutočnom svete?

Jedným z najznámejších príkladov je stroj TimesMachine. The New York Times má zbierku celostránkových obrázkov TIFF pre noviny, pridružených metadát a textu článkov z rokov 1851 až 1922, čo predstavuje terabajty údajov. Derek Gottfrid z NYT pomocou systému EC2 / S3 / Hadoop a špecializovaného kódu, :

    „Prijalo sa 405 000 veľmi veľkých obrázkov TIFF, 3, 3 milióna článkov v SGML a 405 000 xml súborov mapujúcich články do obdĺžnikových oblastí v TIFF. Tieto údaje boli konvertované do webovsky priaznivejších 810 000 PNG obrázkov (miniatúry a úplné obrázky) a 405 000 súborov JavaScript. "

Pri používaní serverov v cloude Amazon Web Services sa Gottfrid zmienil o tom, že boli schopné spracovať všetky údaje potrebné pre TimesMachine za menej ako 36 hodín.

Je už Hadoop zastaraný alebo len morfuje?

Hadoop je tu už viac ako desať rokov. Mnohí hovoria, že je zastaraná. Jeden odborník, Dr. David Rico, povedal, že „IT produkty sú krátkodobé. V psích rokoch sú produkty spoločnosti Google asi 70, zatiaľ čo Hadoop je 56.“


To, čo hovorí Rico, môže byť pravda. Zdá sa, že Hadoop prechádza veľkou opravou. Aby som sa o tom dozvedel viac, pozval ma Rubin na stretnutie skupiny používateľov miest Hadoop Twin Cities. Témou diskusie bolo Úvod do YARN:

    „Apache Hadoop 2 obsahuje nový modul MapReduce, ktorý má oproti predchádzajúcej implementácii množstvo výhod, vrátane lepšej škálovateľnosti a využívania zdrojov. Nová implementácia je postavená na všeobecnom systéme riadenia zdrojov na spúšťanie distribuovaných aplikácií s názvom YARN.“
Hadoop má v kruhoch pre správu databáz a obsahu veľa zvukov, stále však existuje mnoho otázok a ako sa dá čo najlepšie využiť. To je len pár. Ak máte viac, pošlite im našu cestu. Na Techopedia.com odpovieme na tých najlepších.

7 vecí, ktoré by ste mali vedieť o hadoope