Obsah:
Apache Hadoop je dlhodobo základom veľkých dátových aplikácií a považuje sa za základnú dátovú platformu pre všetky ponuky týkajúce sa veľkých dát. Databáza a výpočty v pamäti však získavajú na popularite kvôli rýchlejšiemu výkonu a rýchlym výsledkom. Apache Spark je nový rámec, ktorý využíva funkcie v pamäti na zabezpečenie rýchleho spracovania (takmer 100-krát rýchlejšie ako Hadoop). Takže produkt Spark sa čoraz viac používa vo svete veľkých údajov a hlavne na rýchlejšie spracovanie.
Webinár: Sila návrhov: Ako katalóg údajov zmocňuje analytikov Zaregistrujte sa tu |
Čo je to Apache Spark?
Apache Spark je open-source framework pre spracovanie obrovských objemov dát (veľké dáta) s rýchlosťou a jednoduchosťou. Je vhodný pre analytické aplikácie založené na veľkých údajoch. Spark môže byť použitý v prostredí Hadoop, samostatne alebo v cloude. Bol vyvinutý na Kalifornskej univerzite a neskôr ponúknutý nadácii Apache Software Foundation. Patrí teda do komunity s otvoreným zdrojom a môže byť veľmi nákladovo efektívna, čo ďalej umožňuje amatérskym vývojárom ľahkú prácu. (Ak sa chcete dozvedieť viac o otvorenom zdrojovom kóde spoločnosti Hadoop, prečítajte si článok Aký je vplyv otvoreného zdroja na ekosystém Apache Hadoop?)
Hlavným účelom programu Spark je, že ponúka vývojárom aplikačný rámec, ktorý pracuje okolo centrovanej dátovej štruktúry. Spark je tiež mimoriadne silný a má vrodenú schopnosť rýchlo spracovať veľké množstvo údajov v krátkom čase, a tak ponúka mimoriadne dobrý výkon. Vďaka tomu je oveľa rýchlejšia ako to, o ktorom sa hovorí, že je jeho najbližším konkurentom, Hadoop.