Obsah:
SQL on Hadoop je skupina analytických aplikačných nástrojov, ktoré kombinujú dotazovanie a spracovanie údajov v štýle SQL s najnovšími prvkami dátového rámca Hadoop. Výskyt SQL na Hadoope je dôležitým vývojom pri spracovaní veľkých dát, pretože umožňuje širším skupinám ľudí úspešne pracovať s rámcom spracovania údajov Hadoop spúšťaním dotazov SQL na obrovské objemy veľkých údajov, ktoré Hadoop spracúva. Je zrejmé, že rámec Hadoop predtým nebol pre ľudí taký prístupný, najmä pokiaľ ide o jeho schopnosti dotazovania. Na základe vývoja existuje niekoľko nástrojov, ktoré sľubujú zvýšenie produktivity podnikov, pokiaľ ide o spracovanie a analýzu veľkých údajov s kvalitou a rýchlosťou. Takisto nie je potrebné veľa investovať do výučby tohto nástroja, ako by to mali tradičné znalosti jazyka SQL.
Definícia SQL na Hadoop
SQL on Hadoop je skupina aplikácií, ktorá vám umožňuje spúšťať dotazy v štýle SQL na veľkých údajoch hostených rámcom spracovania údajov Hadoop. Je zrejmé, že dotazovanie, získavanie a analýza údajov boli jednoduchšie pridaním SQL na Hadoop. Pretože SQL bol pôvodne určený pre relačné databázy, musel byť upravený podľa modelu Hadoop 1, ktorý obsahuje MapReduce a Hadoop Distributed File System (HDFS), a modelu Hadoop 2, ktorý nemá MapReduce a HDFS.
Jedným z prvých snáh o kombináciu SQL s Hadoopom bolo vytvorenie dátového skladu Hive so softvérom HiveQL, ktorý mohol prekladať dotazy v štýle SQL do úloh MapReduce. Potom bolo vyvinutých niekoľko aplikácií, ktoré by mohli vykonávať podobné úlohy. Medzi neskoršie nástroje patria: Vŕtačka, BigSQL, HAWQ, Impala, Hadapt, Stinger, H-SQL, Splice Machine, Presto, PolyBase, Spark, JethroData, Shark (Hive on Spark) a Tez (Hive on Tez).