Domov To-Business Dáta, veľké a malé: kde je skutočná hodnota?

Dáta, veľké a malé: kde je skutočná hodnota?

Obsah:

Anonim

Veľké dáta sú všeobecné slová, ktoré sa používajú na označenie spracovania veľkých objemov údajov. Všetci chápeme, že čím väčší je objem údajov, tým zložitejšie sú. Tradičné databázové riešenia často nedokážu správne spravovať veľké objemy údajov kvôli ich zložitosti a veľkosti. Preto je správa veľkého množstva údajov a získavanie skutočného prehľadu náročnou úlohou. Rovnaký koncept „hodnoty“ sa dá uplatniť aj na malé údaje.

Ako sa používajú veľké údaje

Konvenčné databázové riešenia založené na koncepte RDBMS môžu veľmi dobre spravovať transakčné údaje a sú široko používané v rôznych aplikáciách. Pokiaľ však ide o manipuláciu s veľkým súborom údajov (údaje, ktoré sú archivované a nachádzajú sa v terabajtoch alebo petabajtoch), tieto databázové riešenia často zlyhávajú. Tieto súbory údajov sú príliš veľké a väčšinou sa nezmestia do architektúry tradičných databáz. V súčasnosti sa veľké údaje stali nákladovo efektívnym prístupom k spracovaniu väčších súborov údajov. Z organizačného hľadiska je možné veľké údaje rozdeliť do nasledujúcich kategórií, v ktorých spočíva skutočná hodnota veľkých údajov:

  • Analytické použitie

    Analytici veľkých dát odhalili mnoho dôležitých skrytých aspektov údajov, ktoré sú príliš nákladné na spracovanie. Napríklad, ak musíme skontrolovať trend záujmu študentov o určitú novú tému, môžeme to urobiť pomocou analýzy denných záznamov o dochádzke a iných sociálnych a geografických údajov. Tieto fakty sú zaznamenané v databáze. Ak nemôžeme získať prístup k týmto údajom efektívnym spôsobom, nemôžeme vidieť výsledky.

  • Povoliť nové produkty

    V nedávnej minulosti začalo množstvo nových webových spoločností, napríklad Facebook, využívať veľké dáta ako riešenie na uvedenie nových produktov. Všetci vieme, aký je obľúbený Facebook - úspešne pripravil vysoko výkonné užívateľské prostredie s využitím veľkých dát.

Kde je skutočná hodnota?

Rôzne veľké dátové riešenia sa líšia v prístupe, v ktorom ukladajú údaje, ale nakoniec všetky ukladajú údaje v plochej štruktúre súborov. Vo všeobecnosti pozostáva Hadoop zo súborového systému a niektorých dátových abstrakcií na úrovni operačného systému. Toto zahŕňa motor MapReduce a Distribuovaný systém súborov Hadoop (HDFS). Jednoduchý klaster Hadoop obsahuje jeden hlavný uzol a niekoľko pracovných uzlov. Hlavný uzol pozostáva z nasledujúcich:

  • Sledovanie úloh
  • Sledovanie úloh
  • Názov uzla
  • Dátový uzol
Pracovný uzol pozostáva z nasledujúcich:
  • Sledovanie úloh
  • Dátový uzol

Niektoré implementácie majú iba dátový uzol. Dátový uzol je skutočná oblasť, v ktorej sa nachádzajú údaje. HDFS ukladá veľké súbory (v rozsahu od terabajtov do petabytov) distribuované na viacerých počítačoch. Spoľahlivosť údajov v každom uzle sa dosiahne replikáciou údajov na všetkých hostiteľoch. Dáta sú teda k dispozícii, aj keď je jeden z uzlov vypnutý. Pomáha to dosiahnuť rýchlejšiu reakciu na otázky. Tento koncept je veľmi užitočný v prípade veľkých aplikácií, ako je Facebook. Ako používateľ dostaneme odpoveď na našu žiadosť o rozhovor napríklad takmer okamžite. Zoberme si scenár, v ktorom používateľ musí počas chatovania čakať dlhý čas. Ak správa a následná odpoveď nebudú doručené okamžite, koľko ľudí bude skutočne používať tieto nástroje na četovanie?

Ak sa údaje nevrátia späť k implementácii Facebooku, ak sa údaje nereplikujú v klastroch, nebude možné mať atraktívnu implementáciu. Hadoop distribuuje údaje medzi počítačmi vo väčšom klastri a ukladá súbory ako postupnosť blokov. Tieto bloky majú rovnakú veľkosť okrem posledného bloku. Veľkosť bloku a faktor replikácie je možné prispôsobiť podľa potreby. Súbory v systéme HDFS prísne dodržiavajú prístup jednorazového zápisu, a preto ho môže zapisovať alebo upravovať naraz iba jeden používateľ. Rozhodnutia týkajúce sa replikácie blokov sa prijímajú podľa názvu uzla. Názvový uzol prijíma správy a impulzné odpovede z každého z dátových uzlov. Impulzné odozvy zabezpečujú dostupnosť zodpovedajúceho dátového uzla. Správa obsahuje podrobnosti o blokoch v dátovom uzle.


Ďalšia implementácia veľkých dát, Cassandra, používa podobný koncept distribúcie. Cassandra distribuuje údaje na základe geografickej polohy. V Cassandre sú teda údaje oddelené na základe geografického umiestnenia použitia údajov.

Niekedy majú malé údaje väčší (a menej drahý) vplyv

Podľa Rufusa Pollocka z Nadácie Open Knowledge Foundation nemá zmysel vytvárať humbuk okolo veľkých dát, zatiaľ čo malé dáta sú stále miestom, kde leží skutočná hodnota.


Ako už názov napovedá, malé údaje sú skupinou údajov zacielených z väčšej skupiny údajov. Malé údaje majú v úmysle posunúť pozornosť od využívania údajov a jeho cieľom je tiež čeliť trendu smerovania k veľkým údajom. Prístup malých údajov pomáha pri zhromažďovaní údajov založených na konkrétnych požiadavkách s menšou námahou. Výsledkom je efektívnejšia obchodná prax pri implementácii podnikovej inteligencie.


Koncept malých údajov sa vo svojom jadre točí okolo podnikov, ktoré si vyžadujú výsledky, ktoré si vyžadujú ďalšie kroky. Tieto výsledky je potrebné načítať rýchlo a následná akcia by sa mala vykonať okamžite. Takto môžeme vylúčiť druhy systémov, ktoré sa bežne používajú pri analýze veľkých dát.


Všeobecne platí, že ak vezmeme do úvahy niektoré špecifické systémy, ktoré sú potrebné na získavanie veľkých dát, spoločnosť by mohla investovať do nastavenia veľkého množstva serverového úložiska, používať sofistikované špičkové servery a najnovšie aplikácie na získavanie údajov na spracovanie rôznych bitov údajov., vrátane dátumov a časov akcií používateľov, demografických informácií a ďalších informácií. Celá táto skupina údajov sa presunie do centrálneho dátového skladu, kde sa na triedenie a spracovanie údajov na zobrazenie vo forme podrobných správ používajú zložité algoritmy.


Všetci vieme, že tieto riešenia priniesli úžitok mnohým podnikom z hľadiska rozšíriteľnosti a dostupnosti; existujú organizácie, ktoré zistia, že prijatie týchto prístupov si vyžaduje značné úsilie. Je tiež pravda, že v niektorých prípadoch sa podobné výsledky dosahujú pomocou menej robustnej stratégie získavania údajov.


Malé údaje poskytujú organizáciám spôsob, ako ustúpiť od posadnutosti najnovšími a najnovšími technológiami, ktoré podporujú sofistikovanejšie obchodné procesy. Spoločnosti, ktoré propagujú malé údaje, tvrdia, že z obchodného hľadiska je dôležité efektívne využívať svoje zdroje, aby bolo možné do určitej miery zabrániť nadmerným výdavkom na technológie.


Diskutovali sme veľa o realite veľkých dát a malých údajov, ale musíme pochopiť, že výber správnej platformy (veľké dáta alebo malé údaje) na správne použitie je najdôležitejšou súčasťou celého cvičenia. Pravda je, že zatiaľ čo veľké údaje môžu priniesť veľa výhod, nie vždy sú to najlepšie.

Dáta, veľké a malé: kde je skutočná hodnota?