Domov technické vybavenie Veľké železo, stretnite sa s veľkými údajmi: oslobodenie údajov z mainframe pomocou hadoopu a iskry

Veľké železo, stretnite sa s veľkými údajmi: oslobodenie údajov z mainframe pomocou hadoopu a iskry

Anonim

Od zamestnancov Techopedia, 2. júna 2016

Vzhľad: Ekosystém Hadoop sa používa na sálových počítačoch na rýchle a efektívne spracovanie veľkých údajov.

Momentálne nie ste prihlásení. Ak chcete vidieť video, prihláste sa alebo sa zaregistrujte.

Eric Kavanagh: Dobre dámy a páni, vo štvrtok sú štyri hodiny východnej a dnes to znamená, že je čas na Hot Technologies. Áno, skutočne sa volám Eric Kavanagh. Budem vašim moderátorom dnešného webového seminára. Je to dobré, ľudia, „Big Iron, Meet Big Data“ - páči sa mi ten nadpis - „Oslobodenie údajov mainframe s Hadoopom a Sparkom.“ Budeme hovoriť o starých stretnutiach nových. Wow! Pokrývame spektrum všetkého, o čom sme hovorili za posledných 50 rokov podnikového IT. Spark spĺňa mainframe, páči sa mi to.

Na vašom mieste je skutočne dosť a dosť informácií o mne. Rok je horúci. V tejto sérii hovoríme o horúcich témach, pretože sa naozaj snažíme ľuďom pomôcť porozumieť určitým disciplínam, určitým priestorom. Čo to znamená napríklad mať analytickú platformu? Čo to znamená oslobodiť veľké dáta z mainframov? Čo to všetko znamená? Snažíme sa vám pomôcť pochopiť konkrétne druhy technológií, kde sa zmestia do mixu a ako ich môžete využiť.

Dnes máme dvoch analytikov a potom samozrejme Tendü Yogurtçu zo spoločnosti Syncsort. Je vizionárkou v našom priestore, veľmi rada, že ju má dnes online, s našimi vlastnými Dez Blanchfield a Dr. Robin Bloor. Poviem len pár rýchlych slov. Jedným z nich je, že, ľudia, hráte v tomto procese veľkú úlohu, takže sa nemusíte hanbiť kladením dobrých otázok. Chceli by sme sa k nim dostať počas komponentu webového vysielania, ktorý je zvyčajne na konci prehliadky. A musím len povedať, že máme veľa dobrého obsahu, takže som nadšený, keď počujem, čo títo chlapci musia povedať. A s tým idem odovzdať Dez Blanchfieldovi. Dez, podlaha je tvoja, zober to.

Dez Blanchfield: Ďakujem, Eric, a ďakujem všetkým za účasť dnes. Takže som celkom nadšený, keď mám šancu hovoriť o jednej z mojich obľúbených vecí na svete, mainframe. Dnes sa moc nemilujú. Môj pohľad je mainframe bola pôvodná veľká dátová platforma. Niektorí by tvrdili, že v tom čase boli jedinými počítačmi, a to je spravodlivé, ale už viac ako 60 rokov sú skutočne strojovňou toho, o čom sú veľké dáta neskoro populárne. A ja vás vezmem na malú cestu, prečo si myslím, že tomu tak je.

V technologických komponentoch sme videli cestu v súvislosti s presunom mainframov z obrazu, ktorý vidíte teraz na obrazovke. Toto je starý sálový počítač FACOM, jeden z mojich obľúbených. Prešli sme sa do veľkej železnej fázy, koncom deväťdesiatych rokov a boomu dot-com. Toto je Sun Microsystems E10000. Táto vec bola na 96 CPU absolútna príšera. Pôvodne 64, ale bolo možné ho upgradovať na 96 CPU. Každý procesor by mohol prevádzkovať 1 024 vlákien. Každé vlákno môže byť v aplikačnom množstve súčasne. Bolo to jednoducho strašidelné a vlastne poháňal boom dot-com. Toto sú všetky veľké jednorožce, keď ich nazývame, teraz prevádzkujeme, a nielen veľké podniky, niektoré z veľkých webových stránok.

A potom sme skončili s týmto bežným komoditným modelom PC. Spoločne sme pripútali veľa lacných strojov a vytvorili sme klaster. Blížili sme sa k veľkej výzve so železom a tým, čo sa stalo veľkými údajmi, najmä vo forme projektu Hadoop, ktorý vyústil do otvoreného vyhľadávacieho nástroja Nutch. V podstate sme znovu vytvorili mainframe a veľa malých CPU, ktoré boli zlepené dokopy a boli schopné fungovať ako L-cesty a vo forme samostatných úloh alebo častí úloh, a boli mnohými spôsobmi celkom efektívne. Lacnejšie, ak ste začínali menšie, ale mnoho z týchto veľkých zhlukov sa vždy stalo drahšie ako mainframe.

Môj názor na tieto veci je, že v zhone z dot-com boomu do toho, čo sa stalo Web 2.0 a teraz prenasleduje jednorožce, sme zabudli, že táto platforma stále poháňa mnoho z našich najväčších systémov kritických pre misie. Keď premýšľame o tom, čo sa deje na platformách sálových počítačov. Je to do veľkej miery veľké údaje, najmä dátový kôň, ale určite veľké údaje. Všetci používame každý deň tradičné podnikové a vládne systémy, ako napríklad bankovníctvo, správa majetku a poistenie.

Systémy rezervácie leteniek a riadenia letu, najmä riadenie letu, ak je v reálnom čase kritický. Takmer každá štátna a federálna vláda v určitom čase mala mainframe a stále ich mnohí stále majú. Maloobchod a výroba. Niektoré zo starého softvéru, ktorý sa práve nachádzal a nikdy neodišiel. Len naďalej poháňa výrobné prostredie a určite maloobchod v mierke. Lekárske systémy. Obranné systémy, určite obranné systémy.

Posledných pár týždňov som čítal veľa článkov o tom, že niektoré systémy riadenia rakiet stále bežia na starých sálových počítačoch, pre ktoré sa snažia nájsť diely. Sú na to, ako inovovať na nové mainframy. Dopravné a logistické systémy. Nemusí to znieť ako sexy témy, ale toto sú témy, s ktorými sa denne stretávame cez hranice. A niektoré veľmi veľké telekomunikačné prostredia sú stále prevádzkované na platformách sálových počítačov.

Keď premýšľate o druhoch údajov, ktoré tam sú, všetky sú kritické z hľadiska misie. Sú to skutočne dôležité platformy a platformy, ktoré každý deň považujeme za samozrejmé, a mnohými spôsobmi umožňujú život. Kto teda stále používa mainframe a kto sú všetci títo ľudia, ktorí držia tieto veľké platformy a uchovávajú všetky tieto údaje? Ako som tu povedal, som presvedčený, že je ľahké byť oklamaný posunom médií z veľkého železa do stojanov bežných klastrov alebo lacných počítačov alebo počítačov x86, aby som si myslel, že sálový počítač zomrel a odišiel. Dáta však hovoria, že sálový počítač nikdy nezmizol a v skutočnosti je tu zostať.

Výskum, ktorý som tu zostavil v posledných niekoľkých týždňoch, ukázal, že 70 percent podnikov, najmä veľkých podnikov, sa stále stále nachádza v mainframe nejakej formy. Sedemdesiat jedna percent z 500 spoločností z rebríčka Fortune 500 stále niekde prevádzkuje základné podnikové systémy na sálových počítačoch. V skutočnosti tu v Austrálii máme niekoľko organizácií, ktoré majú dátové centrum v strede mesta. Je to skutočne skutočný podzemný počítač a množstvo sálových počítačov, ktoré práve beží, tikajú a šťastne vykonávajú svoju prácu. A veľmi málo ľudí vie, že kráčajúc ulicami priamo pod nohami v jednej konkrétnej časti mesta je toto obrovské dátové centrum plné mainframov. Deväťdesiatdva zo 100 bánk na celom svete, 100 najlepších bánk, ktoré stále prevádzkujú bankové systémy na mainframe. Dvadsaťtri z 25 najväčších maloobchodných reťazcov na svete používa mainframy na prevádzkovanie svojich systémov riadenia maloobchodu na platformách EIP a BI.

Je zaujímavé, že 10 z 10 najlepších poisťovateľov stále prevádzkuje svoje platformy na mainframe a vlastne napájajú svoje cloudové služby na mainframe. Ak niekde používate webové rozhranie alebo mobilnú aplikáciu, ktorá obsahuje rozhranie middleware, v skutočnosti sa jedná o niečo skutočne ťažké a veľké na pozadí.

Našiel som viac ako 225 štátnych a miestnych vládnych agentúr na celom svete, ktoré stále fungujú na platformách sálových počítačov. Som si istý, že na to existuje veľa dôvodov. Možno nemajú rozpočet na zváženie nového železa, ale to je obrovská stopa veľmi veľkých prostredí bežiacich na mainframe s niektorými veľmi kritickými údajmi. A ako som už spomenul, väčšina krajín stále prevádzkuje svoje kľúčové obranné systémy na mainframe. Som si istý, že sa mnohými spôsobmi snažia dostať preč, ale tam idete.

V roku 2015 spoločnosť IDC uskutočnila prieskum a 350 z opýtaných riaditeľov pre telekomunikácie uviedlo, že stále vlastní a spravuje veľké železo vo forme mainframe. A napadlo ma, že je pravdepodobné, že je to viac ako množstvo veľkých zhlukov Hadoop, ktoré v súčasnosti bežia po celom svete vo výrobe - je to zaujímavý malý stat. Idem do toho a potvrdím to, ale bolo to veľké číslo. Tri sto päťdesiat riaditeľov IT uviedlo, že majú jeden alebo viac sálových počítačov stále vo výrobe.

V minulom roku 2015 nám spoločnosť IBM dala mocný Z13, 13. iteráciu ich mainframovej platformy. Médiá sa o tejto veci divili, pretože boli ohromení, že IBM stále vyrábala mainframy. Keď zdvihli kapotu a pozreli sa na to, čo sa deje pod touto vecou, ​​uvedomili si, že to bolo vlastne na takmer každej modernej platforme, na ktorú sme sa nadchli vo forme veľkých údajov, Hadoopu a určite zoskupení. Táto vec bežala Spark a teraz Hadoop natívne. Mohli by ste na ňom bežať tisíce a tisíce počítačov Linux a vyzeralo to a vyzeralo to ako akýkoľvek iný klaster. Bol to docela ohromujúci stroj.

Niekoľko organizácií prijalo tieto veci a v skutočnosti som urobil nejaké údaje o tom, koľko z týchto strojov zaberá. Teraz som mal názor, že 3270 textový terminál bol nejaký čas nahradený webovými prehliadačmi a mobilnými aplikáciami a existuje veľa údajov, ktoré to podporujú. Myslím, že teraz vstupujeme do éry, v ktorej sme si uvedomili, že tieto mainframy nezmiznú a obsahuje o nich značné množstvo údajov. A čo teraz robíme, je jednoducho pridať to, čomu hovorím analytické nástroje, ktoré sú na trhu. Nejde o aplikácie na mieru. Toto sú jednorazové veci na mieru. To sú veci, ktoré si môžete doslova kúpiť len v zabalenom balení ako také, zapojiť sa do svojho sálového počítača a urobiť nejaké analýzy.

Ako som už povedal, sálový počítač je v skutočnosti už viac ako 60 rokov. Keď premýšľame o tom, ako dlho to je, je to dlhšie ako kariéra väčšiny žijúcich IT profesionálov v skutočnosti pokrýva. A v skutočnosti asi aj ich životy. V roku 2002 IBM predala 2300 sálových počítačov. V roku 2013 to narástlo na 2 700 sálových počítačov. To je 2 700 predajov sálových počítačov za jeden rok v roku 2013. Nemohol som získať presné údaje o roku 2015, ale predstavujem si, že sa rýchlo blíži k 3 000 predaným jednotkám ročne v roku 2015, 2013. A teším sa, že to dokážem.

S vydaním Z13, 13. iterácia mainframovej platformy, ktorá podľa mňa stála okolo 1, 2 alebo 1, 3 miliardy dolárov na vývoj od nuly, IBM, to je, tu je stroj, ktorý vyzerá a cíti sa rovnako ako akýkoľvek iný klaster, ktorý máme dnes a natívne prevádzkujeme Hadoop a Spark. A určite sa dá pripojiť k iným analytickým nástrojom a nástrojom s veľkými údajmi, alebo sa vždy dá pripojiť k jednému z vašich existujúcich alebo nových klastrov Hadoop. Zastávam názor, že zahrnutie platformy mainframe do vašej stratégie veľkých dát je nevyhnutnosťou. Ak ich máte, máte, samozrejme, veľa údajov a chcete zistiť, ako ich tam dostať. A je ponechané, aby zhromažďovali prach mnohými spôsobmi, mentálne a emocionálne, pokiaľ ide o obchodný svet, ale sú tu, aby zostali.

Prepojenie a rozhrania všetkých vašich analytických nástrojov k údajom hostovaným sálovým počítačom by mali byť kľúčovou súčasťou vášho podniku a najmä vládnych veľkých dátových plánov. Softvér si ich vždy všimne, dobre sa na ne pozrie a uvedomí si, čo je vo vnútri týchto vecí, a spája mysle, ktoré začínajú získať trochu nahliadnutia a trochu pocitu pre to, čo je skutočne pod kapotou. A s tým idem odovzdať môjmu drahému kolegovi, Dr. Robinovi Bloorovi a on sa pridá na túto malú cestu. Robin, zober to.

Robin Bloor: No, ďakujem. Dobre, odkedy Dez spieval pieseň sálových počítačov, prejdem k tomu, čo si myslím, že sa deje v súvislosti so starým sálovým počítačom a novým svetom Hadoop. Myslím, že tu je veľká otázka, ako spravujete všetky tieto údaje? Nemyslím si, že sálový počítač je spochybňovaný, pokiaľ ide o jeho veľkú kapacitu údajov - jeho schopnosť veľkých údajov je mimoriadne vysoká, ako zdôraznil Dez, je mimoriadne schopná. V skutočnosti naň môžete položiť zhluky Hadoop. Tam, kde je to napadnuté, je z hľadiska jeho ekosystému a budem na tom trochu prepracovaný.

Tu je niekoľko pozícií sálových počítačov. Má vysoké vstupné náklady a to, čo sa v skutočnosti stalo v minulosti, od polovice 90. rokov, keď sa začala popularita sálových počítačov znižovať, má tendenciu stratiť svoj nízky koniec, tí ľudia, ktorí si kúpili lacné sálové počítače a nebolo „Pre tých ľudí to nie je obzvlášť ekonomické. Ale vyššie v skutočnosti v strednom a vysokom rozsahu sálového počítača, v skutočnosti to bolo, a preukázateľne je, neuveriteľne lacná práca na počítači.

Je potrebné povedať, že to Linux zachránil, pretože Linux implementovaný na mainframe umožnil samozrejme spúšťať všetky Linuxové aplikácie. Mnoho Linuxových aplikácií tam išlo skôr, ako veľké dáta boli len slovo, alebo dve slová, myslím. Je to vlastne celkom vynikajúca platforma pre súkromný cloud. Z tohto dôvodu sa môže zúčastňovať na hybridných cloudových nasadeniach. Jedným z problémov je nedostatok základných schopností. Základné zručnosti, ktoré existujú, v skutočnosti starnú v tom zmysle, že ľudia každý rok opúšťajú toto odvetvie z dôvodu odchodu do dôchodku a nahrádzajú sa iba počtom ľudí. To je problém. Stále je to však lacná práca na počítači.

Oblasť, v ktorej to bolo napadnuté, je samozrejme celá táto vec Hadoop. To je obrázok Douga Cuttinga s pôvodným slonom Hadoop. Ekosystém Hadoop je - a zostane - dominantným ekosystémom veľkých údajov. Ponúka lepšie škálovanie, ako dokáže mainfram v skutočnosti dosiahnuť, a jeho uloženie na dlhé cesty je nižšie. Ekosystém Hadoop sa vyvíja. Najlepším spôsobom, ako o tom premýšľať, je akonáhle sa konkrétna hardvérová platforma a prevádzkové prostredie s ňou stane dominantným, potom ekosystém práve ožíva. A to sa stalo s mainframe IBM. Neskôr sa stalo s Digital VAX, stalo sa so servermi Sun, stalo sa s Windows, stalo sa s Linuxom.

A stalo sa to, že Hadoop, o ktorom vždy uvažujem alebo o ktorom uvažujem, ako o akomsi distribuovanom prostredí pre údaje, sa ekosystém vyvíja neuveriteľnou rýchlosťou. Myslím tým, že ak spomeniete rôzne pôsobivé príspevky, ktoré sú open source, Spark, Flink, Kafka, Presto, a potom do nich pridáte niektoré z databáz, možnosti NoSQL a SQL, ktoré teraz sedí na Hadoope. Hadoop je najaktívnejší ekosystém, ktorý v skutočnosti existuje, určite v podnikových výpočtoch. Ale ak to chcete považovať za databázu, v tejto chvíli jednoducho neprináša porovnanie s tým, čo mám sklon myslieť ako o skutočných databázach, najmä v priestore údajového skladu. A to do istej miery vysvetľuje úspech veľkého množstva veľkých databáz NoSQL, ktoré sa nespúšťajú na Hadoop, ako je CouchDB atď.

Ako dátové jazero má oveľa bohatší ekosystém ako akákoľvek iná platforma a z toho sa nebude vytesňovať. Jeho ekosystém nie je len ekosystém s otvoreným zdrojom. Teraz existuje dramatický počet softvérových členov, ktorí majú produkty, ktoré sú v zásade vyrobené pre spoločnosť Hadoop alebo boli importované do spoločnosti Hadoop. A práve vytvorili ekosystém, že s jeho šírkou nemôže nič konkurovať. A to skutočne znamená, že sa stala platformou pre inováciu veľkých dát. Ale podľa môjho názoru je to stále nezrelé a mohli by sme viesť dlhé diskusie o tom, čo je a čo nie je, povedzme, operatívne zrelé s Hadoopom, ale myslím si, že väčšina ľudí, ktorí sa pozerajú na túto konkrétnu oblasť, si dobre uvedomuje, že Hadoop je desaťročia za sálovým počítačom. pokiaľ ide o prevádzkovú spôsobilosť.

Vyvíjajúce sa dátové jazero. Dátové jazero je platforma podľa akejkoľvek definície a ak si myslíte, že v podnikovej výpočtovej technike existuje dátová vrstva, je veľmi ľahké si to predstaviť z hľadiska pevných databáz plus dátové jazero, ktoré tvorí dátovú vrstvu. Aplikácia dátového jazera je veľa a rozmanitá. Mám tu schéma, ktorá práve prechádza rôznymi vecami, ktoré si vyžadujú údaje, ktoré je potrebné urobiť, ak použijete Hadoop ako oddychovú oblasť alebo Hadoop a Spark ako oddychovú oblasť. A máte celú vec - dátová línia, čistenie dát, správa metadát, vyhľadávanie metadát - môže sa použiť pre samotnú ETL, ale často vyžaduje, aby ETL priniesla údaje. Správa kmeňových údajov, obchodné definície údajov, správa služieb čo sa deje v Hadoope, správe životného cyklu údajov a ETL mimo Hadoopu, a tiež máte priame analytické aplikácie, ktoré môžete spustiť na Hadoope.

Preto sa stala veľmi silnou a tam, kde bola úspešne implementovaná a implementovaná, zvyčajne má nad sebou spustenú aspoň kolekciu týchto aplikácií. A väčšina z týchto aplikácií, najmä tých, o ktorých som bol informovaný, práve teraz nie sú k dispozícii na mainframe. Môžete ich však spustiť na mainframe, na klastri Hadoop, ktorý bežal v oddiele mainframe.

Dátové jazero sa podľa môjho názoru stáva prirodzenou oblasťou postupovania pre rýchlu databázovú analýzu a pre BI. Stáva sa to miestom, kde prijímate údaje, či už ide o podnikové údaje alebo externé údaje, s ktorými sa pohrávate, pokiaľ to nie je, povedzme, dostatočne čisté na použitie a dobre štruktúrované na použitie, a potom ich odovzdajte ďalej. A to všetko je ešte len v plienkach.

Myšlienka koexistencie mainframe / Hadoop je podľa môjho názoru prvá vec, že ​​veľké spoločnosti pravdepodobne neopustia mainframe. Z náznakov, ktoré som nedávno videl, vyplýva, že v sálovom počítači rastie investícia. Nebudú však ignorovať ani ekosystém Hadoop. Vidím čísla 60 percent veľkých spoločností používajúcich Hadoop, aj keď veľa z nich vlastne iba prototypuje a experimentuje.

Hádanka potom znie: „Ako spôsobíte koexistenciu týchto dvoch vecí?“, Pretože budú musieť zdieľať údaje. Údaje, ktoré sú privedené do dátového jazera, musia preniesť do hlavného počítača. Údaje, ktoré sa nachádzajú na mainframe, môžu potrebovať ísť do dátového jazera alebo cez dátové jazero, aby sa mohli spojiť s inými údajmi. A to sa stane. A to znamená, že vyžaduje rýchly prenos dát / schopnosť ETL. Je nepravdepodobné, že pracovné zaťaženie bude dynamicky zdieľané napríklad v prostredí sálových počítačov alebo v prostredí Hadoop. Budú to zdieľané údaje. A väčšina údajov bude nevyhnutne bývať na Hadoope jednoducho preto, že je to najlacnejšia platforma. A pravdepodobne tu bude aj analytické spracovanie od konca do konca.

Stručne povedané, v konečnom dôsledku musíme myslieť na vrstvu podnikových údajov, ktorá pre mnoho spoločností bude zahŕňať mainframe. A táto dátová vrstva sa musí proaktívne spravovať. V opačnom prípade nebudú spolu dobre existovať. Môžem ti loptu vrátiť späť Eric.

Eric Kavanagh: Znova, Tendü, práve som ťa urobil moderátorkou, tak ju odneste.

Tendü Yogurtçu: Ďakujem, Eric. Ďakujem, že si ma dal. Ahoj všetci. Budem hovoriť o skúsenostiach spoločnosti Syncsort so zákazníkmi v súvislosti s tým, ako vnímame údaje ako aktívum v organizácii, a to na úrovni analytických platforiem od mainframe po veľké údaje. A dúfam, že na konci zasadnutia budeme mať aj čas na otázky od publika, pretože to je skutočne najcennejšia časť týchto vysielaní.

Len pre ľudí, ktorí nevedia, čo robí Syncsort, je Syncsort softvérová spoločnosť. Boli sme v skutočnosti už viac ako 40 rokov. Začali sme na strane sálových počítačov a naše produkty sa pohybujú od mainframe k Unixu až po veľké dátové platformy, vrátane Hadoop, Spark, Splunk, a to tak v areáli, ako aj v cloude. Vždy sa zameriavame na dátové produkty, produkty na spracovanie a integráciu dát.

Naša stratégia týkajúca sa veľkých údajov a Hadoopu sa od prvého dňa skutočne mala stať súčasťou ekosystému. Ako vlastníci predajcov, ktorí sa skutočne zamerali na spracovanie údajov pomocou veľmi ľahkých motorov, sme si mysleli, že existuje veľká príležitosť zúčastniť sa na tom, aby sa spoločnosť Hadoop stala platformou na spracovanie údajov a bola súčasťou architektúry dátového skladu novej generácie pre túto organizáciu. Od roku 2011 sme prispievali k open-source projektom Apache, počnúc MapReduce. Boli v prvej desiatke verzie Hadoop verzie 2 a skutočne sa podieľali na viacerých projektoch vrátane balíkov Spark. Niektoré naše konektory sú publikované v balíkoch Spark.

Využívame náš veľmi ľahký nástroj na spracovanie údajov, ktorý je úplne metadátom založeným na plochých súboroch a veľmi dobre sedí s distribuovanými súborovými systémami, ako je napríklad Hadoop Distributed File System. A využívame naše dedičstvo na mainframe, naše skúsenosti s algoritmami pri vydávaní našich veľkých dátových produktov. A veľmi úzko spolupracujeme s hlavnými predajcami, hlavnými hráčmi vrátane Hortonworks, Cloudera, MapR, Splunk. Spoločnosť Hortonworks nedávno oznámila, že bude predávať náš produkt na palubu ETL so spoločnosťou Hadoop. So spoločnosťami Dell a Cloudera máme veľmi úzke partnerstvo, ktoré tiež predáva náš produkt ETL ako súčasť ich veľkého dátového zariadenia. A s Splunk vlastne zverejňujeme mainframové telemetrické a bezpečnostné dáta v palubných doskách Splunk. Máme úzke partnerstvo.

Čo má na mysli každý výkonný pracovník na úrovni C? Je to naozaj „Ako môžem preniesť svoje dátové prostriedky?“ Každý hovorí o veľkých údajoch. Všetci hovoria o Hadoop, Spark, ďalšej počítačovej platforme, ktorá mi môže pomôcť pri vytváraní obchodnej agility a otváraní nových transformačných aplikácií. Nové príležitosti na uvedenie na trh. Každý výkonný pracovník uvažuje: „Aká je moja dátová stratégia, čo je moja dátová iniciatíva a ako sa môžem ubezpečiť, že nezostanem pozadu za mojou konkurenciou a že som na tomto trhu v nasledujúcich troch rokoch?“ vidíte to, keď hovoríme s našimi zákazníkmi, ako aj s našou globálnou zákazníckou základňou, ktorá je dosť veľká, ako si viete predstaviť, keďže sme už nejaký čas boli okolo.

Keď hovoríme so všetkými týmito organizáciami, vidíme to aj v technologickej komore v prípade narušenia, ktoré sa stalo s Hadoopom. Je to naozaj preto, aby sme uspokojili tento dopyt po údajoch ako o aktívach. Využitie všetkých dátových aktív, ktoré má organizácia. Videli sme, že sa architektúra podnikového dátového skladu vyvíja tak, že Hadoop je teraz novým ústredným bodom modernej dátovej architektúry. A väčšina našich zákazníkov, či už sú to finančné služby, či už je to poistenie, telco maloobchod, iniciatívy sú zvyčajne buď zistíme, že Hadoop ako služba alebo dáta ako služba. Pretože každý sa snaží sprístupniť dátové aktíva buď pre svojich externých klientov alebo interných klientov. V niektorých organizáciách vidíme iniciatívy ako takmer trh údajov pre svojich klientov.

Jedným z prvých krokov na dosiahnutie tohto cieľa je vytvorenie podnikového dátového centra. Niekedy to ľudia nazývajú dátovým jazerom. Vytvorenie tohto podnikového dátového centra v skutočnosti nie je také ľahké, ako sa zdá, pretože si skutočne vyžaduje prístup a zhromažďovanie prakticky akýchkoľvek údajov v podniku. A tieto údaje sú teraz zo všetkých nových zdrojov, ako sú mobilné senzory, ako aj staršie databázy, a to v dávkovom režime a v streamingovom režime. Integrácia údajov bola vždy výzvou, avšak s počtom a rozmanitosťou zdrojov údajov a rôznymi štýlmi doručovania, či už ide o dávkové alebo streamingové prenosy v reálnom čase, je to v porovnaní s predchádzajúcimi piatimi rokmi, pred desiatimi rokmi, ešte náročnejšie. Niekedy to označujeme ako „Už to nie je ETL vášho otca.“

Takže hovoríme o rôznych dátových aktívach. Keďže sa podniky snažia pochopiť nové údaje, údaje, ktoré zbierajú z mobilných zariadení, či už ide o senzory v automobile alebo o užívateľské údaje pre spoločnosť pôsobiacu v oblasti mobilných hier, musia často uvádzať najkritickejšie dátové zdroje v podnik, ktorým sú napríklad informácie o zákazníkoch. Tieto najkritickejšie dátové prostriedky sa často nachádzajú v mainframe. Korelácia údajov o sálových počítačoch s týmito novými zdrojmi, ktoré sa zhromažďujú v cloude, zhromažďujú sa prostredníctvom mobilných telefónov, zhromažďujú sa na výrobnej linke japonskej automobilovej spoločnosti alebo aplikácií na internete vecí, musia tieto nové údaje zmysluplne uvádzať odkazom na ich pôvodné súbory údajov. A tieto pôvodné súbory údajov sú často na mainframe.

Ak to tieto spoločnosti nedokážu, nedokážu využiť údaje z mainframe, potom je tu zmeškaná príležitosť. Potom dáta ako služba alebo využitie všetkých podnikových údajov v skutočnosti nevyužíva najkritickejšie aktíva v organizácii. K dispozícii je tiež časť týkajúca sa telemetrie a bezpečnosti, pretože takmer všetky transakčné údaje žijú na mainframe.

Predstavte si, že idete do bankomatu, myslím, že jeden z účastníkov poslal účastníkom sem správu na ochranu bankového systému, keď pri posúvaní karty, že transakčné údaje sú do veľkej miery globálne na mainframe. Zabezpečenie a zhromažďovanie bezpečnostných údajov a údajov z telemetrie z mainframov a ich sprístupňovanie prostredníctvom Splunk dashboardov alebo iných, Spark, SQL, sa stáva teraz kritickejším ako kedykoľvek predtým, kvôli objemu údajov a rôznorodosti údajov.

Súpravy zručností sú jednou z najväčších výziev. Pretože na jednej strane máte rýchlo sa meniace veľké súbory údajov, neviete, ktorý projekt prežije, ktorý projekt neprežije, mám najať vývojárov Hive alebo Pig? Mám investovať do MapReduce alebo Spark? Alebo ďalšiu vec, Flink, niekto povedal. Mal by som investovať do jednej z týchto počítačových platforiem? Na jednej strane je výzvou držať krok s rýchlo sa meniacim ekosystémom a na druhej strane máte tieto pôvodné zdroje údajov. Nové súbory zručností sa skutočne nezhodujú a môžete mať problém, pretože tieto zdroje môžu byť v skutočnosti v dôchodku. Existuje veľká priepasť, pokiaľ ide o súbory zručností ľudí, ktorí chápu tieto staré súbory údajov a ktorí chápu vznikajúcu skupinu technológií.

Druhou výzvou je správa vecí verejných. Keď skutočne pristupujete ku všetkým podnikovým údajom na rôznych platformách, máme zákazníkov, ktorí vyjadrili obavy, že: „Nechcem, aby moje údaje boli prístupné. Nechcem, aby sa moje údaje kopírovali na viacerých miestach, pretože sa chcem vyhnúť čo najväčšiemu počtu kópií. Chcem mať komplexný prístup bez toho, aby som tam uprostred pristál. “Spravovanie týchto údajov sa stáva výzvou. A druhá časť je, že ak pristupujete k údajom, ktoré sú prekážkami, ak zhromažďujete väčšinu svojich údajov v cloude a pristupujete k starým údajom a odkazujete na ne, problém so šírkou pásma siete sa stáva klastrovou platformou. Existujú mnohé výzvy, pokiaľ ide o iniciatívu zameranú na veľké dáta a pokročilé analytické platformy, a napriek tomu využívajú všetky podnikové údaje.

To, čo ponúka Syncsort, sme označovaní ako „jednoducho najlepší“ nie preto, že sme jednoducho najlepší, ale naši zákazníci nás skutočne označujú ako jednoducho najlepší v prístupe a integrácii údajov z mainframe. Podporujeme všetky dátové formáty z mainframe a sprístupňujeme ich pre analýzu veľkých dát. Či už je to na Hadoop alebo Spark alebo na ďalšej počítačovej platforme. Pretože naše produkty skutočne izolujú zložitosť počítačovej platformy. Vy ako vývojár sa potenciálne vyvíjate na prenosnom počítači, zameriavate sa na dátový tok a aké sú prípravy údajov, kroky na vytvorenie týchto údajov vytvorených pre analytiku, ďalšiu fázu a vykonajte tú istú aplikáciu v MapReduce alebo si ju vezmite rovnaká aplikácia okolo v programe Spark.

Pomohli sme tým našim zákazníkom, keď sa stalo dostupným YARN, a oni museli presunúť svoje aplikácie z MapReduce verzie 1 do YARN. Pomáhame im robiť to isté s Apache Spark. Náš produkt, nové vydanie 9, beží aj so Sparkom a dodáva sa s dynamickou optimalizáciou, ktorá izoluje tieto aplikácie pre budúce počítačové rámce.

Máme teda prístup k údajom z mainframe, či už ide o súbory VSAM, či už ide o DB2, alebo či ide o telemetrické údaje, ako sú záznamy SMF alebo Log4j alebo syslogs, ktoré je potrebné vizualizovať prostredníctvom dashboardov Splunk. A keď to robí, pretože organizácia môže využiť svoje existujúce dátové inžinierky alebo súbory zručností ETL, čas vývoja je výrazne skrátený. V skutočnosti so spoločnosťami Dell a Cloudera bola sponzorovaná nezávislá referenčná hodnota a táto referenčná hodnota sa zamerala na čas potrebný na vývoj, ak robíte ručné kódovanie alebo používate iné nástroje, ako napríklad Syncsort, a to bolo približne 60, 70% zníženie času vývoja., Preklenutie zručnosti nastavuje medzeru medzi skupinami, naprieč týmito hostiteľmi dátových súborov a tiež medzi týmito hostiteľmi dátových súborov, pokiaľ ide o ľudí.

Tím veľkých dát alebo tím prijímajúci dáta alebo tím, ktorý má za úlohu vyvíjať tieto dáta ako architektúru služieb, zvyčajne nemusí hovoriť s tímom sálových počítačov. Chcú minimalizovať túto interakciu takmer v mnohých organizáciách. Uzatvorením tejto medzery sme pokročili. A najdôležitejšou časťou je skutočne zabezpečenie celého procesu. Pretože v podniku, keď sa zaoberáte týmto druhom citlivých údajov, existuje veľa požiadaviek.

Vo vysoko regulovaných odvetviach, ako je poisťovníctvo a bankovníctvo, sa naši zákazníci pýtajú: „Ponúkate tento prístup k mainframovým dátam a je to skvelé. Môžete mi tiež ponúknuť vytvorenie tohto formátu záznamu kódovaného EBCDIC v jeho pôvodnom formáte, aby som mohol splniť svoje požiadavky na audit? “Preto spoločnosť Hadoop a Apache Spark rozumejú údajom mainframe. Môžete si ponechať údaje v pôvodnom formáte záznamu, robiť svoje spracovanie a počítačovú platformu distribútorov úrovní a ak potrebujete vrátiť, môžete ukázať, že záznam sa nezmenil a formát záznamu sa nezmenil, môžete splniť regulačné požiadavky,

A väčšina organizácií, keď vytvárajú dátový uzol alebo dátové jazero, snaží sa to urobiť jediným kliknutím, aby bolo možné mapovať metadáta zo stoviek schém v databáze Oracle do tabuliek Hive alebo ORC alebo Parquet. je nevyhnutné. Dodávame nástroje a poskytujeme nástroje na to, aby sa tento prístup stal jednokrokovým prístupom k údajom, automaticky sa generujú úlohy alebo pohyb údajov a automaticky sa generujú úlohy na mapovanie údajov.

Hovorili sme o časti pripojenia, dodržiavaní predpisov, správe a spracovaní údajov. A naše produkty sú k dispozícii na mieste aj v cloude, čo je veľmi jednoduché, pretože spoločnosti nemusia premýšľať o tom, čo sa stane v budúcom alebo dvoch rokoch, ak sa rozhodnem ísť úplne na verejný cloud verzus hybridný prostredia, pretože niektoré zoskupenia môžu bežať v priestoroch alebo v cloude. A naše výrobky sú dostupné na Amazon Marketplace, na EC2, Elastic MapReduce a tiež do Docker kontajnera.

Len tak trochu zabaliť, takže máme dosť času na otázky a odpovede, ide skutočne o prístup, integráciu a dodržiavanie správy údajov, čo všetko ešte zjednodušuje. A zatiaľ čo to zjednodušuje, „navrhnite raz a nasaďte kdekoľvek“ v pravom slova zmysle, pretože naše príspevky z otvoreného zdroja bežia na našom produkte v toku údajov Hadoop a natívne v programe Spark, čo izoluje organizácie od rýchlo sa meniaceho ekosystému. A poskytuje jediný dátový kanál, jedno rozhranie pre dávkové aj streamovanie.

A to tiež pomáha organizáciám niekedy vyhodnotiť tieto rámce, pretože možno budete chcieť skutočne vytvárať aplikácie a jednoducho bežať na MapReduce verzus Spark a presvedčiť sa sami, áno, Spark má tento sľub a poskytuje všetok pokrok v iteratívnych algoritmoch, ktoré pracujú pre najlepšie strojové učenie. a prediktívne analytické aplikácie spolupracujú s programom Spark? Môžem v tomto počítačovom rámci vykonať aj streaming a dávkové pracovné zaťaženie? Pomocou našich produktov môžete otestovať rôzne počítačové platformy. A dynamická optimalizácia, či už pracujete na samostatnom serveri, na svojom notebooku, v službe Google Cloud verzus Apache Spark, je pre našich zákazníkov skutočne cenným návrhom. A to bolo skutočne poháňané výzvami, ktoré mali.

Budem sa venovať iba jednej z prípadových štúdií. Toto je spoločnosť Guardian Life Insurance Company. Iniciatíva Guardian spočívala v skutočnosti v centralizácii ich dátových aktív a ich sprístupnení svojim klientom, skráteniu času na prípravu údajov a uviedli, že všetci hovoria o príprave údajov, pričom zaberajú 80 percent celkového plynovodu na spracovanie údajov a tvrdia, že v skutočnosti ide o 75 až 80 percent pre nich a oni chceli znížiť túto prípravu údajov, časy transformácie, čas uvedenia analytických projektov na trh. Pri pridávaní nových zdrojov údajov vytvorte túto flexibilitu. A sprístupnite tento centralizovaný prístup k údajom všetkým svojim klientom.

Ich riešenie, vrátane produktov Syncsort, je momentálne v súčasnosti na trhu s podobnými údajmi na Amazon Marketplace, ktoré podporuje dátové jazero, ktoré je v podstate databázou Hadoop a NoSQL. A pomocou našich produktov privádzajú všetky dátové aktíva do dátového jazera vrátane DB2 na mainframe, vrátane súborov VSAM na mainframe a pôvodných zdrojov údajov databázy, ako aj nových zdrojov údajov. V dôsledku toho centralizovali opakovane použiteľné dátové aktíva, ktoré sú prehľadateľné, dostupné a dostupné pre svojich klientov. A skutočne dokážu pridať nové zdroje údajov a obsluhovať svojich klientov oveľa rýchlejšie a efektívnejšie ako predtým. A analytické iniciatívy napredujú ešte viac na prediktívnej strane. Preto sa pozastavím a dúfam, že to bolo užitočné, a ak máte nejaké otázky týkajúce sa akýchkoľvek súvisiacich tém, prosím, ste vítaní.

Eric Kavanagh: Iste, a Tendü, jedného jednoducho hodím dovnútra. Dostal som komentár od člena publika, ktorý jednoducho povedal: „Tento návrh sa mi páči, raz ho rozmiestnim kdekoľvek.“ “Dokážete sa trochu venovať tomu, ako je to pravda? Čo ste urobili, aby ste umožnili takúto pohyblivosť a existuje nejaká daň? Napríklad, keď hovoríme napríklad o virtualizácii, vždy existuje určitá daň z výkonu. Niektorí ľudia hovoria dve percentá, päť percent desať percent. Čo ste urobili, aby ste návrh raz povolili, nasadiť kdekoľvek - ako to robíte a je s ním spojená daň z hľadiska výkonu?

Tendü Yogurtçu: Jasne, ďakujem. Nie, pretože na rozdiel od iných dodávateľov skutočne nevyrábame úľ, prasa alebo iný kód, ktorý nie je pre naše motory natívny. Tu zohrávali naše príspevky z otvoreného zdroja obrovskú úlohu, pretože veľmi úzko spolupracujeme s predajcami Hadoop, Cloudera, Hortonworks a MapR a vďaka našim príspevkom z otvorených zdrojov náš motor v skutočnosti beží natívne ako súčasť toku, ako súčasť toku Hadoop, ako súčasť Spark.

Čo to tiež prekladá, máme túto dynamickú optimalizáciu. Bolo to niečo, čo bolo výsledkom toho, že naši zákazníci boli napadnutí počítačovými rámcami. Keď chodili do výroby s niektorými aplikáciami, vrátili sa a povedali: „Len stabilizujem svoj klaster Hadoop, stabilizujem na MapReduce YARN Verzia 2, MapReduce Version 2 a ľudia hovoria, že MapReduce je mŕtvy, Spark je ďalšia vec, a niektorí ľudia hovoria, že Flink bude ďalšia vec, ako sa s tým vyrovnám? “

A tieto výzvy sa pre nás skutočne stali takými zjavnými, že sme investovali do dynamickej optimalizácie, ktorú nazývame inteligentné vykonávanie. V čase vykonávania úlohy, keď sa odovzdáva tento dátový kanál, na základe klastra, či už je to Spark, či už je to MapReduce alebo samostatný server Linux, sa v rámci toho rozhodneme, ako túto úlohu natívne spustiť v našom stroji. Tok údajov Hadoop alebo Spark. Neexistuje žiadna réžia, pretože všetko sa deje prostredníctvom tejto dynamickej optimalizácie, ktorú máme, a všetko sa tiež robí, pretože náš motor je natívne integrovaný kvôli našim príspevkom z otvoreného zdroja. Zodpovedá to vaša otázka?

Eric Kavanagh: Áno, to je dobré. A chcem tam hodiť ešte jednu otázku, a potom Deza, možno aj my a Robina. Práve som dostal veselý komentár od jedného z našich účastníkov. Prečítam si to, pretože je to naozaj dosť smutné. Píše: „Zdá sa, že v histórii vecí HOT“ - získajte to? Rovnako ako IoT - ”je to, že čím viac sa snažíte„ zjednodušiť “niečo, čo je skutočne zložité, častejšie ako nie, tým jednoduchšie sa zdá robiť veci, dodáva sa viac visiaceho lana. Zamyslite sa nad databázovým dopytom, explóziou, viacvláknovými postupmi atď. “Môžete k tomuto paradoxu pridať komentár, na ktorý odkazuje? Jednoduchosť verzus komplexnosť a v podstate to, čo sa skutočne deje pod poťahmi?

Tendü Yogurtçu: Iste. Myslím si, že je to veľmi platný bod. Keď veci zjednodušujete a robíte tieto optimalizácie, spôsobom pod krytom musí niekto vziať takú zložitosť toho, čo sa musí stať, že? Ak niečo paralyzujete alebo ak sa rozhodujete, ako spustiť konkrétnu úlohu v súvislosti s počítačovým rámcom, je zrejmé, že existuje nejaká časť úlohy, ktorá sa tlačí, či už je to na používateľskom konci, kódovanie ponuky alebo optimalizácia motora. Súčasťou je aj to, že zjednodušením používateľského rozhrania existuje obrovská výhoda, pokiaľ ide o schopnosť využívať súpravy zručností, ktoré v podniku existujú.

A tento paradox môžete zmierniť a zmierniť túto výzvu: „Áno, ale nemám kontrolu nad všetkým, čo sa deje pod krytom, pod kapotou v tomto motore, “ vystavením vecí pokročilejším používateľom, ak chcú mať taký druh kontroly. Investíciou do niektorých druhov vecí, ktoré možno opraviť. Byť schopný ponúknuť operatívnejšie metaúdaje, operatívnejšie údaje, ako v príklade, ktorý dal tento účastník, pre dotaz SQL aj pri bežiacom motore. Dúfam, že to odpovie.

Eric Kavanagh: Áno, to znie dobre. Dez, zober to.

Dez Blanchfield: Naozaj sa chcem trochu podrobnejšie informovať o svojej stope v príspevkoch s otvoreným zdrojom a na ceste, ktorú ste si vzali z vašich tradičných dlhoročných skúseností v mainframe a v proprietárnom svete a potom sa presunuli do prispievanie k otvorenému zdroju a ako k tomu došlo. A ďalšou vecou, ​​ktorú chcem pochopiť, je názor, ktorý vidíte, že podniky, nielen oddelenia IT, ale firmy teraz berú ohľad na dátové centrá alebo dátové jazerá, ako ľudia hovoria teraz a či vidia tento trend iba jedno konsolidované dátové jazero alebo či vidíme distribuované dátové jazerá a ľudia používajú nástroje na ich zostavenie?

Tendü Yogurtçu: Iste. Pre prvú to bola veľmi zaujímavá cesta, ako softvérová spoločnosť vlastníkov, jedna z prvých po IBM. Všetko sa však opäť začalo u našich evanjelistických zákazníkov, ktorí sa pozreli na Hadoop. Mali sme dátové spoločnosti, ako je ComScore, boli prvými, ktoré prijali spoločnosť Hadoop, pretože zbierali digitálne údaje na celom svete a nedokázali uchovávať údaje za 90 dní, pokiaľ do svojich dátových schránok do svojho úložiska dát desať miliónov miliónov dolárov neinvestovali. prostredie. Začali sa pozerať na Hadoopa. S tým sme sa začali pozerať aj na Hadoop.

A keď sme sa rozhodli a uznali sme, že Hadoop bude skutočne dátovou platformou budúcnosti, tiež sme pochopili, že v tomto nebudeme môcť hrať, v tom úspešnú, pokiaľ boli súčasťou ekosystému. A veľmi úzko sme spolupracovali s predajcami spoločnosti Hadoop, s produktmi Cloudera, Hortonworks, MapR atď. Začali sme s nimi naozaj hovoriť, pretože partnerstvo sa stáva veľmi dôležitým pre overenie hodnoty, ktorú môže predajca priniesť, a tiež zaisťuje, že môžeme spoločne ísť do podniku. a ponúknuť niečo zmysluplnejšie. Vyžadovalo si to veľa budovania vzťahov, pretože sme nevedeli o open-source projektoch Apache, musím však povedať, že sme mali veľkú podporu od týchto predajcov Hadoop.

Začali sme spolu pracovať a pozerať sa na centrum, ako môžeme priniesť hodnotu bez toho, aby sme v našom priestore používali iba náš softvér. To bolo dôležité. Nejde iba o uvedenie niektorých rozhraní API, na ktorých môže váš produkt bežať, ale o to, aby som mohol povedať, že do toho budem investovať, pretože som presvedčený, že Hadoop bude platformou budúcnosti, takže investovaním do zdrojov, ktoré sme chceli vyrobiť uistite sa, že dozrie a stane sa pripraveným na podnikanie. V skutočnosti môžeme povoliť niektoré prípady použitia, ktoré neboli k dispozícii pred našimi príspevkami. Z toho bude mať úžitok celý ekosystém a tieto partnerstvá môžeme veľmi úzko rozvíjať.

Trvalo to dosť dlho. Začali sme prispievať v rokoch 2011 a 2013, 21. januára - pamätám si dátum, pretože k tomuto dátumu bol zaviazaný náš najväčší príspevok, čo znamenalo, že teraz môžeme mať naše výrobky všeobecne k dispozícii - rozvoj týchto vzťahov trvalo nejaký čas., ukázať hodnotu, partneri sa stávajú partnermi v oblasti dizajnu s predajcami a so sprostredkovateľmi v komunite s otvoreným zdrojom. Ale bolo to veľa zábavy. Ako spoločnosť bolo pre nás veľmi prospešné byť súčasťou tohto ekosystému a rozvíjať skvelé partnerstvo.

Druhá otázka týkajúca sa dátového centra / dátového jazera, myslím si, že keď vidíme tieto údaje vo väčšine prípadov ako implementáciu služby, áno, mohli by to byť zoskupenia, fyzicky samostatné alebo viacnásobné zoskupenia, ale je to viac koncepčné ako stať sa tým jediným miestom. za všetky údaje. Pretože v niektorých organizáciách vidíme rozsiahle nasadenie klastrov podľa predpokladov, majú tiež klastre, napríklad vo verejnom cloudu, pretože niektoré údaje, ktoré sa zbierajú z online sekcií, sa skutočne uchovávajú v cloude. Je schopný mať jediný dátový kanál, ktorý môžete využiť obidva, a používať ich ako jediný dátový uzol, jediné dátové jazero, sa stáva dôležitým. Myslím si, že to nemusí byť len fyzické miesto, ale mať tento dátový uzol a dátové jazero naprieč klastrami, naprieč zemepisnými oblasťami a možno aj na základe predpokladov a cloudu. Najmä vpred. Tento rok sme začali vidieť viac a viac nasadení v cloude. Je to úžasné. V prvej polovici tohto roku sme doteraz videli veľa nasadení v cloude.

Eric Kavanagh: Dobre, v pohode. A Robin, máš nejaké otázky? Viem, že nám zostáva len pár minút.

Robin Bloor: Dobre, môžem jej položiť otázku. Prvá vec, ktorá ma napadla, je, že v súvislosti s Kafkou bolo veľa vzrušenia a zaujímalo ma vaše stanovisko k Kafke a ako sa integrujete so spôsobom, akým ľudia používajú Kafku?

Tendü Yogurtçu: Iste. Áno, Kafka sa stáva veľmi populárnou. Medzi našimi zákazníkmi vidíme, že je to tak trochu vrstva dátového prenosu a vidíme, že dáta sú do značnej miery autobusom. Napríklad jeden z našich zákazníkov v skutočnosti používal náročné údaje, ktoré sa do tejto Kafky tlačia medzi viacerými, napríklad tisíckami online používateľov, a sú schopní to klasifikovať a presadzovať.

Kafka je opäť dátová zbernica pre rôznych spotrebiteľov týchto údajov. Klasifikujte niektorých pokročilých používateľov oproti nie tak vyspelým používateľom a urobte niečo iné vpred v tomto dátovom potrubí. Ako sa integrujeme so spoločnosťou Kafka, je to, že náš produkt DMX-h sa pre spoločnosť Kafka stáva spoľahlivým zákazníkom, vysoko efektívnym a spoľahlivým spotrebiteľom. Dokáže čítať údaje a toto sa nelíši od čítania údajov z iného zdroja údajov pre nás. Používateľom dávame možnosť ovládať okno z hľadiska časovej náročnosti alebo počtu správ, ktoré môžu konzumovať z autobusu Kafka. A potom môžeme tiež obohatiť tieto údaje, keď prechádza našim produktom a tlačí späť do Kafky. Testovali sme to. Porovnali sme to na mieste zákazníka. Tiež certifikované Confluent. Úzko spolupracujeme s chlapcami Confluent a je to veľmi výkonné a ľahko použiteľné. Opäť platí, že API sa zmenia, ale nemusíte sa obávať, pretože produkt skutočne zaobchádza ako s iným zdrojom údajov, ktorý je prúdovým dátovým tokom. Je skutočne zábavné pracovať s naším produktom a Kafkou.

Robin Bloor: Dobre, mám ďalšiu otázku, ktorá je len otázkou všeobecného podnikania, ale Syncsort poznám už dlho a vždy ste mali povesť a dodávali ste mimoriadne rýchly softvér pre ETL a mainframe. Je to tak, že väčšina vášho podnikania sa teraz prevádza na spoločnosť Hadoop? Je to tak, že ste nejakým spôsobom rozšírili svoje podnikanie dosť dramaticky zo sveta sálových počítačov?

Tendü Yogurtçu: Naše produkty sálových počítačov stále prevádzkujú 50 percent sálových počítačov na celom svete. Máme teda veľmi silnú produktovú radu mainframe okrem toho, čo robíme na veľkých údajoch a na konci Hadoop. A my sme stále vo väčšine projektov v oblasti zjednodušovania alebo optimalizácie IT, pretože je tu jeden koniec, ktorý chcete mať možnosť preniknúť do svojich mainframových údajov na veľkých dátových platformách Multex a využívať všetky podnikové údaje, existujú však aj veľmi kritické pracovné zaťaženia transakcií. ktorý stále beží na sálovom počítači a týmto zákazníkom ponúkame spôsoby, ako tieto aplikácie skutočne zefektívniť, spustiť v stroji zIIP, aby nespotrebovali toľko spracovateľských cyklov a MIPS, aby boli nákladovo efektívne.

Pokračujeme v investovaní do produktov sálových počítačov a skutočne hráme v tomto priestore, kde ľudia prechádzajú z veľkých sálových počítačov na veľké dáta a pokrývajú celú škálu produktov aj na týchto platformách. Takže nemusíme nevyhnutne presúvať celé podnikanie na jednu stranu, naďalej máme veľmi úspešné podnikanie na oboch stranách. A akvizície sú pre nás tiež veľkým zameraním. Keďže sa tento priestor na správu údajov a priestor na spracovanie údajov pre veľké dátové platformy vyvíja, zaväzujeme sa tiež vykonať niekoľko doplnkových akvizícií.

Robin Bloor: No, myslím, že sa vás nemôžem opýtať, aké sú, pretože by ste mi nemohli povedať. Zaujíma ma, či ste už videli veľa implementácií Hadoop alebo Spark skutočne na mainframe, alebo či je to veľmi zriedkavá vec.

Tendü Yogurtçu: Nevideli sme žiadne. O tom je ešte viac otázok. Myslím si, že Hadoop na mainframe nedal moc zmysel kvôli druhu základnej štruktúry. Avšak Spark na mainframe je dosť zmysluplný a Spark je skutočne veľmi dobrý pri strojovom učení a prediktívnej analýze a je schopný mať niektoré z týchto aplikácií s mainframovými údajmi naozaj, myslím, celkom zmysluplný. Zatiaľ sme nikoho nevideli, ale tieto veci v skutočnosti využívajú. Ak váš prípad použitia ako spoločnosť prináša viac týchto mainframových údajov a integruje sa so zvyškom množín údajov vo veľkej dátovej platforme, je to jeden príbeh. Vyžaduje si prístup k mainframovým dátam z veľkej dátovej platformy Multex, pretože je nepravdepodobné, že prenesiete svoje súbory údajov z otvorených systémov a zavoláte späť do mainframe. Ak však máte nejaké údaje z mainframu, ktoré chcete len skúmať a robiť trochu objavovania údajov z prieskumu, použite niektoré pokročilé AI a pokročilé analýzy, potom môže byť Spark dobrým spôsobom, ako ísť a bežať na mainframe ako takom.

Eric Kavanagh: A ešte jedna otázka od publika, vlastne ďalšie dve. Dám ti otázku tímu, potom zabalíme. Jeden účastník sa pýta: „Integruje spoločnosť IBM vaše príspevky s otvoreným zdrojovým kódom do svojho verejného cloudového ekosystému, inými slovami, Bluemix?“ A ďalší účastník urobil skutočne dobrý bod a poznamenal, že Syncsort je skvelý na udržanie živého železa pre tých, ktorí už to majú, ale ak spoločnosti vzdajú nových sálových počítačov v prospech toho, čo nazýva CE, zakalia všetko, čo sa pravdepodobne zníži, ale poznamenáva, že vy ste naozaj dobrí v presúvaní údajov obchádzaním operačných systémov až do gigabajtov za sekundu. Môžete hovoriť o svojej hlavnej sile, ako uviedol, a či spoločnosť IBM integruje vaše veci do systému Bluemix?

Tendü Yogurtçu: V spoločnosti IBM sme už partnermi spoločnosti IBM a viedli sme diskusie o ich službách cloudu údajov, ktoré ponúkajú tento produkt. Naše príspevky z otvoreného zdroja sú prístupné každému, kto ich chce využiť. Niektoré konektivity sálových počítačov sú dostupné aj v balíkoch Spark, nie iba v IBM. Ktokoľvek ich môže využiť. V Bluemixe sme na tom ešte neurobili nič konkrétne. A vadilo by vám opakovať druhú otázku?

Eric Kavanagh: Áno, druhá otázka sa týkala vašej kľúčovej oblasti funkčnosti v priebehu rokov, ktorá skutočne riešila prekážky ETL a samozrejme to je niečo, čo vy, chlapci, stále robíte ako mainframy, no, teoreticky sa držte ďalej, aj keď je Dez bod je stále druh hojdania a vyvalenia sa tam. Účastník však len poznamenal, že Syncsort je veľmi dobrý v pohybe údajov obchádzaním operačných systémov a až do gigabajtov za sekundu. Môžete sa k tomu len vyjadriť?

Tendü Yogurtçu: Áno, našou silnou stránkou je skutočne celková efektívnosť využívania zdrojov a našou silnou stránkou je škálovateľnosť a výkon. Nerobíme kompromisy, zjednodušujeme mnoho významov a nevyjadrujeme z nich kompromisy. Keď ľudia napríklad začali hovoriť o spoločnosti Hadoop v roku 2014, mnoho organizácií sa pôvodne nevenovalo skutočnému výkonu. Hovorili: „Ak sa niečo stane, môžem pridať ďalšie uzly a budem v poriadku, výkon nie je mojou požiadavkou.“

Zatiaľ čo sme hovorili o najlepšom výkone, pretože sme už natívne bežali, nemali sme ani nejaké počiatočné škytavky, ktoré Hive mal s viacerými úlohami MapReduce a režijné náklady s ich spustením. Ľudia nám hovorili: „Ó, to nie je moje obavy, v tejto chvíli sa to neboj.“

Keď sme prišli do roku 2015, krajina sa zmenila, pretože niektorí z našich zákazníkov už prekročili úložisko, ktoré mali vo svojich výrobných zoskupeniach. Bolo pre nich veľmi dôležité vidieť, čo im Syncsort môže ponúknuť. Ak beriete nejaké údaje z databázy alebo sálového počítača a zapisujete do parketového formátu v zoskupeniach, či už pristávate a pódiujete a robíte ďalšiu transformáciu, alebo len robíte transformáciu letu a formát cieľového súboru na pristátie, urobil rozdiel, pretože ukladáte z úložného priestoru, ukladáte zo šírky pásma siete, ukladáte pracovné zaťaženie v klastri, pretože nespúšťate ďalšie úlohy. Zdá sa, že silné stránky, ktoré hrajeme v súvislosti s veľmi vedomím, cítime efektívnosť využívania zdrojov pod kožou.

Takto to popisujeme. Je to pre nás kritické. Nepovažujeme to za samozrejmé. Nikdy sme to nepovažovali za samozrejmosť, takže budeme naďalej silní s týmto pákovým efektom v Apache Spark alebo v nasledujúcom počítačovom rámci. To bude aj naďalej naším zameraním. A čo sa týka pohybu údajov a prístupu k údajom, určite je to jedna z našich silných stránok a my pristupujeme k údajom DB2 alebo VSAM na mainframe v kontexte Hadoop alebo Spark.

Eric Kavanagh: No, to je skvelý spôsob, ako ukončiť webcast, ľudia. Ďakujem vám veľmi pekne za čas a pozornosť. Ďakujem vám, Tendü a Syncsort, že ste prišli do briefingu a vstúpili do kola, ako sa hovorí. Mnoho skvelých otázok od publika. Je to stále sa pohybujúce prostredie, ľudia. Túto Hot Tech budeme archivovať tak, ako to robíme so všetkými ostatnými. Nájdete nás na insideanalysis.com a na techopedia.com. Zvyčajne to trvá asi jeden deň. A s tým sa ti rozlúčime, ľudia. Ďakujem ti veľmi pekne. Čoskoro sa s vami porozprávame. Dávaj pozor. Ahoj, ahoj.

Veľké železo, stretnite sa s veľkými údajmi: oslobodenie údajov z mainframe pomocou hadoopu a iskry