Domov audio Prečo hadoop je perfektný zápas pre sekvenovanie genómu

Prečo hadoop je perfektný zápas pre sekvenovanie genómu

Obsah:

Anonim

Klinická genomika je fascinujúcim subjektom, v ktorom ľudia pracujú na najmodernejších technológiách na spracovanie rýchlych a presných výsledkov. Na trhu je k dispozícii veľa genómových sekvencerov a produkujú petabajty sekvenčných údajov a rast v sekvencovaní v blízkej budúcnosti vytvorí exabajty údajov. Hadoop je tu perfektnou platformou na spracovanie zložitých pracovných postupov v genomike. Hadoop dokáže ukladať a triediť veľké množstvo informácií a môže tiež vykonávať zmysluplnú analýzu. (Ak chcete získať predstavu o tom, koľko údajov to skutočne znamená, prečítajte si článok Porozumenie bitom, bajtom a ich násobkom.)

Súčasnosť a budúcnosť genomiky

Dnes mapovanie genómu dosiahlo svoj vrchol. Mnoho ľudí spojených s genomickým priemyslom sa teší zvedavosti a keďže sa objavujú nové príležitosti, lepšia technológia si vyžaduje hodinu. Genómové sekvenovanie je veľmi opakujúca sa a náročná na zdroje. Len v roku 2013 sa vyrobilo asi 15 petabajtov údajov a iba 2 000 sekvencerov. Toto množstvo klesajúce čeľuste obsahovalo 300 KB sekvenovaných údajov o ľudskom genóme. Pri tomto tempe výroby údajov sa dá odhadnúť, že do roku 2018 bude vytvorených asi jeden exabyte údajov. Dôvodom bude nárast sekvenátorov, ktoré budú produkovať stále viac údajov za cyklus. Ďalším dôvodom je príchod extrémne výkonných a lacných strojov na sekvenovanie genómu. Od roku 2008 cena týchto strojov neustále klesá. Je to kvôli výkonným strojom novej generácie, ktoré vstúpili na trh.

Potreby odvetvia mapovania genómu

Na spracovanie údajov získaných z ľudského genómu sa používajú zložité algoritmy. Potom je potrebné tieto informácie uložiť. Môže byť v budúcnosti skontrolovaný na porovnanie s pôvodnými údajmi. Úloha spracovania a ukladania 100 GB údajov nie je príliš náročná, najmä ak to robíte s výkonnými strojmi zamestnanými v strediskách sekvencovania. Štúdie ukazujú, že toto množstvo údajov je možné spracovať za približne 1 000 hodín CPU, takže je to veľmi jednoduché. Pri tomto tempe technického pokroku je zrejmé, že priemysel genómu čoskoro spracuje tisíce gigabajtov za pár sekúnd.

Prečo hadoop je perfektný zápas pre sekvenovanie genómu