Miért tökéletes a Hadoop a genom szekvenáláshoz?

Szerző: Roger Morrison
A Teremtés Dátuma: 19 Szeptember 2021
Frissítés Dátuma: 4 Lehet 2024
Anonim
Miért tökéletes a Hadoop a genom szekvenáláshoz? - Technológia
Miért tökéletes a Hadoop a genom szekvenáláshoz? - Technológia

Tartalom


Forrás: A3701027 / Dreamstime.com

Elvitel:

A genom szekvenáláshoz hatékony technológiai eszközökre van szükség az összes adat kezeléséhez, és a Hadoop feladata.

A klinikai genomika izgalmas téma, ahol az emberek csúcstechnológiákon dolgoznak a gyors és pontos eredmények feldolgozása érdekében. A piacon rengeteg genomszekvencia áll rendelkezésre, amelyek szekvenciaadatok petatabátjait állítják elő, és a szekvenálás növekedése a közeljövőben az adatok exabitáinak előállításához vezet. A Hadoop itt tökéletes platform a komplex genomika munkafolyamatának feldolgozására. A Hadoop nagy mennyiségű információt tárolhat és rendezhet, és értelmes elemzést is nyújthat. (Ha képet szeretne kapni arról, hogy mekkora adatot jelent ez valóban, olvassa el a Bittek, bájtok és azok szorzóinak megértése című cikket.)


A genomika jelenje és jövője

Ma a genomtérképezés elérte a fejlődés csúcsát. Sok, a genomikai iparral kapcsolatos ember elárasztja a kíváncsiságot, és mivel új lehetőségek mutatják be magukat, a jobb technológia az óra igénye. A genom szekvenálás nagyon ismétlődő és erőforrás-igényes feladat. Csak 2013-ban körülbelül 15 petaitta adatot állítottak elő, és csak 2000 szekvencia készítette. Ez az állkapocs-csökkenő mennyiség 300 KB szekvenált humán genom adatait tartalmazta. Az ilyen adattermelési sebességnél becslések szerint 2018-ra kb. Egy adat exabitát fog előállni. Ennek oka a szekvenciák növekedése, amely futásonként egyre több adatot fog előállítani. Egy másik ok a rendkívül nagy teljesítményű és olcsó genomszekvenáló gépek megjelenése. 2008 óta ezen gépek ára folyamatosan csökken. Ennek oka a nagy teljesítményű, új generációs gépek, amelyek bekerültek a piacra.


A genomtérképező ipar igényei

Az emberi genomból összegyűjtött adatok feldolgozásához komplex algoritmusokat használnak. Ezután ezeket az információkat tárolni kell. A jövőben felülvizsgálhatja az eredeti adatokkal való összehasonlítás érdekében. A 100 GB-os adatok feldolgozása és tárolása nem túl nehéz, főleg, ha a szekvenciaközpontokban alkalmazott erőteljes gépeken végzi. A tanulmányok azt mutatják, hogy ez az adatmennyiség csak körülbelül 1000 CPU óra alatt feldolgozható, tehát nagyon egyszerű. A technikai haladás üteménél nyilvánvaló, hogy a genomipar hamarosan néhány másodperc alatt több ezer gigabájtot dolgoz fel.

Az adatkezelési és tárolási technikák azonban nem fejlődnek olyan gyorsan, amelynek eredményeként értékes adatok jelentős vesztesége várható. Ez valóban nem kívánatos, mivel súlyosan akadályozza az emberi genomikában elért haladást. Tehát nagyon nagy szükség van hatékony, könnyen frissíthető adatkezelési technikára. Ez különösen a közeljövőben eredményes lehet, ahol a genomleképezés a nagy teljesítményű számítógépekkel működő nagy laboratóriumokból a kórházakba és a laboratóriumokba kerül.

Mi várható a megoldásban?

Az új genomi szekvenálási technikák felfedezésének és fejlesztésének üteme rendkívül magas. Ez a tempó rendkívül hasznos lehet az orvostudomány számára, egy erőteljes lépés formájában a főbb betegségek felszámolása felé. Ez a tempó azonban nagyon nehéz is lehet.

A kihívás a szekvenálási projektek által előállított nagy mennyiségű adat kezelésének formájában jelentkezik. Tehát hatékony megoldásra van szükség, amely elősegíti a nagy adatok tárolását és feldolgozását. Ennek a megoldásnak olcsónak és gyorsnak kell lennie, ugyanakkor adaptívnak is. Az e megoldás által nyújtott elemzésnek is pontosnak és állandónak kell lennie. Szóval, mi a megoldás a problémára? Kétségtelen, hogy Hadoop. (A Hadoop használatával kapcsolatos további információkért lásd: 5 betekintés a Big Data (Hadoop) szolgáltatásba.)

Miért a Hadoop a legjobb megoldás a genom szekvenáláshoz?

A genomikai iparnak szüksége van egy kiváló megoldásra, amely elősegíti számukra az adatok hatékony kezelését, feldolgozását és tárolását későbbi felhasználás céljából. Úgy tűnik, hogy ez a megoldás tökéletesen illeszkedik a Hadoop szoftverhez. Tehát a Hadoop tökéletes nagy adatkezelő szoftvernek tekinthetõ, amely jelentõsen javíthatja a genomikai ipar jelenlegi adattárolási technikáit.

A Hadoop valós idejű képességei lehetővé teszik a genom szekvenciák számára, hogy valós időben nagy mennyiségű adatot elemezzenek és tároljanak. Ez lehetővé teszi az adatok jövőbeni felhasználását is. A Hadoop sok régi rendszert képes legyőzni, mivel sokkal gyorsabb és megbízhatóbb náluk.

Nincsenek hibák, nincs stressz - Az Ön életét megváltoztató szoftverek készítésének lépésről lépésre történő leírása az élet megsemmisítése nélkül

Nem javíthatja a programozási képességeit, ha senki sem törődik a szoftver minőségével.

Mi mást tehet a Hadoop?

A Hadoop miatt számos lehetőség nyílt meg a genomika és a génszekvenálás területén. A Hadoop párhuzamos számítási lehetőségeket kínál, amelyek miatt a gyorsabb szekvenálás lehetséges. Ezenkívül a Hadoop MapReduce funkciójával nagyszámú gén térképezhető fel nagyon könnyen. Emiatt a Hadoop-szekvenálás valóban „next-gen” lesz, és sokkal kevésbé bonyolult.

Lehetőségek a Hadoop számára

A Hadoopnak számos lehetősége van a genomiparban, de a legjobbat Lynda Chin „A rák genomiális adatainak értelmezése” című cikkéből származik, amely a Genes & Development folyóiratban található. Ebben a cikkben azt tárgyalja, hogy a modern genomika hogyan nyitott új ajtókat, és ez sok pozitív eredményhez vezetett, például a rákkal kapcsolatos genomi információk felfedezéséhez. Emiatt közelebb állunk a rák gyógyításának felfedezéséhez. Ehhez azonban valamivel több figyelmet és hatékony adatkezelési alkalmazást kell igényelni a helyszínen a jobb kutatási képesség érdekében. Ez lehet a legjobb lehetőség a Hadoop számára a sebesség, teljesítmény és pontosság bizonyítására.

Crossbow: A következő generációs adatkezelési platform

A Crossbow, amely a genom újraszekvenálásának elemzésére szolgáló szoftvercső, az egyik legjobb megoldás. Ez a Hadoop-ban történt integráció eredményeként a szekvenált adatok összehangolására szolgáló gyors algoritmus, amelyet Bowtie-nek hívnak, és egy hatékony algoritmus, amely összehasonlítja és megvizsgálja a szekvenált adatokat, azaz egy SoapSNP nevű genotiport. Az Apache Hadoop-ra épül, és a MapReduce keretrendszer megvalósításán alapul. A Crossbow hordozható, méretezhető és felhőalapú számítástechnikai eszköz.

Ezzel az erőteljes integrációval egy teljes genom mindössze egy nap alatt megvizsgálható egy 10 csomópontú helyi klaszteren. Egy 40 csomópontú fürtnél a folyamat még gyorsabb, és mindössze három órán belül befejeződik, teljes költsége kevesebb, mint 100 dollár! A Crossbow pontosságának tesztelésére végzett tanulmány kimutatta, hogy az összehasonlíthatja az egyes genomokat 99 százalékos pontossággal. A Crossbow másik hasznos tulajdonsága, hogy a felhőn fut. Így a Crossbow lehetővé teszi a jövőbeli szekvenáló központok ezreinek, mint például a kórházak számára, hogy nagy mennyiségű genom adatot szekvenáljanak anélkül, hogy bármilyen erős, költséges számítógépre és technológiára lenne szükség.

Egyéb Hadoop-alapú genomikai szoftver

Sok vállalat felismerte a Hadoop erejét a genomika világának megváltoztatásában. Megfelelően módosították a Hadoop-ot, hogy kiaknázzák a fejlett genomszekvenálás potenciálját. Az alábbiakban bemutatunk néhány példát a híres Hadoop-alapú genom-szekvenálási megoldásokra:

  • Hadoop-BAM: Ez egy hatékony adatkezelő eszköz, amely a Hadoop MapReduce funkcióját a genomikával kapcsolatos különféle tevékenységekre, például a genotipizálásra használja fel. Ez bináris igazítás / térkép formátumban működik.
  • Cloudburst: Ezt a Hadoop-alapú megoldást 2009-ben hozták létre. Rendkívül hatékony a genomszekvenciák összehasonlításában és az egyes gének feltérképezésében. Ez egyben az első erre a célra kifejlesztett Hadoop-alapú alkalmazás.

Következtetés

A nagy adatok és a genomikai ipar közötti integráció a modern időkben jótékonysági hatásnak bizonyult. Ezek a platformok hatékonyak számos betegség, például a rák kezelésének felfedezésében. A genom feltérképezésével nyert adatok felhasználhatók az ilyen betegségek megelőző információinak megfogalmazására. A nagy adatok megjelenése fordulópontnak tekinthető a genomika világában, és ha az információkat okosan használják, akkor az az egészségügy tágabb területein is. A mező előrelépésének egyetlen módja a megfelelő adatkezelő eszközök, például a Hadoop használata.