Miért a Spark a jövőbeli nagy adatplatform?

Tartalom

Mi az Apache Spark?
Miért olyan fontos a Spark a Hadoop felett?
Melyek a Sparks egyedi jellemzői?
Miért a Spark nem helyettesíti a Hadoop-t?
Mit gondolnak a vállalatok a Sparkról és a Hadoopról?
Gyakorlati megvalósítások
Következtetés

Forrás: Snake3d / Dreamstime.com

Elvitel:

Az Apache Spark egy nyílt forrású eszköz nagy adatok feldolgozásához, amelyek kúsznak a Hadoopon (és bizonyos értelemben is meghaladják).

Az Apache Hadoop már régóta alapja a nagy adatszolgáltatásoknak, és az alapvetõ adatplatformnak tekintik az összes nagy adatokkal kapcsolatos ajánlatot. A memóriában lévő adatbázis és a számítás azonban egyre népszerűbbé válik a gyorsabb teljesítmény és a gyors eredmények miatt. Az Apache Spark egy új keretrendszer, amely a memóriában lévő képességeket használja a gyors feldolgozáshoz (szinte százszor gyorsabb, mint a Hadoopnál). Tehát a Spark terméket egyre inkább használják a nagy adatok világában, elsősorban a gyorsabb feldolgozáshoz.

Mi az Apache Spark?

Az Apache Spark egy nyílt forráskódú keretrendszer hatalmas mennyiségű adat (nagy adat) gyors és egyszerű feldolgozására. Nagy adatokon alapuló elemző alkalmazásokhoz alkalmas. A Spark használható Hadoop környezetben, önállóan vagy a felhőben. Ezt a kaliforniai egyetemen fejlesztették ki, majd később felajánlották az Apache Software Foundation számára. Így a nyílt forráskódú közösséghez tartozik és nagyon költséghatékony lehet, ami lehetővé teszi az amatőr fejlesztők számára, hogy könnyedén dolgozzanak. (Ha többet szeretne megtudni a Hadoops nyílt forráskódjáról, olvassa el: Hogyan befolyásolja a nyílt forráskódú Apache Hadoop ökoszisztémát?)

A Spark fő célja, hogy a fejlesztők számára olyan alkalmazási keretet kínál, amely egy központosított adatszerkezet körül működik. A Spark rendkívül nagy teljesítményű, és veleszületett képességével nagy mennyiségű adatot gyorsan tud feldolgozni rövid idő alatt, ezáltal rendkívül jó teljesítményt nyújtva.Ez sokkal gyorsabbá teszi, mint amit a legközelebbi versenytársának, Hadoopnak mondtak.

Miért olyan fontos a Spark a Hadoop felett?

Az Apache Sparkról mindig is ismert volt, hogy Hadoopot számos tulajdonság alatt eltalálja, ami valószínűleg megmagyarázza miért továbbra is olyan fontos. Ennek egyik legfontosabb oka a feldolgozási sebesség mérlegelése. Valójában, amint már fentebb kifejtettük, a Spark körülbelül százszor gyorsabb feldolgozást kínál, mint a Hadoop MapReduce, ugyanannyi adat esetén. A Hadoophoz képest lényegesen kevesebb erőforrást is felhasznál, így költséghatékonyabbá válik.

Egy másik kulcsfontosságú szempont, ahol a Spark rendelkezik elsőbbséggel, az erőforrás-kezelővel való kompatibilitás szempontjából. Az Apache Sparkról ismert, hogy a Hadoopmal fut, csakúgy, mint a MapReduce, ez utóbbi jelenleg csak a Hadoop-val kompatibilis. Az Apache Spark esetében azonban működhet más erőforrás-kezelőkkel, például a YARN vagy a Mesos-szal. Az adattudósok ezt gyakran az egyik legnagyobb területnek nevezik, ahol a Spark valóban felülmúlja Hadoopot.

Könnyű használat esetén a Spark ismét sokkal jobb, mint a Hadoop. A Spark API-kat kínál számos nyelvhez, például a Scala, Java és Pythonhoz, amellett, hogy kedveli a Spark SQL-t. A felhasználó által definiált függvények írása viszonylag egyszerű. Előfordulhat, hogy interaktív móddal is büszkélkedhet a parancsok futtatására. Hadoop viszont Java nyelven íródott, és megszerezte annak hírnevét, hogy meglehetősen nehéz programozni, bár van olyan eszköz, amely segíti a folyamatot. (Ha többet szeretne megtudni a Sparkról, olvassa el: Hogyan segíti az Apache Spark a gyors alkalmazásfejlesztést.)

Melyek a Sparks egyedi jellemzői?

Az Apache Sparknak van néhány egyedi tulajdonsága, amely valóban megkülönbözteti sok versenytársától az adatfeldolgozás területén. Ezek közül néhányat alább röviden ismertetünk.

Nem javíthatja a programozási képességeit, ha senki sem törődik a szoftver minőségével.

A Sparknak veleszületett képessége is, hogy gépi tanulási algoritmusai segítségével betölti a szükséges információkat a magba. Ez lehetővé teszi, hogy rendkívül gyors legyen.

Az Apache Spark grafikonok vagy akár grafikus jellegű információk feldolgozására képes, így lehetővé teszi a könnyű elemzést nagy pontossággal.

Az Apache Spark rendelkezik az MLib-mel, amely a strukturált gépi tanulás kerete. Emellett túlnyomóan gyorsabb a végrehajtás, mint a Hadoopnál. Az MLib számos probléma megoldására képes, például statisztikai leolvasásra, adatmintavételre és előfeltevések tesztelésére.

Miért a Spark nem helyettesíti a Hadoop-t?

Annak ellenére, hogy a Sparknak számos olyan szempontja van, amelyben Hadoop kezét lerövidíti, még mindig számos oka van annak, hogy az még nem helyettesíti a Hadoopot.

Először is, a Hadoop egyszerűen nagyobb szerszámkészletet kínál a Sparkhoz képest. Számos olyan gyakorlattal rendelkezik, amelyeket az iparág elismert. Az Apache Spark azonban még mindig viszonylag fiatal a domainben, és még egy kis időre lesz szüksége ahhoz, hogy a Hadoop-val párhuzamosan felálljon.

A Hadoop MapReduce bizonyos ipari szabványokat is meghatározott a teljes értékű műveletek futtatásakor. Másrészt továbbra is úgy gondolják, hogy a Spark még nem áll készen a teljes megbízhatósággal történő működésre. Gyakran azoknak a szervezeteknek, amelyek a Spark-ot használják, finomítaniuk kell azt annak érdekében, hogy készen álljon a követelményeikre.

A Hadoop MapReduce-je, amely hosszabb ideig működött, mint a Spark, szintén könnyebben konfigurálható. Ez azonban nem a Spark esetében, mivel figyelembe veszi, hogy egy teljesen új platformot kínál, amely még nem igazán tesztelt a durva javításokkal.

Mit gondolnak a vállalatok a Sparkról és a Hadoopról?

Sok vállalat már elkezdte használni a Sparkot adatfeldolgozási igényeinek kielégítésére, de a történet ezzel nem ér véget. Bizonyára számos erős aspektusa van, amelyek csodálatos adatfeldolgozó platformmá teszik. Ugyanakkor a hiányosságok méltányos részesedésével jár, amelyeket meg kell javítani.

Iparági elképzelés, hogy az Apache Spark itt marad, és valószínűleg jövője az adatfeldolgozási igényeknek. Ennek ellenére még sok fejlesztési munkát és polírozást kell végeznie, amely lehetővé teszi számára a potenciál valódi kiaknázását.

Gyakorlati megvalósítások

Az Apache Sparkot számos vállalat alkalmazta és alkalmazza továbbra is, amelyek megfelelnek adatfeldolgozási követelményeiknek. Az egyik legsikeresebb megvalósítást a Shopify végezte, amely kiválasztotta az üzleti együttműködésre alkalmas üzletek kiválasztását. Az adattárház azonban időben elmulasztotta, amikor meg akarta érteni a vásárlói által eladott termékeket. A Spark segítségével a vállalat több millió adatrekordot tudott feldolgozni, majd néhány perc alatt 67 millió rekordot dolgozott fel. Azt is meghatározta, hogy mely üzletek voltak támogathatók.

A Spark felhasználásával a Pinterest képes azonosítani a fejlődő tendenciákat, majd felhasználja a felhasználók viselkedésének megértésére. Ez további értéket teremt a Pinterest közösségében. A Sparkot a TripAdvisor, a világ egyik legnagyobb utazási információs oldala is használja, hogy felgyorsítsa a látogatóknak szóló ajánlásait.

Következtetés

Nem lehet megkérdőjelezni az Apache Spark bátorságát, még jelenleg is, és az az egyedülálló szolgáltatáskészlet, amelyet az asztalhoz ad. Feldolgozási teljesítménye és sebessége, valamint kompatibilitása hangot ad a jövőbeni dolgok megjelenítéséhez. Ennek azonban számos olyan területe van, amelyet javítani kell, ha teljes potenciálját valóban ki akarja használni. Míg a Hadoop továbbra is szabályozza a roostot, az Apache Sparknak mégis fényes jövője van, és sokan úgy vélik, hogy az adatfeldolgozási követelmények jövőbeni platformja.