Ha az SQL nem elég: Vezérlők a hatalmas új adatközpontok számára

Tartalom

Google fájlrendszer: nagy esettanulmány
Nincsenek hibák, nincs stressz - Az Ön életét megváltoztató szoftverek készítésének lépésről lépésre történő leírása az élet megsemmisítése nélkül
Nézd meg az alaptechnológiát
Hogyan érik el ezt más nagy rendszerek?
DFS fenntartása

Elvitel:

A fejlesztőknek és a mérnököknek folyamatos munkát kell végezniük a szolgáltatások felgyorsítása és fejlesztése felett olyan platformon, amely messze meghaladta a klasszikus 1990-es évek korszakának archetipjait.

A magánéletünket érintő hatalmas NSA-adatközpontok iránti aggodalmakkal kapcsolatban, amelyekben gazdag adatbiteket tárolunk, van egy dolog, amiről nem sokat beszéltek, legalábbis a CNN-en. Ez magában foglal egy olyan mérnöki problémát, amely felmerült a felhőtechnológiával, a nagy adatokkal és a lenyűgöző fizikai adattároló központokkal, amelyeket most építenek az egész világon. Tehát mi az? Nos, függetlenül attól, hogy ki adminisztrálja az ezeket a létesítményeket üzemeltető mammut IT rendszereket, szükség van olyan szoftver rendszerekre, amelyek elősegítik az összes adat gyors bejutását és kivonását a folyamatból. Ez a szükséglet képviseli az egyik legérdekesebb informatikai kérdést vagy rejtvényt, amellyel a szakemberek szembesülnek.

Amint sok szakértő rámutat, a mai rendkívüli adatfeldolgozási igény messze meghaladja a hagyományos megközelítéseket. Egyszerűen fogalmazva: az egyszerű adatbázis-struktúrák és eszközök, például az SQL lekérdezési felület használata nem biztosítja elegendő feldolgozási teljesítményt vagy funkcionalitást az elmúlt években kifejlesztett védett rendszerekhez hasonlóan. A mai nagy technológiai vállalatok archívumához rendkívül skálázható technológiára van szükség. Olyan adatfeldolgozó eszközökre van szükségük, amelyek be- és kimenetet eredményeznek, és sokkal nagyobb volumenűek, mint amit egyetlen szerver megkönnyít. Szükségük van a növekedéshez gyorsan felgyorsítható megoldásokra, olyan megoldásokra, amelyek tartalmazzák a komplex mesterséges intelligencia szintjét, valamint olyan megoldásokra, amelyeket egy informatikai részleg könnyen kezelhet.

A kérdés az, hogy a vállalatok és kormányzati ügynökségek hogyan hódítják meg a hagyományos adatkezelési útvonal korlátait? Itt nézzen meg egy nagyon ígéretes lehetőséget: Szoftver, amely nagy adatokat kezel és több adatközpont adminisztrációját.

Google fájlrendszer: nagy esettanulmány

A szabadalmaztatott technológia, amelyet a Google az adatközpontok elérésére használ, az egyik legjobb példa a nagy adatkezelés és a több adatközpont adminisztrációjának általános modelljeire. A 2003-ban kifejlesztett Google File System (GFS) célja, hogy támogassa az adatrendszerek nagy sebességű módosításait, amelyek részeként annyi új információt hoznak létre és hoznak létre egyetlen platformon, amikor a felhasználók milliói kattintanak a ugyanakkor. A szakértők ezt elosztott fájlrendszernek nevezik, és az „adatobjektum-tárolás” kifejezést használják ezen rendkívül összetett technikák leírására. A valóságban azonban ezek a kifejezések nem is megkarcolják a felületet azzal, hogy leírják, mi működik.

Egyedileg a GFS-hez hasonló rendszert alkotó tulajdonságok és összetevők már nem feltétlenül úttörő jellegűek, de összetettek. Ezek közül sokan viszonylag új innovációkként szerepelnek ezen a webhelyen, amelyek egy új, mindig bekapcsolt, mindig csatlakoztatott globális IT-rendszer alapjainak részét képezik. Összességében egy olyan rendszer, mint a GFS, sokkal több, mint a részeinek összessége: ez egy nagyrészt láthatatlan, de rendkívül összetett hálózat, amely az egyes adatelemeket ilyen módon dobja el, és amely olyan folyamatban működik, amely, ha vizuálisan teljesen modelleződik, káosznak tűnik. Annak megértése, hogy az összes adat mekkora, sok energiát és elkötelezettséget igényel, mivel ezeknek a rendszereknek a csataállomásait munkatársak könnyen beismerik.

"Túl sok részlet, amelyek mély hatással vannak a használhatóság területére - ideértve a külső és belső fragmentációt, a napló alapú és helybeni frissítéseket és a tranzakciókonzisztencia szintjét - ahhoz, hogy összefoglaljuk a működését egyetlen tömör mondatban "- mondta Momchil Michailov, a Sanbolic vezérigazgatója és társalapítója.

"Az elosztott fájlrendszer vagy a helyi névterek és a résztvevő csomópontok szabad tereinek elosztott aggregátora, vagy egy helyi fájlrendszer, amely több csomóponton fut, és megosztott tárolóhoz fér el egy elosztott zárkezelő összetevő segítségével" - mondta.

Kerry Lebel az Automic, a skálázható automatizálási platformjairól ismert vállalat vezető termékmenedzsere. Lebel azt mondja, hogy bár pontosan lehet leírni a DFS-t olyan rendszerként, amely egyszerűen csak az alacsony költségű hardverdarabokhoz rendelt szervereket terheli a terhelésekkel, ez nem igazán mondja el az egész történetet.

Nincsenek hibák, nincs stressz - Az Ön életét megváltoztató szoftverek készítésének lépésről lépésre történő leírása az élet megsemmisítése nélkül

Nem javíthatja a programozási képességeit, ha senki sem törődik a szoftver minőségével.

"Amit végül hiányzol, az minden hűvös tényezője hogyan azt csinálják, amit csinálnak - mondta Lebel.

Ha elhagyja a műszaki részleteket és csak átgondolja az elosztott fájlrendszer mögöttes ötletét, akkor nyilvánvaló az a „hűvös tényező”, amelyről Lebel beszél. Ezek a nagy adatkezelő rendszerek a régi fájl- / mapparendszereket felváltják olyan struktúrákkal, amelyek nemcsak többszörös kézbesítési rendszereket tartalmaznak, hanem egy "objektumorientált" megközelítést, ahol nagyszámú egységet csinálnak itt-ott a szűk keresztmetszetek elkerülése érdekében.

Gondolj például egy korszerű autópálya-rendszerre, ahol több százezer autót nem csupán egy síkban hajtanak el, hanem szépen kis lóhere- vagy holtágú mellékfolyókba kapnak, amelyeket körbeforgatnak és elküldnek. a célállomások felé, különféle kitérőkkel. Az égből mindent ugyanolyan koreográfiával néz ki, mint egy svájci órát. Ez a vizuális modell, amelyre a mérnökök néznek, amikor álmodnak új lehetőségekről, amelyek az információk korlátozások körüli irányításához vezetnek, és az információkat többszintű adattároló-séma különböző szintjeire "rúgják". Ha elhagyjuk a specifikációkat, ez egy kezelési rendszer legfelső szintű célja: tartsa ezeket a különálló tárgyakat beágyazott metaadataival legmagasabb sebességgel ott, ahol kell lennie, elérje a konzisztencia célokat, kielégítse a végfelhasználót, vagy akár a legmagasabb szintű megfigyelés vagy elemzés céljából is.

Nézd meg az alaptechnológiát

Sean Gallagher cikke, amely az Ars Technica-n jelent meg, a GFS kialakítását kissé kezelhetőbb részekre bontja, és arra utal, hogy mi van a lap alatt a Google-on.

A GFS redundáns és hibatűrő modellel kezdődik az adatok olvasásához és írásához. Az ötlet az, hogy ahelyett, hogy egy meghajtóra specifikus frissítést írna, az új rendszerek több darabból adatot írnak. Ily módon, ha az egyik írás sikertelen, akkor a többi megmarad. Ennek figyelembe vétele érdekében az egyik elsődleges hálózati elem adatkezelést végez más alárendelt egységek számára, és újra aggregálja az adatokat, amikor az ügyfél "felkéri". Mindezt egy metaadat-protokoll teszi lehetővé, amely segít azonosítani, hogy hol vannak bizonyos frissítések és átviteli eredmények a nagyobb rendszeren belül.

Ennek egy másik nagyon fontos aspektusa az, hogy ezek a duplikátum-nehéz rendszerek hogyan érvényesítik az adatok konzisztenciáját. Amint Gallagher megjegyzi, a GFS kialakítása feláldozza a következetességet, miközben továbbra is "érvényre juttatja az atomitást", vagy megvédi azt az elvet, hogy az adatok hogyan frissülnek több tárolóegység között, hogy idővel megfeleljenek. Úgy tűnik, hogy a Google „nyugodt konzisztencia-modellje” követi a BASE modell alapvető elméletét, amely nagyobb rugalmasságot biztosít a következetesség érvényesítésének hosszabb időtartamáért cserébe.

Hogyan érik el ezt más nagy rendszerek?

"Ha kellően nagy léptékű képet érnek el, az adatok következetlenségei vagy sérülései elkerülhetetlenek" - mondja Michailov. "Ezért az elosztott fájlrendszerek elsődleges célja a lehető legtöbb művelet végrehajtásának lehetősége korrupció jelenlétében, miközben hatékony módszereket kell biztosítani a korrupció egyidejű kezelésére." Michailov megemlíti azt is, hogy a redundancia gondos végrehajtása révén meg kell őrizni a teljesítményt.

"Például, metaadatok (adatokkal kapcsolatos adatok) létrehozása az egyes lemezeken lehetővé teszi, hogy a lemez helyreállítsa a megfelelő adatszerkezetet, ha a tükör másolata sérült" - mondta Michailov. "Ezenkívül a RAID szintek felhasználhatók a tárolási hibák leküzdésére akár a fájlrendszer-aggregátor, akár a megosztott kötetkezelő szintjén."

Egy másik konzisztenciamodell megvitatásakor Lebel egy olyan rendszerre összpontosít, amelyet Hadoop elosztott fájlrendszerének (HDFS) hívnak, amelyet "ipari de facto szabványnak" hív.

A HDFS-ben, mondja Lebel, minden adat blokkot háromszor replikálnak különböző csomópontokon és két különböző állványon. Az adatokat teljes egészében ellenőrzik. A hibákat a NameNode, egy adatkezelő jelentheti, amely megszabadul a sérült blokkoktól, és újakat hoz létre.

Mindez támogatja a "tiszta adatok" fajtáit, amelyek annyira fontosak ezen tömeges adatrendszerek egyikének integritása szempontjából.

DFS fenntartása

A GFS másik, nagyon eltérő pillantása a vezetékes író, Steven Levy 2012. októberi cikkéből származik. Sokkal rövidebb a szoftver megközelítésének jellemzése a Google kollektív top-down hálózati kezelésében.

"Az évek során," írja Levy, "a Google egy olyan szoftverrendszert is kiépített, amely lehetővé teszi számtalan kiszolgálójának kezelését, mintha egy óriási entitás lenne. A házon belüli fejlesztők bábmesterekként viselkedhetnek, számítógépek ezreit küldik el teljesítés céljából. ugyanolyan egyszerű feladatokat végez, mint egyetlen gép futtatása. "

Ennek végrehajtása rengeteg kiber-alapú és környezetvédelmi karbantartást is magában foglal, kezdve a dedikált tesztcsoportoktól, amelyek megpróbálják „kiszabadítani” a kiszolgálórendszereket, a gondosan ellenőrzött hőmérsékletekig az adatkripta folyosóin.

A Levy megemlíti a GFS kiegészítő technológiáit is, mint például a MapReduce, egy felhő alkalmazás eszköz, és a Hadoop, egy elemző motor, amely megosztja néhány tervezési alapelvet a GFS-sel. Ezeknek az eszközöknek saját hatásuk van arra, hogy a nagy adatközponti kezelő rendszereket miként tervezik, és mi várható a jövőben. (Tudjon meg többet ezekről a technológiákról a The Big Data Evolution részében.)

Michailov úgy véli, hogy a MapReduce képes egyre nagyobb adatközponti rendszerek támogatására, és egy megosztott és összesített fájlrendszer "egyetlen megvalósításáról" beszél, amely az "összevont fájlrendszer névcsomópontjait megőrizheti SSD-kkel ellátott megosztott fürtben tárolás céljából" .”

A maga részéről Lebel elköltözik a kötegelt feldolgozástól (a Hadoop által támogatott módszer) az adatfolyam-feldolgozástól, amely közelebb hozza ezeket az adatműveleteket a valósidejűhez.

"Minél gyorsabban dolgozhatjuk fel az adatokat az üzleti döntéshozók vagy az ügyfelek számára, annál nagyobb versenyelőny lesz" - mondja Lebel, aki azt is javasolja, hogy a fenti feldolgozási terminológiát cseréljék a kifejezésekre összpontosító kifejezésekre. végfelhasználó. A "szinkron" tevékenységekre vagy a végfelhasználói tevékenységekkel szinkronizált tevékenységekre, valamint a megvalósítás szempontjából rugalmasabb "aszinkron" tevékenységekre gondolva Lebel szerint a vállalatok SLA-k és más erőforrások felhasználásával határozhatják meg, hogy egy adott szolgáltatási rendszer hogyan működik .

Mindez abból adódik, hogy bizonyos értelemben az, hogy a fejlesztőknek és a mérnököknek folyamatosan dolgozniuk kell a szolgáltatások felgyorsítása és fejlesztése érdekében, olyan platformokon, amelyek messze meghaladták a klasszikus, 1990-es évek korszakának archetipjait. Ez azt jelenti, hogy kritikusan kell megvizsgálni az adatok gépeit, és áttörni a szűk keresztmetszeteket olyan módon, amely nemcsak a növekvő népességet támogatja, hanem azt az exponenciális változást is, amely a nyak kitörési sebességével történik, és amelyet a csapatok a következő ipari forradalomnak hívnak. Valószínű, hogy azok, akik ezen a fronton a legjobban áttörnek, végül dominálnak a jövő piacaiban és gazdaságaiban.