A minőségi nagy adatanalízis kulcsa: a különféle megértés - TechWise Episode 4 átirat - Technológia

Tartalom

Nincsenek hibák, nincs stressz - Az Ön életét megváltoztató szoftverek készítésének lépésről lépésre történő leírása az élet megsemmisítése nélkül

Forrás: Jakub Jirsak / Dreamstime.com

Elvitel:

Eric Kavanagh házigazda megbeszélte a nagy adatok elemzését az iparági szakértőkkel.

Eric: Hölgyeim és uraim, 2014 vége van - legalábbis szinte. Ez az év utolsó internetes közvetítése, emberek! Üdvözöljük a TechWise-nál! Igen valóban! A nevem Eric Kavanagh. Én vagyok a moderátor egy fantasztikus internetes adáshoz, emberek. Nagyon izgatott vagyok. Két fantasztikus elemzőnk van online és két nagyszerű cég - valódi innovátorok ebben az egész nagy adatökoszisztémában. És mindent a nagy adatanalitika kulcsairól fogunk beszélni, a különbség megértése. Tehát menjünk előre és merüljünk be, emberek.

Több előadónk van. Mint láthatja, valóban a te teteted van a tetején. Mike Ferguson egészen az Egyesült Királyságból hív, ahol különleges kiváltságokat kellett kapnia, hogy későn maradjon irodaházában. Ilyen késő van vele. Itt van Dr. Robin Bloor, a saját főanalitikusunk, a Bloor csoportban. És ott leszünk George Corugedo, a RedPoint Global vezérigazgatója és társalapítója, valamint Keith Renison, a SAS Intézet vezető megoldás-építészje. Ezek fantasztikus cégek, emberek. Ezek olyan vállalatok, amelyek valóban innovációt folytatnak. És belemerülünk néhány jó dologba, ami jelenleg zajlik a nagy adatok egész világában. És nézzünk szembe a tényekkel, a kis adatok nem mentek el. És engedje meg, hogy itt adjak összefoglaló összefoglalómat.

Tehát van egy régi francia kifejezés: "Minél inkább változnak a dolgok, annál inkább ugyanazok maradnak." És nézzünk itt néhány tényt - a nagy adatok nem oldják meg a kis adatok problémáit. A vállalati kis adatok még mindig ott vannak. Még mindig ott van. Ez a mai információs gazdaság működésének üzemanyaga. És a nagy adatok bókot jelentenek az úgynevezett kisvállalati adatokhoz, de nem helyettesítik a kis adatokat. Még mindig körül lesz. Szeretek sok dolgot a nagy adatokkal kapcsolatban, különösen olyan dolgokat, mint például a géppel generált adatok.

És ma valószínűleg egy kicsit beszélünk a közösségi média adatairól, amelyek szintén nagyon erőteljes dolgok. És ha gondolkodik például arról, hogy a társadalom hogyan változtatta meg az üzletet, akkor gondoljon csak három gyors weboldalra:: LinkedIn és. Gondolj arra a tényre, hogy öt évvel ezelőtt senki sem csinált ilyen dolgokat. abszolút korszerűsítés manapság. természetesen hatalmas. Ez nagyszerű. És ekkor a LinkedIn a vállalati hálózatépítés és kommunikáció tényleges szabványa. Ezek a webhelyek humánusak, és ahhoz, hogy a bennük lévő adatokat kihasználhassák, meg kell újítani néhány játékmegváltoztató funkciót. Nagyon sok jót tesz sok szervezet számára - legalább azoknak, amelyek kihasználják azt.

Nincsenek hibák, nincs stressz - Az Ön életét megváltoztató szoftverek készítésének lépésről lépésre történő leírása az élet megsemmisítése nélkül

Nem javíthatja a programozási képességeit, ha senki sem törődik a szoftver minőségével.

Tehát a kormányzás - a kormányzás továbbra is számít. A nagy adatok megint nem jelentik sem a kormányzás szükségességét. Őszintén szólva, teljesen új szükség van arra, hogy a nagy adatok világának irányítására összpontosítsunk. Hogyan tudja megbizonyosodni arról, hogy a helyén vannak-e eljárások és irányelvek; hogy a megfelelő emberek hozzáférnek a megfelelő adatokhoz; hogy kapcsolata van, itt vonallal foglalkozik? Valójában tudja, honnan származnak az adatok, mi történt vele. És ez mind változik.

Őszintén szólva nagyon lenyűgözött néhány, amit láttam ott az egész új világban, amely kiaknázza a Hadoop ökoszisztémáját, ami természetesen sokkal több, mint tárolás funkcionális szempontból. A Hadoop számítási motor is. És a társaságnak kitalálnia kell, hogyan lehet ezt a számítási teljesítményt, a párhuzamos feldolgozási képességeket kihasználni. Nagyon jó, nagyon jó dolgokat fognak csinálni. Ma megtudhatjuk erről.

A másik dolog, amit megemlíteni kell, Dr. Bloor arról beszélt a közelmúltban, hogy az innovációs hullám még nem ért véget. Tehát természetesen sok figyelmet láttunk a Hadoop körül. Láttuk olyan cégeket, mint a Cloudera és a Hortonworks, tudod, valóban hullámzik. És őszintén szólva, a mai ügyeletes cégekkel partnerségeket alakítanak ki. És sok emberrel partnerségeket alakítanak ki. De az innovációs hullám még nem ért véget. Több olyan projekt lépett ki az Apache Alapítványból, amely nemcsak a végpontot változtatja meg, ha akarod - az emberek által használt alkalmazásokat -, hanem magát az infrastruktúrát is.

Tehát, a YARN teljes fejlesztése - még egy újabb erőforrás-tárgyaló - valóban olyan, mint egy nagy adatok operációs rendszere. És ez egy nagy, nagy ügy. Tehát megtanuljuk, hogyan változtatja meg a dolgokat is. Tehát, csak néhány darab nyilvánvaló tanácsot, vigyázzon a hosszú szerződések folytatására, tudod, az öt-, tízéves szerződések a hullám lesz, ez az út számomra. Minden áron el akarja kerülni a bekapcsolódást. Ma mindezt megtudjuk.

Tehát, az első elemzőnk, aki ma beszélt - az egész program első felszólalója Mike Ferguson, aki az Egyesült Királyságból hívja fel a hívást. Ezzel átadom neked a kulcsokat, Mike, és hagyom, hogy elvegye. Mike Ferguson, a padló a tied.

Mike, ott vagy? Lehet, hogy néma. Nem hallom őt. Lehet, hogy vissza kell hívnunk őt. És csak felmegyünk Robin Bloor diáira. Robin, itt fogok rangot szerezni a szegény Mike Fergusonról. Megyek egy pillanatra.

Te vagy Mike? Hallasz minket? Nem. Azt hiszem, először Robinnal kell mennünk. Tehát tartsa egy másodpercig, emberek. Néhány perc múlva itt is húzok néhány linket a diákhoz. Tehát ezzel hadd adjam át a kulcsokat Robin Bloor-nak. Robin, te indulhatsz először Mike helyett, másodpercben felhívom Mike-t.

Robin: Oké.

Eric: Várj, Rob. Hadd menjek előre, és idehozzák a diaját, Rob. Ez eltart egy pillanatot.

Robin: Oké.

Eric: Igen. Bármilyen módon beszélhet arról, hogy miről van szó itt, a kormányzás szempontjából. Tudom, hogy kormányzásról fog beszélni. Erre általában a kisvállalati adatok kapcsán gondolkodnak. Tehát most felálltam a csúszda, Robin. Ne mozgatjon semmit. És itt van. A padló a tiéd. Elvenni.

Robin: Oké. Igen. Úgy értem, nos, valamiféle elõzetes elrendezés volt, Mike az analitikai oldalról, és a kormányzási oldalról fog beszélni. Bizonyos mértékben a kormányzás az elemzést követi abban az értelemben, hogy ez ok arra, hogy nagy adatot csinál, és az az oka, hogy az összes szoftvert összeállítja az elemzés elvégzéséhez, tehát ott van az érték.

Van egy probléma. És a kérdés az, hogy tudod, az adatokat meg kell bántani. Az adatokat rendezni kell. Az adatokat össze kell gyűjteni és kezelni kell oly módon, hogy az elemzés teljes magabiztossággal valósuljon meg - azt hiszem, ez a szó. Tehát azt hittem, hogy az egyenlet kormányzási oldaláról beszélek. Azt hiszem, valóban azt kell mondani, hogy tudod, a kormányzás már kérdés volt. A kormányzás már kérdés volt, és az adatraktári játék egészében kérdéssé válik.

Ami történt, az sokkal nagyobb kérdéssé vált. És az az oka, hogy sokkal nagyobb kérdéssé és több adattá vált, de úgy értem, ezek ezek az okok. Az adatforrások száma drámaian megnőtt. Korábban az általunk használt adatforrásokat nagyjából minden olyan adat meghatározta, amelyet az adattárház táplált. Az adattárházat általában az RTP rendszerek táplálják. Lehetséges egy kevés külső adat, nem sok.

Most egy olyan világba mentünk, ahol, tudod, most egy adatpiac lép fel, ezért az adatok kereskedelme fog folytatódni. Már van rengeteg és különböző adatfolyam-adatfolyam, amelyek valóban behozhatók a szervezetbe. Megvannak a szociális média adatai, amelyek elfoglalják, úgy nevezik a saját számlájukról. A közösségi média oldalainak szörnyű részén az az érték, amely valójában az az információ, amelyet összegyűjtöttek, és ezért az emberek számára elérhetővé tehetnek.

Felfedeztük azt is, hogy tudod, olyan, mintha már léteztek. A naplófájlok, tudod, már rendelkezett a Splunk megjelenésével. És hamarosan nyilvánvalóvá vált, hogy van egy érték a naplófájlban. Tehát voltak olyan adatok a szervezeten belül, amelyeket - új adatforrásoknak és külső forrásoknak is nevezhetünk. Szóval, ez egy dolog. És ez valójában azt jelenti, hogy tudod, bármilyen adatkezelési szabályról is rendelkezünk, amelyek korábban voltak, ezeket valamilyen módon meg kell hosszabbítani, és továbbra is ki kell terjeszteni, hogy ténylegesen irányítsák a adat. De most kezdjük az egyik vagy másik módon összeszerelni.

És lefelé haladva ezen a listán, akkor streaming és az adatok érkezési sebessége van. Szerintem a Hadoop népszerűségének egyik oka az, hogy nagyjából felhasználható sok adat gyűjtésére. Az adatátviteli sebességet is beveheti, ha nem kell azonnal felhasználnia, akkor ez egy szép párhuzamos, hatalmas párhuzamos környezet. De azt is megtudta, hogy jelenleg rengeteg streaming elemzés folyik. Régebben csak a bankszektor volt az, amely érdekelt az alkalmazások streamingjében, de most már egyfajta globálissá vált. És mindenki valamilyen módon vagy olyan módon nézi az alkalmazások streamingjét, amely lehetõséget kínál az adatok értékének megszerzésére és elemzésre a szervezet számára.

Megvan a nem strukturált adatok. A statisztika, amely általában a világ mindössze 10% -ának része, relációs adatbázisokban volt. Most az egyik legfőbb oka az volt, hogy valójában nem volt szerkezetű, és így is volt - nagy része ott volt a weben, ám nagyon sok a különféle webhelyek. Ezek az adatok elemezhetőnek és felhasználhatónak is bizonyultak. És a Symantec technológia megjelenésével, amely fokozatosan kúszik a helyzetbe, egyre inkább egyre növekszik.Szükség van tehát a strukturálatlan adatok gyűjtésére és kezelésére, és ez azt jelenti, hogy sokkal nagyobb, mint korábban. Van olyan társadalmi adataink, amelyeket már említettem, de erről a lényeg, fő kérdés az, hogy valószínűleg tisztítást igényel.

Megvan a tárgyak internete adatai. Ez egyfajta másfajta helyzet. Valószínűleg ilyen sok lesz, de nagy részét el kell osztani valahol a futó hely közelében. De azt is szeretné, hogy valamilyen módon behúzza, hogy elvégezze az adatok elemzését a szervezeten belül. Szóval, ez hozzáadott egy újabb tényezőt. És az adatok eltérő módon lesznek felépítve, mert valószínűleg - valószínűleg JSON-ben vagy XML formátumban lesznek formázva, így kijelentik magukat. És nem csak, úgy vagy más módon, hogy ténylegesen behúzzuk az adatokat, és képesek vagyunk valamiféle sémát készíteni az adott adatra való olvasáskor.

Megvan a származási kérdés, és ez egy elemzési kérdés. Az adatok elemzésének eredményeit - ha úgy tetszik - valóban nem lehet jóváhagyni, érvényessé tenni, ha nem ismeri az adatok eredetét. Úgy értem, ez csak professzionalizmus az adattudósok tevékenysége szempontjából. De tudod, hogy az adatforrás megléte érdekében ez azt jelenti, hogy valójában az adatokat kell irányítanunk, és meg kell jegyeznünk annak származását.

Felmerül a számítógép-hatalom és a párhuzamok kérdése, és csak annyit tesz, hogy minden gyorsabban megy végbe. A probléma az, hogy nyilvánvalóan bizonyos folyamatok, amelyeket bevezetünk, túl lassúak lehetnek minden más számára. Tehát valószínűleg eltérések vannak a sebesség szempontjából.

Megvan a gépi tanulás. A gépi tanulásnak az a hatása, hogy az elemzés az eddigiektől eltérő játékgé válik. De igazán csak akkor tudja használni, ha megvan a hatalma.

Megtudtuk az új elemzési munkaterhelést. Van párhuzamos világunk, és néhány elemző algoritmust párhuzamosan kell végrehajtani a maximális hatás elérése érdekében. Ezért a probléma ténylegesen azt szabályozza, hogy Ön hogyan, vagy úgy, más módon tolja ki az adatokat, és tegye azokat rendelkezésre, ha rendelkezésre állnak. És ahol ténylegesen végrehajtja az analitikai munkaterheléseket, mert ezt valószínűleg az adatbázisban hajtja végre. Tehát lehet, hogy analitikus alkalmazásokon belül csinálja.

Tehát egy sor kormányzati kihívás van. Mit csináltunk ebben az évben - az a kutatás, amelyet ebben az évben végeztünk, valóban a nagy adat-architektúrán alapult. És amikor valóban megpróbáljuk általánosítani, akkor a következtetés, amellyel eljöttünk - a diagram, amelyre felvittünk, nagyon hasonlított.

Nem fogok belemenni ebbe, főleg mivel Mike méltó összeget fog tenni az elemzési adatok architektúrájára. De az a tény, amit szeretek, az embereknek csak arra összpontosítaniuk kell, az az alsó terület, ahol valamilyen módon vagyunk adatgyűjtéssel. Van valami, amelyre szeretnék hivatkozni, az adatfinomító vagy az adatfeldolgozó központ. És itt történik az irányítás. Tehát, tudod, ha valamiféle összpontosítunk, úgy néz ki. Tudod, hogy belső és külső forrásokból származó adatok táplálják. Az elosztó egységnek elméletileg az összes generált adatot kell vennie. Vagy adatfolyamként továbbítandónak és kezelhetőnek kell lennie, mivel akkor is, ha elemzésre és adatfolyamokra van szükség, majd továbbítani kell a központba. Vagy különben az egész a hubba kerül. És van egy sor dolog, ami folyik - azok is zajlanak a központban. És nincs bizonyos mennyiségű elemzés és SQL folyamatban a hubban. De szükség van az adatok virtualizációjára is minden cellában, hogy az adatokat más területekre továbbítsák. De mielőtt bármi megtörténne, ténylegesen úgy vagy úgy kell végeznie az adatok előkészítésének finomítását. Nevezheti adatkészítésnek. Ennél sokkal nagyobb. Szerintem ezek a dolgok.

Rendszer- és szolgáltatásmenedzsmentünk van bizonyos értelemben annak, hogy ez az adatréteg nagy része, akkor valójában minden olyan operációs rendszert alkalmazunk, amelyeket hagyományosan tettünk az operációs rendszer menedzsment terén, szinte minden operációs rendszerre. De egy vagy másik módon figyelemmel kell kísérnünk más dolgokat is, hogy megbizonyosodjunk arról, hogy ezek a különféle szolgáltatási szintek teljesülnek-e, mert kötelezően meghatározott szolgáltatási szinteket vagy bármilyen elemzést kell végrehajtani, vagy pedig a BI-adatok cselekedni.

Teljesítményfigyelésre és -menedzsmentre van szükségünk. Ha még valami másra van szükségünk, akkor tudnunk kell, hogy milyen további számítógépes erőforrásokat kell különféle időpontokban kiosztanunk. Ugyanakkor a munkaterhelés rettenetes része itt valójában meglehetősen összetett és egymással verseng az erőforrásokért. Van valami meglehetősen kifinomult, amit meg kell tenni ezen a területen.

Az adatok életciklusát most már olyan módon kaptuk meg, mint korábban még soha. Az itt szereplő üzlet valóban minden más felett és túlmutat, azelőtt, hogy nem gyűjtöttünk adatokat, és nem dobtuk el őket. Hajlattunk összegyűjteni a szükséges adatokat és valószínűleg megőriztük, majd archiváltuk. De rettentően sok, amit most fogunk csinálni, az adatok feltárása. És ha nem akarja az adatokat, akkor temessük el őket. Tehát az adatok életciklusai a helyzettől függően eltérőek, de rettenetesen sokkal több adatgyűjtés is lesznek. Ezért tudod, tudva, hogy honnan származik egy aggregátum, mi az ... ami az aggregáció forrása stb. És így tovább. Ez minden szükséges.

Az adat vonal természetesen kölcsönöz. Enélkül ismernie kell a problémákat, tehát az adatok… Tudnunk kell, hogy az adatok érvényesek, de mennyire megbízhatóak.

Megvannak az adatok leképezése is, mert valójában nagy mennyiségű adat lesz, valamilyen módon. És ez, ha úgy tetszik, ez bizonyos mértékig kapcsolódik az MDM-hez. Csak most, hogy sokkal bonyolultabb, mert ha szörnyű sok adatot megkap a JSON vagy az olvasott XML sémánk alapján, akkor valamilyen módon nagyon aktívnak kell lennie. folyamatban lévő adatképezési tevékenység.

Van egy metaadatkezelési helyzet, amely több, mint az MDM, mert egy vagy másik módon egy olyan metaadat-tárolót kell felépíteni, amelyre most gondolkodni szeretnék, mint mindent, ami érdekli. Metadatok vannak felfedezés, mert néhány adatnak nem feltétlenül kell metaadatát deklarálnia, és azonnal használni akarjuk. És aztán ott van az adatok tisztítása, ami óriási dolog, mint például, hogy milyen sorozatot végezhessenek el ott. És ott van az adatbiztonság is. Mindezeket az adatokat elfogadható szintre kell biztonságosítani, és ez bizonyos esetekben akár azt is jelenti, hogy például sok értéket titkosít.

Tehát, ez a munkaterhelés valójában a kormányzási birodalom. Mindezeknek, úgy vagy úgy, minden analitikai tevékenységünknek egyszerre vagy korábban kell folytatódnia. Ez nagy számú összehangolt alkalmazás. Ez egy önálló rendszer. És aztán azok, akik nem teszik ezt különböző időpontokban, szenvednek a hiánytól, ha előrehaladnak, mert ezeknek a dolgoknak a szörnyű része nem igazán választható. Csak növekvő entrópiával jár, ha nem teszed meg őket.

Tehát az adatanalitika és a kormányzás szempontjából azt mondanám, hogy valójában az egyik kéz mossa a másikot. Kormányzás nélkül az elemzés és a BI nem fog időben szédülni. Analitika és BI nélkül egyébként nincs szükség az adatok irányítására. Tehát a két dolog valóban kéz a kézben jár. Mint mondják a Közel-Keleten: "Az egyik kéz mossa a másikot." És ez valójában minden, amit el kell mondanom. Remélem - remélhetőleg most visszahoztuk Mike-t.

Eric: Igen. Mike, feltételezem, hogy ott vagy. Fel fogom tolni a csúszkáját.

Mike: Én vagyok. Oké, hallasz engem?

Eric: Igen, hallom. Csodálatosan hangzik. Szóval, hadd mutassam be ... És te most az előadó vagy. Elvenni.

Mike: Rendben, köszönöm! Jó reggelt, jó napot, jó estét mindenkinek odakint. Bocsáss meg a csuklás elején. Valamilyen okból elnémítottam magam, és láthattam mindenkit, de nem hallottak engem.

Rendben. Tehát, amit gyorsan meg akarok tenni, az a nagy adatok elemző ökoszisztémájáról szól. Ha kérdéseket szeretne feltenni nekem, akkor azt mondom, hogy ebben az ülésen vagy később itt megismerheti az elérhetőségeimet. Mint mondtam, az éjszaka közepén itt, az Egyesült Királyságban.

Nos, hadd menjek el arról, amiről szeretnék beszélni. Nyilvánvaló, hogy az elmúlt években mindenféle újfajta adat megjelenik, amelyet a vállalkozások most meg akarnak elemezni - mindent a kattintási adat adatoktól kezdve az online viselkedés megértéséig, a közösségi média adatait, amiről Eric beszélt a a program kezdete itt. Azt hiszem, Robin megemlítette a JSON-t, a BSON-t, az XML-t - tehát félig strukturált adatokat, amelyek önmagukat írják le. Természetesen egy csomó más anyagot is megkaptunk - mindent a strukturálatlan adatok, az IT infrastruktúra naplók és az érzékelők adatai alapján. Mindez a viszonylag új adatforrás, amelyre a vállalkozások most érdeklődtek, mivel értékes betekintést tartalmaz, amely potenciálisan elmélyítheti azt, amit tudunk.

Tehát ez alapvetően azt jelenti, hogy az analitikai táj túlment a hagyományos adattároláson. Még mindig strukturáljuk az adatokat a strukturált és többszerkezetű adatok kombinációjának világába, ahol a többszerkezetű adatok sok esetben a vállalkozás belsejéből vagy kívülről származhatnak. Ezen új adattípusok és az új elemzési igények eredményeként láttuk, hogy új analitikai munkaterhelések jelennek meg - mindent a mozgásban lévő adatok elemzésétől kezdve, amely a hagyományos adattárolási architektúrát valamilyen módon a fejére fordítja, ahol , a hagyományos körökben integrálja az adatokat, tisztítsa meg, átalakítsa, tárolja és elemezze. A mozgásban lévő adatok elemzésekor azonban az adatokat rögzítjük, integráljuk, előkészítjük elemzésükkel, majd tároljuk. Tehát folytatódik az adatok elemzése, mielőtt azokat bárhol tárolnák.

A strukturált adatok komplex elemzését végezzük el, talán a modellfejlesztés, a statisztikai és a prediktív modellfejlesztés szempontjából. Ez a tradicionális adattárolási helyiségben néhány ember számára újdonság. Megtaláltuk a modellek adatait. Ez a strukturált adatok mennyisége. Új munkaterheléseket kapott grafikus elemzés formájában, amely a pénzügyi szolgáltatásokat nyújtó ügyfeleim számára olyanokat is tartalmaz, mint a csalás. Ide tartozik a kiberbiztonság. Magában foglalja a közösségi hálózatokat, természetesen a befolyásoló tényezők és más dolgok megértését. Még el is jártam vele a menedzsmentben, van néhány éves grafikon elemzése.

Megvan az adatbázis adattárházának optimalizálása vagy az ETL feldolgozás kiiktatása, amely inkább egyfajta informatikai felhasználási eset, ezt a CIO finanszírozhatja. És még az adatok és az adattárházak archiválása, hogy online legyen az olyan dolgokban, mint a Hadoop. Tehát ezek az új elemzési terhelések új platformokat, új tárolóplatformokat hoztak létre az analitikai tájhoz. Tehát ahelyett, hogy tradicionális adattárházakkal vagy adatkártyákkal rendelkeznénk, a Hadoop már most megvan. Van olyan NoSQL adatbázisunk, mint például grafikon-adatbázisok, amelyeket gyakran használnak analitikai munkaterhelésekhez. Természetesen most már magunkról a Hadoopról, valamint egy NoSQL gráf-DBMS-ből is végezhetünk gráf-elemzést. Van olyan streaming elemzéseink, amelyeket Robin megemlített. És - ha úgy tetszik - modelleket készítünk, talán analitikus adatraktári készülékekre is. De mindez megnehezítette az analitikai környezetet, több platformon van szükség. És azt hiszem, hogy a front office-val vagy back office-nal rendelkező vállalkozások, vagy pénzügyi, beszerzési, HR és valamilyen művelet során kihívást kell találni, hogy mely analitikai projektek kapcsolódnak a hagyományos adattárolási jelenethez. És ha már tudta, hogy az analitikai projektek kapcsolódnak ezekhez az új nagy adatplatformokhoz, és hol kell futtatni, akkor tudja, mely analitikai munkaterhelés van, de ne felejtsd el az üzletet abban az értelemben, hogy ez van - most már látni fogod, hogy ez a nagy adatanalitikai projektek és hagyományos nagy adattárolási projektek, amelyekre együttesen szükség van az ügyfelek környékén vagy a műveletek körül, a kockázat, a pénzügy vagy a fenntarthatóság körüli erősítéshez. Ezért azt szeretnénk, ha mindezeket összehangolnánk stratégiai üzleti prioritásainkkal, hogy nyomon maradjunk, hogy tudjuk, benyomjuk azokat a tűket, amelyeket be kell tolni, tudjuk, hogy javítsuk az üzleti teljesítményt, csökkentsük a költségeket, kockázatok stb. csökkentése érdekében, tudod, a cégünk egészére nézve. Tehát nem az, hogy itt az egyik helyettesíti a másikot nagy adatokkal és a hagyományos megoldásokkal. Mindkettőt együtt használják. És ez drámai módon megváltoztatja az építészetet, tudod.

Tehát itt van egy viszonylag új architektúra, amelyet az ügyfelekkel fogok használni. És így, amint az alulról láthatjuk, az adatforrások hatalmas köre, nem csak többé strukturálva. Ezek közül néhány élő adatot közvetít, mint például érzékelők, mint például a piaci adatok, ez a fajta. Lehet, hogy élő kattintási adat is. Lehet, hogy élő video streaming adatok. Tehát nem kellett felépíteni. Tehát az adatok adatfolyam-feldolgozását automatikusan valós időben hajthatjuk végre, és az érdeklődő adatokat szűrhetjük és átadhatjuk egy vállalati információkezelő eszközbe, amely felhasználható az analitikus adattárolók kitöltésére. Hacsak nem látja a keverékben, most megvan a hagyományos adattárolás, Hadoop és NoSQL adatbázis. A keverékben is van mester adatkezelés. És ez nagyobb nyomást gyakorol az egész adatkezelő eszközkészletre, nemcsak az adattárak kitöltésére, hanem az adatok közötti áthelyezésre.

Ezen felül egyszerűsíteni kell a hozzáférési eszközöket. Nem csak fordulhatunk a felhasználóhoz, és azt mondhatjuk: "Szerezd meg ezeket az adattárakat, tartsd meg ezeket az API-kat - a te problémád". Amit meg kell tennie, az egyszerűsíti a hozzáférést. Így tehát az ottani szaggatott vonaloknál láthatja, hogy az adatok virtualizálása és optimalizálása elrejti a többszörös adattárolás összetettségét, próbálja meg megkönnyíteni a végfelhasználók számára ezt. És természetesen, te is van egy sor eszköz a tetején, tudod - minden, a hagyományos BI-eszközöktől kezdve, amelyek már az adatraktározás tetején kezdődnek, fokozatosan a diagram bal oldalán haladva, a Hadoops-hez való kapcsolódáshoz majd a világ NoSQL adatbázisai.

Megkérdeztük, hogy új bérleti szerződést kapunk-e az életre, különös tekintettel a testszerkezetű, nem strukturált adatokra, amelyeket gyakran a Hadoop-ban tárolunk. Van egyéni elemző alkalmazásunk, amelyet el kell végezni egy Hadoop platformon, a MapReduce segítségével, például a Spark keretrendszerrel. Van grafikus elemző eszközeink, amelyek, tudod, az ottani nagyon specifikus munkaterhelésekre összpontosítanak. Tehát az eszközök és az adatfolyamok sokkal összetettebbek. Ez már nem csupán egyirányú utca az adattárházban. Most természetesen a törzsadatok.

Új adatforrások érkeznek be, akár a NoSQL-ben is rögzítik, tudod, olyan adattárak, mint a MongoDB, mint a Cassandra, mint a HBase. Az adatokat közvetlenül a Hadoop-ba vittük, hogy ott végezzük elemzést és előkészítsük az adatokat. Új betekintést kaptunk a Hadoopból és az adattárházakból. Van archívumunk az adattárházakból a Hadoopba. Most adatcsatornákat kaptunk, tudod, a NoSQL adatbázisokhoz és adatlapokhoz is. Tehát, amit itt láthat, sokkal több tevékenység folyik az adatkezelés területén. És ez azt jelenti, hogy jelentős nyomást gyakorol az adatkezelő szoftverre. Ez már nem csak egyirányú utca. Ez kétirányú adatmozgás. Sokkal több tevékenység zajlik, ezért a méretezhetőség fontos az adatkezelő eszköz előtt és az adatforrás szempontjából is.

Tehát ez a diagram arra az építészetre vezet vissza, amelyet egy pillanattal ezelőtt említettem. Megmutatja az architektúra különböző részein futó különböző elemzési terheléseket. Mint a bal alsó sarokban, valós idejű adatfolyamokkal rendelkezik, az adatfolyam-feldolgozás folyamatban van, bármilyen élő adattárból jönnek ki adatok. Osztályanalízist végeztünk a NoSQL gráf adatbázisokban. Ez megtörténhet a Hadoop-on is. Például a Spark keretrendszer és az ott található GraphX segítségével kivizsgáló elemzéseket és adatfeldolgozót kaptunk, amelyről Robin beszélt a Hadoopban. Még mindig folyamatban van a hagyományos munkaterhelés, és az adattárolás, tudod, az energiafelhasználók statisztikai és prediktív modelleket építenek fel, talán az adattárház-készülékekre. És továbbra is megpróbáljuk egyszerűsíteni mindezt, hogy ez a végfelhasználók számára egyszerűbbé váljon.

Tehát a siker ezen egész rendszer körül nem csak az analitikai oldalról szól. Tudod, el tudjuk helyezni az analitikai platformokat, de ha nem tudjuk elfogni és bevenni, akkor tudjuk, nagy sebességű és nagy volumenű adatok, a skálán nincs sok értelme. Tudod, nincs semmi elemzésem. Tehát a nagy adatok elemzésének sikere szükségessé teszi az operációs rendszerek méretezését. Ez azt jelenti, hogy tudod, hogy új tranzakciók támogathatók legyenek, csúcsok. Tudod, minden olyan nem tranzakciós adat, amelyet ott rögzítenek, az új érkezési arányok nagyon, nagyon magas érkezési arányai lehetnek a nagysebességű adatokhoz, például érzékelőkhöz vagy bármilyen máshoz. Mindegyiknek képesnek kell lennünk arra, hogy ezt a fajta adatot összegyűjtsük és elemzésre behozzuk. Az elemzéseket maguknak is méretezniük kell, egyszerűsíteniük kell az adatokhoz való hozzáférést, amelyeket már említettem. És akkor kötsd össze. Tudod, vissza kell tudnunk finomítani ezeket az operációs rendszereket, hogy zárt hurkot tudjunk adni neki.

Tehát, a ház operatív oldalának méretezése az adatok rögzítéséhez, tudod, bekerül a NoSQL adatbázis világába. Úgy értem, itt látható a NoSQL adatbázis öt kategóriája. Ez a kategória úgy lesz modellezve, hogy a fenti négy másik kombinációja lesz. Általában véve tudod, hogy kulcsfontosságú értékei, tárolt dokumentumai és oszlopcsalád-adatbázisai vannak - az első három ott -, amelyek a fajta tranzakciós és nem tranzakciós adatokhoz használhatók.

Néhány olyan adatbázis, amely tulajdonságokat támogat; némelyikük nem. De ennek ellenére, tudod, látjuk azok bevezetését is, amelyek az ilyen alkalmazások méretezésére szolgálnak. És így például, mivel elmozdultunk attól, hogy csak a billentyűzettel tranzakciókat kezdeményező alkalmazottaktól az új ügyfelekkel és a tömegekkel új eszközöket használó munkatársak felé tegyük lehetővé. Óriási növekedést tapasztaltunk a vállalkozásokkal kötött tranzakciók számában. Tehát ehhez meg kell méretezni a tranzakciós alkalmazásokat.

Általánosságban elmondható, hogy ez elvégezhető NewSQL adatbázisokon, mint relációs adatbázis, mint például az itt bemutatott NuoDB és VoltDB. Vagy néhány NoSQL adatbázis, amelyek esetleg támogatják az ACID tulajdonságokat, amelyek garantálhatják a tranzakciók feldolgozását, játszhatnak. Ez vonatkozik a nem tranzakciós adatokra is, mint például a bevásárlókocsi adataira egy tranzakció előtt, tudod, mielőtt az emberek vásárolnak cuccokat, érzékelőadatokat, tudod, mivel elveszítjük az érzékelő leolvasását több millió millió érzékelő leolvasás között. Nem nagy dolog. Kattintások, tudod, a clickstream világban - ha egy kattintást használok, ez nem nagy ügy.Tehát, tudod, nem feltétlenül kell ott ACID tulajdonságokkal rendelkezni, és gyakran ott volt ott a NoSQL adatbázisok - éppen ez a képesség, hogy nagyon magas, helyes méretű feldolgozást végezzen az új típusú adatok elfogásához.

Ugyanakkor azt szeretnénk, hogy az elemzés méretarányos legyen. Tehát az adatoknak az adattárakból az analitikai platformokra vonása már nem fogja feltörni, mert az adatok túl nagyok. Mi valóban azt akarjuk, hogy az analitikát másik irányba, a vállalati adattárházba a Hadoopba toljuk, az adatfolyam feldolgozásáig, hogy az elemzést az adatokhoz tudjuk tolni. Ugyanakkor csak azért, mert valaki azt állítja, hogy az adatbázis-elemzésben vagy a Hadoop-elemzésben szerepel, ez nem feltétlenül jelenti az elemzés párhuzamos futtatását. És őszintén szólva, ha befektetni akar ezekbe az új, nagymértékben párhuzamosan skálázható technológiákba, mint például a Hadoop, mint például az adattárház-készülékek, és mi, mint például a fürtözött adatfolyam-feldolgozó motorok, szükségünk van az elemzésre, hogy párhuzamosan működjenek.

Szóval, ez csak a kijelentkezés. Tudod, ha rendelkezünk olyan elemzéssel, amely elősegíti az ügyfelek, a műveletek, a kockázatok stb. Előrejelzését, azt akarjuk, hogy azok párhuzamosan működjenek, ne csak a platformon működjenek. Mindkettőt akarjuk. És ez azért van, mert, tudod, a technológia olyan, mint ezek az új vizuális felfedező eszközök, például a SAS is. Valójában itt az egyik szponzorunk.

Az egyik dolog, amit az emberek szeretnének, legalább kihasználni a Hadoopban, majd az adatbázis-elemzésben szereplőket. És azt szeretnénk, ha azok párhuzamosan futnának, hogy képesek legyenek elérni a szükséges teljesítményt ilyen nagy adatmennyiségeknél. Ugyanakkor megpróbáljuk egyszerűsíteni mindezt. Tehát az SQL visszatért a napirenden. Tudod, az SQL - az SQL a Hadoop-on jelenleg forró. Jelenleg 19 SQL és Hadoop kezdeményezésben követem nyomon. Ráadásul láthatja, hogy ezeket az adatokat számos módon megszerezhetjük, így közvetlenül az SQL eléréséhez maga a Hadoop segítségével elindíthatjuk az SQL-t egy keresési indexbe. Ilyen módon, mint például, a keresési szolgáltatók azon a részén, SQL hozzáféréssel rendelkezhetünk az analitikus relációs adatbázisokhoz, amelyek rendelkeznek Excel táblákkal a Hadoophoz.

Most SQL hozzáféréssel rendelkezhetünk egy adat-virtualizációs szerverhez, amely maga is csatlakoztatható a Hadoop adattárházához. Még most is látom, hogy megjelenik az SQL hozzáférés az élő streaming adatokhoz. Tehát az SQL hozzáférése mindezekhez gyorsan növekszik. És a kihívás egy része csak azért van, mert az SQL hozzáférést ott értékesítik. A kérdés az, hogy az SQL képes-e foglalkozni komplex adatokkal? És ez nem feltétlenül egyértelmű. Mindenféle komplikáció van, ideértve azt is, hogy a JSON-adatok beágyazhatók voltak. Van sémaváltozat-rekordok. Tehát az első rekordnak van egy sémája. A második rekordnak más sémája van. Ezek a dolgok nagyon különböznek attól, ami egy relációs világban történik.

Tehát kérdéseket kell feltennünk azzal kapcsolatban, hogy milyen adatokkal próbáljuk elemezni, és milyen analitikai jellemzők vannak. Tudod, hogy panelt akar csinálni? Gépi tanulás? Grafikus elemzés? Meg tudod csinálni az SQL-ből? Tudod, vajon ez az SQL-ből elérhető? Hány párhuzamos felhasználónk van erre? Tudod, több száz párhuzamos felhasználónk van. Lehetséges-e komplex adatokon? Tudod, ezek a dolgok kulcsfontosságú kérdések. Tehát itt készítettem néhány listát, amelyeket véleményem szerint figyelembe kell vennie. Tudod, milyen fájlformátumok? Milyen adattípusokról beszélünk? Milyen analitikai funkciókat hívhatunk elő az SQL-ből, hogy összetett adatokat kapjunk? És a funkciók egyfajta párhuzamosan futnak. Úgy értem, párhuzamosan kell futniuk, ha tudnunk kell ezt méretezni. És csatlakozhatok-e ma a Hadoop adataihoz azon kívül, tudod, vagy az nem végrehajtható? És mit fogok csinálni ezekkel a különféle típusú lekérdezésekkel?

És amint látni fogjuk, tudod, amit láttam, sok különbség van az SQL és a Hadoop disztribúció között. Mindezeket követtem. És egyébként, ez tiszta SQL a Hadoop-on. Ez még az adat virtualizációt sem foglalja magában. És tehát nagyon sok odakinn és rengeteg hely a konszolidációhoz, ami szerintem a következő évben fog megtörténni, tizennyolc hónapon belül. Ugyanakkor megnyit egy másik dolgot is: az, hogy potenciálisan több SQL motor is lehet ugyanazon adatokkal a Hadoopban. És ez valami, amit viszonylag nem lehet megtenni.

Természetesen ez azt jelenti, hogy akkor tudnia kell, hogy milyen lekérdezési munkaterhelést futtatom? Futtassam ezt tételenként egy adott SQL-en a Hadoop kezdeményezésére? Interaktív lekérdezési munkaterheléseket kell futtatnom egy másik SQL-en keresztül a Hadoop kezdeményezésen stb., Hogy tudom, melyikhez csatlakozni? Ideális esetben természetesen ezt nem szabad megtennünk. Tudnod kellett volna egy kérdést feltenni róla. Tudod, néhány optimalizáló kitalálja, hogyan lehet ezt megtenni. De véleményem szerint még nem vagyunk teljesen ott.

Ennek ellenére az adat virtualizációnak, amelyet korábban említettem, nagyon fontos szerepe van a több adattárhoz való hozzáférés egyszerűsítésében. És ha új felismeréseket hozunk létre a Hadoopról, akkor valószínűleg valószínű, hogy például ezeket az adatokat az adatokhoz és a hagyományos adattárházakhoz az adatok virtualizációjával kapcsoljuk össze, anélkül, hogy szükségszerűen áthelyezzük az adatokat a Hadoopból a hagyományos adattárházakba. Természetesen megteheti azt is. Az is hihető, ha a hagyományos adattárházakból származó adatokat archiválom a Hadoopba. Még mindig megértem, és csatlakozhatok az adatok raktárunkban található dolgokhoz az adatok virtualizálásához. Tehát számomra úgy gondolom, hogy az adatok virtualizációjának nagy jövője van ebben az általános architektúrában, és megkönnyíti a hozzáférést ezekhez az adattárakhoz.

És ne felejtsük el, hogy amikor ezeket az új felismeréseket készítjük, legyen az akár relációs, akár NoSQL rendszerek, továbbra is szeretnénk visszavezetni ezeket a betekintést működésünkbe, hogy maximalizáljuk az általunk talált értéket, hogy kihasználja ezt a hatékonyabb, időszerűbb döntéseket ebben a környezetben az üzleti tevékenységünk optimalizálása érdekében.

Tehát, hogy befejezzük, akkor azt látom, hogy új adatforrásokra van szükségük, tudod. Új platformokat kaptunk egy bonyolultabb architektúrán, ha úgy tetszik, hogy kezeljük ezt. És a Hadoop nagyon, nagyon fontos, elegendővé válik az adatok előkészítéséhez folyékony homokozóinak, archív lekérdezésekhez, archívumokhoz az adattárházból, az adatkezelés, hogy szárnyaival szétszórja az adattároláson túl az adatok kezelését ezen platformok között, és új eszközöket kínáljon képes elemezni és hozzáférni az adatokhoz ezekben a környezetekben, méretezhető technológiákkal kell rendelkeznie az adatok jobb begyűjtése érdekében, és az analitikát úgy méretezheti, hogy azokat a platformokra nyomják, hogy azok párhuzamosabbak legyenek. És aztán remélhetőleg az egészhez való hozzáférés egyszerűsítésére is az újonnan megjelenő SQL révén. Szóval, elképzelést ad arról, hogy hová tartunk. Tehát ezzel visszamegyek, azt hiszem, Eric most?

Eric: Oké, ez fantasztikus. És az embereknek, azt kell mondanom, a Robin és Mike részéről, amit éppen kaptál, valószínűleg körülbelül annyira átfogó és tömör áttekintést ad a teljes tájról, egészen a pillantásig, ahogyan bárhol meg fogja találni. Hadd menjek előre, és sorba álljak először George Corugedo-ra. És ott van. Hadd veszem ezt egy pillanatra. Rendben, George, átadom neked a kulcsokat, és elviszem. A padló a tiéd.

George: Nagyszerű! Nagyon köszönöm, Eric, és köszönöm, Rob és Mike. Nagyszerű információ és sok minden, amit egyetértünk. Tehát visszatérve Robin beszélgetéséhez, mert, tudod, nem véletlen, hogy a RedPoint itt van, és a SAS itt van. Mivel a RedPoint, valóban az adatoldalára összpontosítunk a kormányzásra, az adatok feldolgozására és az analitikai felhasználásra való felkészülésre. Szóval, hadd csapkodjak át ezen a két dián. És valóban beszélni és felvetni Robin pontjáról az MDM-ről, és mennyire fontos, és mennyire hasznos, azt hiszem - és azt gondoljuk -, hogy a Hadoop lehet az MDM és az adatminőség világában.

Tudod, Robin egy kicsit arról beszélt, tudod, hogy ez hogyan kapcsolódik a vállalati adattárház világához, és én jövök - tudod, néhány évet töltöttem az Accenture-nél. És az az érdekes, hogy hányszor kellett bemennünk a vállalatokba, és megpróbálnunk kitalálni, mit tegyünk az alapvetően elhagyott adattárházakkal. És nagyon sokat történt azért, mert az adattárház csapata nem igazította igazán az építkezésüket az üzleti felhasználókhoz vagy az adatok fogyasztóihoz. Vagy csak annyira hosszú idő telt el, hogy a dolog felépítésének idejére az üzleti felhasználás vagy az üzleti indokok megváltoztak.

És az egyik dolog, amiben nagyon izgatott vagyok, az a gondolat, hogy a Hadoop-ot használjuk a törzsadatok kezelésére, az adatok minőségére és az adatok előkészítésére, az a tény, hogy bármikor visszatérhet az atomi adatokhoz egy Hadoop adattó vagy adattároló, vagy adattár, vagy hub, vagy bármilyen a használni kívánt zümm formátumot. De mivel ezt az atomi adatot mindig megőrzi, akkor mindig lehetősége van arra, hogy újra igazodjon az üzleti felhasználókhoz. Mivel elemzőként - mivel valójában statisztikusként kezdtem karrierem - tudod, semmi sem rosszabb, mint tudod, a vállalati adattárházak csodálatosak a jelentések készítéséhez, de ha igazán prediktív elemzéseket akarnak végezni, ők valójában nem olyan hasznos, mert valóban azt akarja, hogy a granulált viselkedési adatok összegyűjtsék és összegyűjtsék az adattárházat. Tehát, azt hiszem, ez tényleg egy fontos jellemző, és ez az egyik dolog, amelyben véleményem szerint nem értek egyet Robinnal, az, hogy személyesen a lehető leghosszabb ideig hagyom az adatokat az adat-tóban vagy az adatközpontban, mert mindaddig, amíg a az adatok vannak, és tiszta, az egyik irányból, a másik irányból megnézheti. Egyesítheti más adatokkal. Mindig lehetősége van arra, hogy visszatérjen ehhez a szerkezetátalakításhoz, majd igazítsa magát egy üzleti egységhez és annak szükségességéhez.

Az egyik másik érdekes dolog ebben az, hogy mivel ez egy olyan hatalmas számítási platform, sok munkaterhelésről, amiről beszéltünk, láthatjuk, hogy mindez egyenesen a Hadoopba érkezik. És bár azt hiszem, Mike az összes különféle technológiáról beszélt, amelyek a világon léteznek - az ilyen típusú nagy adatökoszisztémában azt gondoljuk, hogy a Hadoop valójában a munka lója annak a nagy léptéknek a végrehajtásához, amely számítástechnikailag intenzív feldolgozást végez, a törzsadatok és az adatok minősége megkövetelik. Mert ha meg tudod csinálni ott, akkor tudod, hogy csak az adatok drága adatbázisokból és a gazdaságos adatbázisokba történő áthelyezésének pusztán gazdaságossá válnak, ez valójában a nagyvállalatok körében való felhasználás nagy részét hajtja végre.

Most természetesen van néhány kihívás, ugye? A technológiák körül vannak kihívások. Sokuk nagyon éretlen. Azt mondanám, tudod, nem tudom hányat, de a Mike által említett számos technológia még mindig nulla ponton van - valami kiadásra kerül, ugye? Tehát ezek a technológiák nagyon fiatalok, nagyon éretlenek, még mindig kód-alapúak. És ez valóban kihívást jelent a vállalkozások számára. És valóban a vállalati szintű problémák megoldására összpontosítunk. És úgy gondoljuk, hogy más útnak is kell lennie, és ezért javasoljuk, hogy más dolgok másfajta módjai legyenek ezeknek a nagyon kialakuló technológiáknak a felhasználásával.

És így, és akkor a másik érdekes kérdés, amelyet már korábban említettünk, amikor az olyan adatokkal rendelkezik, amelyeket bármilyen típusú Hadoop-környezetben rögzít, általában az, hogy séma olvasásra, nem séma írásra néhány kivételtől eltekintve. És ezt az olvasást nagyon sokan a statisztikusok teszik. Tehát a statisztikusoknak olyan eszközökkel kell rendelkezniük, amelyek lehetővé teszik számukra az adatok megfelelő elemzését analitikai célokra, mivel a nap végén - az adatok hasznossá tétele érdekében - az adatokat valamilyen formában kell felépíteni, hogy megnézhessék vagy megválaszolhassák egy kérdést, vagy egy vállalkozás, valamilyen típusú vállalkozás, üzleti értéket teremt.

Tehát, ahol belépünk, az az, hogy nagyon széles körű és érett EPL, ELT adatminőségű főkulcs és menedzsment alkalmazásunk van. Sok-sok éve van a piacon. És az összes olyan funkcionalitással, vagy annak nagy részével, amelyet Robin felsorolt a kör alakú grafikonon - mindent a tiszta nyers adatgyűjtésből, a különféle formátumokban és az XML struktúrákban és az összes formában, a képességéig, hogy elvégezzen minden tisztítást, az adatok kitöltése, az adatok helyesbítése, az adatok földrajzi magbitjei. Ez a valami, ami manapság egyre fontosabbá válik a tárgyak internetével. Tudod, hogy a földrajzi helyek nagy részét összekapcsolják azzal, amit csinálunk, vagy ezen adatok nagy részéhez. És tehát az összes elemzés, tokenizálás, tisztítás, javítás, formázás, strukturálás stb. Mindez a platformon történik.

És akkor, és talán legfontosabbnak gondoljuk a deduplikáció gondolatát. Tudod, hogy ha a fő adatkezelés bármely definícióját megvizsgálja, akkor annak lényege, hogy a lényege a deduplikáció. Ez képes azonosítani az entitásokat a különböző adatforrások között, majd létrehozni egy törzsrekordot az adott entitáshoz. És az entitás lehet személy. Az entitás lehet például egy repülőgép része. Az entitás olyan étel lehet, mint amit az egészségklub egyik ügyfelének tettünk. Készítettünk egy mester-adatbázisokat számukra. Tehát, függetlenül attól, hogy mely entitásokkal dolgozunk - és természetesen egyre inkább vannak olyan emberek és identitásuk meghatalmazói, amelyek olyan dolgok, mint társadalmi fogantyúk vagy fiókok, bármilyen eszköz, amely az emberekkel társul, bizonyos dolgok, mint például autók és telefonok, és bármi más, amit elképzelhet.

Tudod, egy olyan ügyféllel dolgozunk, aki mindenféle érzékelőt felvesz a sportruházatba. Tehát, az adatok minden irányból származnak. És úgy vagy úgy, ez a mag entitásának tükröződése vagy ábrázolása. És egyre inkább az emberek és az a képesség, hogy meghatározzák az összes adatforrás közötti kapcsolatokat, és hogy azok hogyan kapcsolódnak az adott alap entitáshoz, és ezután képesek legyenek nyomon követni ezt a lényeges entitást, hogy elemezni tudják és megértsék az entitás közötti változásokat. és az összes többi elem, amely az adott entitás reprezentációiban szerepel, valóban kritikus például az emberek hosszú távú és longitudinális elemzése szempontjából. És ez valóban az egyik legfontosabb előnye, amely, szerintem, a nagy adatok elősegítik az emberek sokkal jobb megértését és hosszú távon az emberek megértését és az emberek megértését, valamint az emberek viselkedését, amikor valamilyen eszközön viselkednek stb. .

Tehát hadd menjek gyorsan ide. Eric megemlítette a fonalat. Tudod, csak egy pillanatra bedobom ezt, mert amíg a fonal - az emberek a fonalról beszélnek. Úgy gondolom, hogy még mindig sok a tudatlanság a YARN-ról. És nem sok ember valóban - még mindig sok félreértés van a FONÓval kapcsolatban. És az a tény, hogy ha az alkalmazásokat a megfelelő módon tervezték meg, és az alkalmazás architektúráján megfelelő szint vagy párhuzamosodás van, akkor kihasználhatja a YARN előnyeit, ha a Hadoop-ot használja méretezési platformként. És pontosan ezt tettük.

Ismét tudja, csak rámutatni a YARN körüli meghatározásokra. Számunkra a YARN valójában lehetővé tette számunkra, hogy más szervezetek is a MapReduce és a Spark, valamint az összes többi eszköz társaivá váljanak. De az a tény, hogy alkalmazásaink az optimalizált kódot közvetlenül a YARN-be a Hadoop-ba vezetik. És van egy igazán érdekes megjegyzés, amelyet Mike megemlített, mert tudod, hogy az elemzéssel és az elemzéssel kapcsolatos kérdés, csak azért, mert a klaszterben vannak, valóban párhuzamosan futnak? Ugyanazt a kérdést felteheti a rendelkezésre álló sok adatminőségi eszközről.

A nap nagy részében a rendelkezésre álló minőségi eszközöknek vagy ki kell távolítaniuk az adatokat, vagy be kell nyomniuk a kódot. És sok esetben ez egy egyetlen adatfolyam, amelyet feldolgozni kell, ahogy kell hasonlítsa össze a nyilvántartásokat, néha adatminőségű tevékenységek szerint. És az a tény, hogy mivel a YARN-t használjuk, képesek voltunk valóban kihasználni a párhuzamosítást.

És csak egy gyors áttekintés érdekében, mivel újabb megjegyzés szól annak fontosságáról, hogy kibővítsük a hagyományos adatbázisokat, új adatbázisokat stb., Amelyeket a fürtön kívül telepítünk vagy telepítünk. És a bináris fájlokat közvetlenül az erőforrás-kezelőbe, a YARN-be toljuk. És ezt, majd a YARN elosztja a fürt csomópontjai között. És ez az, hogy a FÉNY - megengedjük, hogy a Fonalak kezeljék és elvégezzék a munkájukat, azaz hogy kitalálják, hol vannak az adatok, és elvégzik az adatot, a kódot az adatokhoz, és nem mozgatják az adatokat. Amikor hallja az adatminőségi eszközöket, és azt mondják a bevált gyakorlatnak, hogy távolítsa el az adatokat a Hadoop-ból, futtassa az életét, mert éppen nem így van. A munkát az adatokhoz szeretné vinni. És ez az, amit a YARN csinál először. A bináris fájlokat a csomópontokra viszi, ahol az adatok találhatók.

És mivel a klaszteren kívül vagyunk, elérhetjük az összes hagyományos és relációs adatbázist, így olyan feladatokkal rendelkezhetünk, amelyek 100% -ban ügyfélkiszolgálóként szolgálnak egy hagyományos adatbázisban, 100% -ban Hadoop vagy hibrid jobok, amelyek átmennek a Hadoop klienskiszolgálón. , Oracle, Teradata - bármi is legyen, amit akar, és minden ugyanazon a munkánkban van, mert egy megvalósítás hozzáférhet a világ mindkét oldalához.

És azután, hogy visszatérünk az eszközök későbbi gondolatához, láthatjuk, ez csak egy egyszerű ábrázolás. És amit megpróbálunk egyszerűsíteni a világot. És úgy csináljuk, ha egy nagyon széles funkcionalitást hozunk a HDFS köré, hogy ez megtörténjen ... És nem azért van, mert megpróbáljuk kiküszöbölni az összes innovatív technológiát. Csak a vállalkozásoknak szükségük van stabilitásra, és nem szeretik a kód alapú megoldásokat. Tehát azt próbáljuk megtenni, hogy a vállalkozások számára ismerős, megismételhető, következetes alkalmazási környezetet biztosítsunk a vállalkozások számára, amely lehetővé teszi számukra az adatok kiszámítható módon történő felépítését és feldolgozását.

Gyorsan, ezt a hatást érjük el alkalmazásunkkal. Látja a MapReduce vs. Pig vs. RedPoint - nincs kódsor a RedPointban. Hat óra fejlesztés a MapReduce-n, három óra fejlesztés sertésnél és 15 perc fejlesztés a RedPoint-on. És itt valóban hatalmas hatással lehetünk. A feldolgozási idő szintén gyorsabb, de az emberek ideje, az emberek termelékenységi ideje jelentősen megnő.

És itt az utolsó csúszásomnál szeretnék visszatérni ehhez az ötlethez, mert ez az adat-tó vagy adatközpont, vagy egy adatfinomító használatát jelenti a fogyasztás központi pontjaként. Nem tudnék jobban egyetérteni ezzel az elképzeléssel. És jelenleg megbeszéléseket folytatunk a nagy globális bankok sok adatvezetőjével, és ez a választott architektúra.Az összes forrásból származó adatok beolvasása elvégzi az adatminőség feldolgozását és a fő adatkezelést az adattóban, majd az adatokat továbbítja oda, ahol szüksége van az alkalmazások támogatására, a BI támogatására, bármi is legyen az. És akkor, ha van elemzése a BI-ben, akkor közvetlenül az adat-tóban futhatnak, ahol még jobb, hogy azonnal elindulhatnak. De nagyon sok a gondolat. Ez a topológia itt az, ami az - hogy azt tapasztaljuk, hogy sok vonzerőt vonz a piac. És ez az.

Eric: Oké, jó. Menjünk jobbra itt. Megyek előre, és átadom Keithnek. És Keith, kb. 10, 12 perce van arra, hogy itt házat megrázza. Kell egy kicsit tovább mennünk ezekben a show-kban. És 70 percet hirdetettünk erre. Tehát csak menjen tovább, és kattintson bárhova a csúszdára, használja a lefelé mutató nyilat, és vegye el.

Keith: Persze. Nincs probléma, Eric. Értékelem ezt. Megyek, és csak néhány darabot ütök a SAS-ről, majd bemegyek, közvetlenül a technológiai architektúrákba, ahol a SAS keresztezi a nagy adatvilágot. Mindezen dolgokon sok minden magyarázható. Órákat tölthetnénk a részletek áttekintésével, de tíz perc alatt - el kell tudnunk menni egy rövid megértéssel, ha a SAS az analitika, az adatkezelés és az üzleti intelligencia technológiáit hozta ebbe a nagy adatvilágba.

Először csak egy kicsit a SAS-ről. Ha nem ismeri ezt a szervezetet, akkor az elmúlt 38 évben fejlett elemzést, üzleti intelligenciát és adatkezelést végeztünk, nemcsak nagy adatokkal, hanem kis adatokkal és adatgazdagsággal is az elmúlt 38 évben. Van egy hatalmas meglévő ügyfélkörünk, mintegy 75 000 helyszín van a világ minden tájáról, és működik néhány ott működő legfontosabb szervezettel. Mintegy 13 000 alkalmazottal és 3 milliárd dolláros bevétellel működő magánszervezet vagyunk. És valóban, azt hiszem, a fontos rész az, hogy hagyományosan régóta múltra tekint vissza, hogy jelentős összegű bevételt újból befektetünk a K + F szervezetünkbe, ami valóban sok ilyen csodálatos technológiát és platformot viselt magának, amelyet Ön " meglátogatom ma.

Szóval, bemegyek ezekbe az igazán ijesztő építészeti rajzokba. Balról jobbra dolgozunk a diáimban. Tehát vannak ismerős dolgok, amelyeket látni fogsz ezen a platformon. A bal oldalon az összes adatforrás, amelyről beszéltünk ezekbe a nagy adatplatformokba. És akkor megvan ez a nagy adatplatform.

Nem csak a Hadoop szót tettem oda a tetejére, mert végül a példák, amelyeket ma elmondok, kifejezetten az összes technológia köré épülnek, amelyekben találkozunk ezekkel a nagy adatplatformokkal. A Hadoop csak az egyik része, ahol a legszilárdságosabb telepítési lehetőségek közül választhatunk, de nagyon kevés kereszteződést is folytatunk, és sok ilyen technológiát fejlesztettünk ki egy ideje más vállalati adattárház-partnerrel, mint például a Teradata, Oracle, Pivotal és hasonlók. Tehát nem tudok részletesebben belemenni az abba, hogy az összes különböző technológiát melyik platformon támogatjuk, de biztos lehetek benne, hogy a manapság leírtak többnyire azok, amelyek Hadoop, és hatalmas részük keresztezi más technológiai partnereket, amelyek nekünk van. Tehát ott ülünk egy olyan nagy platformon.

A jobb oldalon jobbra található a SAS LASR Analytic Server. Ez lényegében óriási párhuzamosságot mutat a memóriaelemző alkalmazáskiszolgálón. Világossá válunk, hogy ez nem egy memóriában lévő adatbázis. Tényleg az alapoktól kezdve tervezték. Ez nem a lekérdező motor, hanem az analitikai igények tömeges és párhuzamos kiszolgálására szolgál. Szóval, ez a szolgáltatás kulcsfontosságú alkalmazás, amelyet a jobb oldalon látsz.

Kicsit jobban megismerjük, tudod, hogy az emberek hogyan telepítik ezeket a dolgokat. De lényegében az alkalmazás - látod ott - az első, a SAS nagy teljesítményű elemző eszköze. Így lesz - sok meglévő technológiánkat és platformokat használom, mint például az Enterprise Miner vagy csak a SAS, és nemcsak többszörös szalagra bocsátom azokat az algoritmusokat, amelyeket beépítettünk azokba az eszközökbe, amelyekre évekkel, de azért is, hogy azok tömegesen párhuzamosak legyenek. Tehát, az adatok áthelyezése ebből a nagy adatplatformból a memóriatérbe az adott LASR Analytic Server-re, hogy analitikus algoritmusokat hajtsunk végre - tudod, sok új gépi tanulás, idegháló, véletlenszerű erdővisszafordítás, ezek a fajta dolgok - megint az adatok a memóriában ülve. Tehát, megszabadulva attól a bizonyos MapReduce paradigma szűk keresztmetszettől, ahol lejuttatjuk ezeket a platformokat, nem így kell elvégezni az elemző munkát. Tehát azt akarjuk, hogy képesek legyenek egyszerre az adatokat a memóriatérbe emelni, és rajta keresztül tudni tudjuk, néha ezerszor is. Tehát ez a nagy teljesítményű elemző LASR szerver használatának fogalma.

Mi is - alatta levő többi alkalmazás, a vizuális elemzés, amely lehetővé teszi számunkra, hogy megőrizzük ezeket az adatokat a memóriában, és ugyanazon adatoknál nagyobb népességet szolgáljunk fel. Tehát, lehetővé téve az embereknek nagy adatkutatást. Tehát, mielőtt a modellfejlesztési munkáinkat elvégezzük, feltárjuk az adatokat, megértjük azokat, futtatjuk a korrelációkat, előrejelzéseket készítünk vagy trendfákat alakítunk ki - ilyen dolgok -, de nagyon vizuális, interaktív módon az emlékezetben ülő adatokkal kapcsolatban felület. Ez ugyanúgy szolgálja a BI közösségünket is, hogy nagyon széles felhasználói körrel rendelkezik, akik elérhetik ezt a platformot, hogy szokásos típusú felvételeket készítsenek, amit láttak - ezek általában tudják, a BI gyártók ott vannak.

A következő lépés, majd áthelyezzük a szolgáltatást. Segítünk statisztikusainknak és elemző embereinknek abban, hogy képesek legyenek ilyen típusú ad-hoc modellezésre, a memóriában ülő adatokkal, a vizuális elemzésből eltávolítva és a vizuális statisztikai alkalmazásunkba történő felfedezéshez. Ez lehetőséget kínál az emberek számára, hogy statisztikát ne futtassanak olyan tételekben, amelyek régen átjátszódtak, futtassák a modelleket, és megtekintsék az eredményeket. Tehát, hogy képes futtatni a modellt, lásd az eredményeket. Ennek célja az interaktív statisztikai modellezés vizuális vontatása. Tehát ez arra szolgálja statisztikusainkat és adattudóságainkat, hogy sokat tegyenek a korai feltáró vizuális statisztikai munkákból.

És akkor nem felejtettük el kódolóinkat - az emberek, akik valóban szeretnének, képesek lesznek megtépni a felület rétegeit szemben, alkalmazások írása és saját kódbázisuk írása a SAS-ben. És ez a mi memória-statisztikánk a Hadoop-ra vonatkozóan. És ez az - lényegében a kódréteg, amely lehetővé tette számunkra, hogy kapcsolatba léphessünk az Analytic LASR Serverrel, hogy közvetlenül parancsokat adjunk ki, és ezeket az alkalmazásokat testre szabjuk kérésünk alapján. Ez az elemző darab.

Hogyan készülnek ezek a dolgok ... Hoppá, sajnálom, srácok. Oda megyünk.

Tehát valóban van néhány módszer, ahogyan ezt megtesszük. Az egyik nagy adatokkal történik - ebben az esetben a Hadoopmal. És itt van az a SAS LASR Analytic Server, amely különálló gépcsoportban fut, amely a hardcore elemzéshez van optimalizálva. Ez fészkel, szép és közel van a nagy adatplatformhoz, lehetővé téve számunkra, hogy a nagy adatplatformtól elkülönítve méretezzük. Tehát látjuk, hogy az emberek ezt csinálják, amikor nem akarnak olyannak lenni, amit én jellemezek, mint amilyen a vámpírszoftver, amely a Hadoop klaszter minden csomópontjánál elfogyaszt. És nem feltétlenül méretezik azt a nagy adatplatformot, amely megfelelő a memóriában történő nehéz emelő elemzések elvégzéséhez. Tehát lehet, hogy 120 csomópontjuk van a Hadoop-fürtből, de lehet, hogy 16 olyan analitikus kiszolgáló csomópontja van, amelyeket az ilyen munkára terveztek.

Továbbra is fenntarthatjuk ezt a párhuzamosságot a nagy adatplatform segítségével az adatok memóriába vonásához. Tehát valóban egy SAS-t használ a Hadoop platformon. Egy másik kinevezési modell akkor azt jelenti, nos, ezt az áruplatformot is használhatjuk és továbbadhatjuk - lényegében az Analytic LASR Server futtatása a Hadoop platformon. Tehát itt vagyunk ... te a nagy adatplatformon belül működsz. Ugyanez a helyzet néhány más készülékgyártónkkal is. Tehát ez lehetővé tette számunkra, hogy alapvetően felhasználjuk azt az áruplatformot, hogy ezt a munkát elvégezzük.

Gyakran látjuk, hogy olyan dolgokkal, mint a nagy teljesítményű elemzés, ahol ez egyszemélyes vagy egyszeri felhasználású elemzési futtatás, több fajta kötegorientáció, ahol van - nem akarja, hogy a Hadoop memóriaterületét szükségszerűen felhasználja felület. Nagyon rugalmasak vagyunk az ilyen típusú telepítési modellnél, feltétlenül a YARN-szel végzett munkánkban sok ilyen esetben annak biztosítása érdekében, hogy szép klasztereket játsszunk.

Oké, tehát ez az analitikus világ, csak hogy tisztázzuk az elemző alkalmazást. De megemlítettem, hogy a SAS a legelején is adatkezelő platform. És vannak olyan dolgok, amelyek helyénvalóak a logikát arra a platformon beilleszteni. Szóval, néhány módon tudjuk ezt megtenni. Az egyik az adatintegrációs világban van, és az adatok átalakításával kapcsolatos munka elvégzéséhez valószínűleg nincs értelme visszavonni az adatokat, amint azt már korábban hallottuk, és nagy adatminőségi rutinok futtatása. Határozottan azt akarjuk, hogy az adatminőségi rutinok, például az adatminőségi rutinok, kerüljenek ebbe a platformon. És akkor olyan dolgok, mint a modell pontozása. Szóval, kidolgoztam a modellt. Nem akarom újraírni ezt a dolgot a MapReduce-ban, és megnehezíti és időigényesnek tartom, hogy újramunkáljam ezt a munkát a natív adatbázis-platformra.

Tehát, ha megnézzük például a Hadoop pontozási gyorsítóját, amely lehetővé teszi számunkra, hogy alapvetően egy modellt készítsünk, és a SAS matematikai logikáját toljuk be az adott Hadoop platformon, és ott végrehajtsuk, a párhuzamosság segítségével, amely abban a nagy adatplatformban található. Ezután megvan a kódgyorsítónk különféle platformokhoz, beleértve a Hadoop-ot is, és ez lehetővé teszi számunkra, hogy alapvetően tömegesen párhuzamosan futtassuk a SAS adat lépéskódját a platformon belül - tehát az adatok átalakításával kapcsolatos munkákat végezzünk a platformon. És akkor a SAS adatminőség-gyorsítónk, amely lehetővé teszi számunkra, hogy ott üljön egy olyan minőségi tudásbázis, amely képes például a nemek közötti egyezésre, a szabványosítási egyezési kódra - mindazokra az adatminőségi dolgokra, amelyeket már ma hallottál.

És utoljára, ott van a Data Loader. Tudjuk, hogy üzleti felhasználóinknak képesnek kell lenniük arra, hogy nem kell kódot írni, és az adatok átalakításán dolgozniuk kell ezekben a nagy adatplatformokban. Az Data Loader egy szép WYSIWYG GUI, amely lehetővé teszi számunkra, hogy ezeket a többi technológiát összecsomagoljuk. Ez olyan, mint egy átjáró varázsló, amely például mondhatnánk egy Kaptár lekérdezés futtatását vagy egy adatminőség-rutin futtatását, és ebben az esetben nem kell kódot írni.

Az utolsó dolog, amit megemlítek, ez az első darab. Ahogyan már említettem, egy hatalmas SAS lábunk van odakint a világon. És ezt nem feltétlenül tehetjük meg mindazon platformokat, amelyek ott vannak, hogy azonnal ott legyenek ebben a térben. Tehát határozottan van egy olyan felhasználói lábunk, akiknek adatot kell szerezni ezeken a nagy adatplatformokon ülve, például ki kell hozni az adatokat a Teradata adatról és vissza kell hozniuk a Hadoopba, és fordítva. A modellek futtatásakor már tudom, hogyan kell futtatni a SAS szervereimet, de be kell szereznem egy olyan adatot, amelyet most a Hadoop platformon helyeznek el. Tehát ott van ez a másik kis ikon, melynek neve "from", és amely lehetővé teszi számunkra, hogy a SAS hozzáférésű motorjainkkal csatlakozzunk - motorok elérése a Hadoop-hoz a Clola-hoz Polában, a Teradata-hoz, a Greenplum-hoz ... És a lista folytatódik. Ez lehetővé teszi számunkra, hogy felhasználjuk a már meglévő, érett SAS platformokat, hogy adatokat szerezzünk e platformoktól, elvégezzük a munkát, amelyre szükségünk van, és visszaszerezzük az eredményeket ezekre a területekre.

Az utolsó dolog, amit megemlítek, az, hogy ezeket a technológiákat mindegyik ugyanazon a szokásos közös metaadattal szabályozza. Tehát beszélünk arról, hogy megkapjuk a transzformációs munkát, az adatminőségi szabályt a munka során, az emlékezetbe helyezése, hogy képesek legyenek elemzésre, modellfejlesztés a pontozásban. Megvan a teljes analitikus életmód, az életciklusot közös metaadatok, irányítás, biztonság és mindazok a dolgok szabályozzák, amelyekről ma korábban beszéltünk.

Tehát, csak egy áttekintés, ott van valójában ez a három nagy dolog, amit el kell távolítani. Az egyik az, hogy az adatplatformot ugyanúgy kezelhetjük, mint bármely más adatforrást, húzhatunk tőlük, és nyomhatunk rájuk, amikor megfelelő és kényelmes. Ezeken a nagy adatplatformokon dolgozhatunk, és az adatokat egy célra épített, fejlett elemző csoportba sorolhatjuk a memóriaplatformon. Szóval, ez a LASR szerver.

És végül, közvetlenül ezekben a nagy adatplatformokban dolgozhatunk, kihasználva disztribúciós feldolgozási képességeiket anélkül, hogy az adatokat mozgatnánk.

Eric: Nos, fantasztikus cucc, emberek. Igen, ez remek! Tehát térjünk bele néhány kérdésbe. Ezekre az eseményekre általában körülbelül 70 percet vagy egy kicsit hosszabb időt töltünk. Tehát látom, hogy még mindig nagyszerű közönség ül odakint. George, azt hiszem, első kérdésünket átadom neked. Ha arról beszél, hogy a bináris hangot beilleszti a Hadoopba, azt hiszem, ez úgy hangzik, mintha valóban optimalizálta a számítási munkafolyamatot. És ez a teljes kulcsa annak érdekében, hogy képes legyen végrehajtani az ilyen típusú valós idejű adatkezelést, az adatminőségi stílussal kapcsolatos eredményeket, mert ezt az értéket szeretné megszerezni, igaz? Ha nem akarja visszatérni az MDM régi világába, ahol nagyon nehézkes és nagyon időigényes, és tényleg arra kell kényszerítenie az embereket, hogy bizonyos módon cselekedjenek, ami szinte soha nem működik. És tehát az, amit tettél, összehúzta annak ciklusát, ami volt. Hívjuk napoktól, hetektől, néha akár hónapoktól másodpercig is, ugye? Ez folyik itt?

George: Pontosan így van, mert a kapott skála és a teljesítmény, amelyet kikerülünk a klaszterből, valóban megdöbbentő, csak tudod, mindig kicsit vonakodok a referenciaértékektől. De csak nagyságrend szerint, amikor egy milliárd, 1,2 milliárd rekordot futtatnánk, és teljes cím-szabványosítást végeznénk - mondom, hogy a HP középkategóriás gépe -, úgy lenne szükség, mint nyolc processzorgép, tudod , Magánként 2 gig RAM, tudod, hogy 20 órát kell futtatni. Körülbelül nyolc perc alatt meg tudjuk csinálni egy, tudod, 12 csomópontú fürtön. Tehát a feldolgozás mértéke, amelyet most megtehetünk, annyira drámai módon különbözik egymástól, és nagyon jól megy azzal a gondolattal, hogy minden ilyen adat áll a rendelkezésére. Tehát a feldolgozás nem olyan kockázatos. Ha rosszul csináltad, akkor újracsinálhatod. Van időd, tudod. Ez valóban megváltoztatta ennek mértékét, amikor, tudod, az ilyen típusú kockázatok valóban üzleti problémákká váltak az emberek számára, amikor az MDM megoldásokat próbálták működtetni. 30 embernek kell lennie offshore-ban adatkezeléssel, és mindent meg kell tennie. És így, ennek is rendelkeznie kell valamivel, de a sebesség és a skála, amellyel most meg tudja dolgozni, valóban sokkal több légzést nyújt.

Eric: Igen, ez egy nagyon-nagyon jó pont. Imádom ezt a megjegyzést. Tehát van ideje újra megismételni. Fantasztikus.

George: Igen.

Eric: Nos, megváltoztatja a dinamikát, igaz? Ez megváltoztatja, hogyan gondolkodik azon, amit kipróbálni fog. Úgy értem, emlékszem erre a 18 évvel ezelőtt az iparban, ahol speciális effektusokat készít, mert volt egy ügyfelem, aki abban a térben volt. És megnyomnád a gombokat a megjelenítéshez, és hazamennél. És talán szombat délután jöttél vissza, hogy megnézhesd, hogyan ment. De ha tévedted, akkor ez nagyon-nagyon fájdalmas volt. És most már nem is közel áll - még csak nem is annyira fájdalmas, hogy lehetősége van további dolgok kipróbálására. Azt kell mondanom, hogy ez egy nagyon-nagyon jó pont.

George: Pontosan így van. Igen, és fújd a lábad. Tudod, a régi időkben félúton haladsz egy munkával, és ez kudarcot vall, megfújta az SOS-t. Ez az.

Eric: Igaz. És nagy bajban vagy, igen. Úgy van.

George: Így van. Úgy van.

Eric: Keith, hadd dobjak egyet neked. Emlékszem, hogy interjút készítettem a CIL-szel, Keith Collins-szel, azt hiszem, hátulról, azt hiszem, talán 2011-re. És sokat beszélt arról az irányról, amelyet a SAS kifejezetten az ügyfelekkel való együttműködés terén tett annak érdekében, hogy az SAS-ből származó elemzést beágyazza az operációs rendszerekbe. És természetesen hallottuk Mike Fergusont az emlékezés fontosságáról. A lényeg az, hogy azt akarja, hogy ezeket a dolgokat összekapcsolhassa a műveleteivel. Nem akarja, hogy az elemzés vákuumban legyen elválasztva a vállalattól. Semmi érték.

Ha olyan elemzést szeretne, amely közvetlenül befolyásolhatja és optimalizálhatja a műveleteket. És ha visszatekintök - és azt kell mondanom, akkor azt gondoltam, hogy ez jó ötlet -, utólag remekül, valóban okos ötletnek tűnik. És azt hiszem, ez egy igazi előnye, mely srácoknak van. És természetesen ez a nagy örökség, ez a hatalmas telepítőalap, és az a tény, hogy arra összpontosítottál, hogy ezeket az elemzéseket beágyazza az operációs rendszerekbe, ami azt jelenti, hogy most - és biztos, hogy működni fog - biztos vagyok benne, hogy ' elég keményen dolgoztam rajta. De most már felhasználhatja ezeket az új innovációkat, és valóban abban rejlik, hogy képes-e ezeket a dolgokat ügyfeleivel operacionalizálni. Ez tisztességes értékelés?

Keith: Igen, teljesen. A koncepció az, hogy megkapja ezt a döntéstervezési vagy döntéstudományi elképzelést, amely, tudod, bizonyos mértékig felfedező, tudományos jellegű. Hacsak nem tudja megtervezni a folyamatot annak érdekében, hogy valóban… Ha egy autó fejlesztésén gondolkodik, megvannak a tervezői, akik ezt a gyönyörű autót készítik, de csak addig, amíg a mérnökök nem készítik el ezt a tervet, és előtte készítnek valódi életképes terméket. valójában képes a dolgokat a helyére tenni, és alapvetően ez az, amit a SAS tett. Összevonta a döntéseket - a döntés-tervezési folyamatot a döntéshozatali folyamattal -, hogy amikor a gyorsítókról, különösen a pontozási gyorsítókról beszélünk, akkor tudod, hogy ha kidolgoz egy modellt, amelyet kifejlesztettek, és képes lesz arra, hogy azt kibújtassa a Teradata felé, vagy tolja ki az Oracle vagy a Hadoop felé, a modellezéshez nulla állásidővel, a modell telepítéséhez. Ez kulcsfontosságú, mivel a modellek idővel romlanak, a modellek pontossága. Tehát minél hosszabb időt vesz igénybe ez, és a gyártásba helyezi, az a modell pontosságának csökkenését eredményezi.

És akkor a másik rész az, hogy képes lesz arra, hogy figyelemmel kísérje és irányítsa ezt a folyamatot az idő múlásával. Értékeld az modelleket, amikor öregednek és pontatlanok. Nézze meg, ellenőrizze pontosságát az idő múlásával, és újraépítse őket. És tehát olyan modellkezelő eszközök is vannak, amelyek felül is ülnek, amelyek valóban nyomon követik a metaadatokat a modellezett folyamat körül. És az emberek azt mondták, hogy a modellezés, tudod, ez a fajta koncepció olyan, mint egy modellgyár, vagy bármi más, amit meg akarnak nevezni. A helyzet az, hogy folyamatban van a metaadatok és a menedzsment, és itt áll a három nagy dolog, amelyet megütünk - segítünk az embereknek pénzt keresni, pénzt megtakarítani és a börtönből tartva őket.

Eric: Az utóbbi is elég nagy. Mindent el akarok kerülni. Tehát beszéljünk ...Felteszek egy utolsó kérdést, talán mindkettőjében ugrálhatsz erre. Úgy tűnik számomra, hogy világunk heterogenitása csak növekszik. Azt hiszem, határozottan megfigyelhetjük a kristályosodást a hibrid felhőkörnyezetek körül. De annak ellenére, látni fogja, hogy sok fő szereplő ragaszkodik körül. Az IBM nem megy sehova. Az Oracle nem megy sehova. Az SAP nem megy sehova. És olyan sok más gyártó vesz részt ebben a játékban.

Ezenkívül az operatív oldalon is, ahol szó szerint több ezer és több ezer különféle alkalmazás van. És hallottam - többségük erről beszél, de szerintem mindketten egyetértenek azzal, amit mondtam. Ezt a tendenciát most már láthatjuk az analitikus motorok, az építészet éppen a számítási teljesítmény szempontjából. A cégek már évek óta beszélnek arról, hogy képesek lesznek bekapcsolni a többi motort is, és kiszolgálni egyfajta hangzási pontot. És azt hiszem, George, először neked dobom. Számomra úgy tűnik, hogy ez valami, ami nem fog megváltozni. Ez a heterogén környezet lesz, ami azt jelenti, hogy vannak olyan dolgok, mint a valós idejű CRM, az adatminőség és az adatkezelés. Szállítóként kell kezelnie a kapcsolatot ezekkel a különféle eszközökkel. És ezt akarják az ügyfelek. Nem akarnak valamit, ami rendben van ezekkel az eszközökkel, és nem olyan rendben azokkal az eszközökkel. Azt akarják, hogy az MDM és a CRM Svájcban legyen, nem?

George: Így van. És érdekes, mert ezt nagyon is átfogtuk. Ennek részét képezi a történelem, amelyet az űrben volt. És természetesen már dolgoztunk az összes többi adatbázison, a Teradatason és a világ darabjain. Aztán - a végrehajtási folyamatban, pontosan úgy, ahogyan tettük, csak úgy, hogy megkapja - megvan az a kiterjedése ezen különféle adatbázisok között. Az egyik dolog, ami érdekesnek tartom, hogy van olyan ügyfeleink, akik csak pokolra hajlanak az összes relációs adatbázisok megszüntetésére. És ez érdekes. Tudod, úgy értem, jól van. Érdekes. De nem látom, hogy ez valóban nagyvállalati szinten történjen. Nem látom, hogy ez hosszú ideig zajlik. Tehát azt hiszem, hogy a hibrid itt van jó ideje, és alkalmazásunk másik oldalán, ahol kampánykezelési platformon van üzenetküldő platformunk. Valójában kifejezetten azt terveztük. Megjelent egy olyan verzió, amely ezt megteszi, és amely most csatlakozhat a hibrid adatkörnyezethez, és lekérdezheti a Hadoop-ot, vagy lekérdezhet bármilyen adatbázist, bármilyen elemző adatbázist. Szóval, azt hiszem, ez csak a jövő hulláma. És egyetértek azzal, hogy a virtualizáció minden bizonnyal nagy szerepet játszik ebben, de mi csak mi vagyunk - minden alkalmazásunk adatait megkapjuk.

Eric: Oké, nagyszerű. És Keith, átadom neked. Mit gondolsz a heterogén világról, amelyben szembe kell néznünk egyfajta lábként?

Keith: Igen, ez nagyon izgalmas. Úgy gondolom, hogy még többet találunk - nem csak a dolgok adatkezelési oldalán -, de jelenleg igazán izgalmas az elemzési alap nyílt forrású jellege. Tehát látunk olyan szervezeteket vagy hasonló technológiákat, mint például a Spark, és a Python és R, valamint az összes többi nyílt forrású technológiát használó embereket. Úgy gondolom, hogy bizonyos mértékig konfliktusként vagy fenyegetésként értelmezhető. De a valóság az, hogy van néhány igazán csodálatos bókunk a nyílt forráskódú technológiákkal. Egyrészt azt értem, hogy Isten szerelmére a nyílt forráskódú platformon működünk.

De az is, hogy például az R modell integrálható a SAS paradigmájába, lehetővé teszi mindkét világ legjobbjának a felhasználását, igaz? Tehát, tehát tudjuk, hogy az akadémiai világban a kísérleti dolgok és a modellfejlesztési munkák egy része rendkívüli és rendkívül hasznos a modellfejlesztési folyamatban. De ha össze is párosíthatja egy gyártási osztályú szerszámmal, akkor sok a tisztítás és a minőség, valamint ellenőrzi és megbizonyosodik arról, hogy a modellbe beadott adatok vannak-e, megfelelően előkészítve, így nem hibás végrehajtáskor. És ezután képesek megtenni a bajnok kihívó modelljeit nyílt forrású modellekkel. Ezeket a dolgokat vizsgáljuk meg, amelyek lehetővé teszik, és ezen technológiák valóban heterogén ökoszisztéma részeként. Igen, így van még - számunkra inkább arról szól, hogy átöleljük ezeket a technológiákat és keresjük a bókokat.

Eric: Nos, fantasztikus dolgok voltak, emberek. Kicsit tovább mentünk ide, de szeretnénk minél több kérdést feltenni. A Q & A fájlt ma továbbítjuk előadóinknak. Tehát, ha a feltett kérdésre nem sikerült válaszolni, akkor ellenőrizni fogjuk, hogy válaszol-e. És az emberek, ez becsomagolja 2014-re. Tisztelettel a holnap és a jövő héten a DM Rádióban, és elkészült minden, és ez egy ünnepi szünet.

Nagyon köszönöm mindenkinek az idejét és a figyelmét, hogy áttekinted ezeket a csodálatos internetes közvetítéseket. Nagyszerű évünk van a 2015. évre. És hamarosan beszélünk veled, emberek. Köszönöm mégegyszer. Vigyázunk. Viszlát.