Adatkatalógusok és a gépi tanulás piacának érése

Tartalom

Az infonómia imperatív
Nincsenek hibák, nincs stressz - Az Ön életét megváltoztató szoftverek készítésének lépésről lépésre történő leírása az élet megsemmisítése nélkül
Milyen adatkatalógusok tehetők a vállalkozások számára?
Hozzáadás a gépi tanuláshoz
Hogyan válasszuk ki

Forrás: Nmedia / Dreamstime.com

Elvitel:

Az MLDC piaca növekszik, és azoknak a vállalkozásoknak, amelyek a gépi tanulással hatékonyan tudják kiaknázni a nagy adatokat, tisztában kell lenniük a terepi vezető nevekkel és az egyéni rangsorolással.

Ez a nagy adatok kora. Elmerülünk az információkkal, és a vállalkozások számára kihívást jelent az érték kezelése és kinyerése.

A mai nagy adatmennyiség nemcsak a mennyiséget, a változatosságot és a sebességet, hanem a bonyolultságot is magában foglalja. Ahogyan azt a SAS a Big Data History és az aktuális szempontok alapján megállapította, ez a "több forrásból származó adatfolyam tényezője, amely megnehezíti az adatok összekapcsolását, összehangolását, tisztítását és átalakítását a rendszerek között". (Szeretne többet megtudni a nagy adatokról? Nézze meg a (Nagy) Datas Big Future-t.)

Az értékes információk megismerése nemcsak a lehető legtöbb adat felhalmozása, hanem a megfelelő adatok megtalálásának kérdése. Lehetetlen mindent manuális folyamatokkal megbirkózni. Éppen ezért egyre több vállalkozás fordul adatkatalógusokhoz az adatokhoz való hozzáférés demokratizálásához, a törzsi adatok ismeretének lehetővé tételéhez, hogy az információkat összegyűjtsék, alkalmazzák az adatpolitikákat, és az összes adatot gyorsan aktiválják az üzleti érték érdekében.

A képen itt jelennek meg az adatkatalógusok (más néven információkatalógusok). Az itt meghatározottak szerint felhatalmazzák a felhasználókat, hogy feltárják a szükséges adatforrásaikat és megértsék a feltárt adatforrásokat, és ugyanakkor segítenek a szervezeteknek abban, hogy jelenlegi beruházásaikkal nagyobb értéket érjenek el. Ennek egyik módja az, hogy sokkal nagyobb hozzáférést biztosít az adatokhoz, különféle típusú felhasználók között, akik felhasználhatják vagy hozzájárulhatnak az adatokhoz.

Az infonómia imperatív

Megállapítva, hogy 2017 végén drasztikusan megnőtt az adatkatalógusok iránti igény, Gartner "az új fekete" -nek nevezte őket. Egyre gyorsabb és gazdaságosabb megoldásként elismerték őket "a szervezetek egyre szélesebb körben elosztott és rendezetlen adatainak nyilvántartására és osztályozására, valamint az információszolgáltatási láncok feltérképezésére". Ennek szükségessége az „infonomika” megjelenése miatt merült fel, amely ugyanolyan aprólékosságot igényel az információkövetéshez, mint az egyéb üzleti eszközök kezelése. (Az ellátási láncokkal kapcsolatos további információkért lásd: Hogyan javíthatja a gépi tanulás az ellátási lánc hatékonyságát.)

A harcosok a Forrester Wave ™ készülékkel: Machine Learning Data Catalogs, 2018. második negyedév. A jelentésben szereplő felmérés résztvevőinek több mint fele elmondta, hogy tervezi az adatkatalógus megvalósításának felépítését. Valószínűleg őket nagymértékben motiválta az a tény, hogy mindegyiknek legalább hét adattó volt a szervezetében. Amint azt a Gartner az adatkatalógusok felismerésével magyarázza, az adatkatalógusok különösen hasznosak az "adatok tartalmának, jelentésének és értékének" kihúzásakor, amelyet általában egy besorolhatatlan formában hagynak el egy adattóban.

A Forrester jelentése szerint az adat- és elemzési döntéshozók több mint egyharmada 1000 TB-nál vagy annál több adatgal foglalkozott 2017-ben, az előző évben csupán 10–14% -ot jelentettek. Az adatok ilyen méretű kezelése egyre nagyobb kihívás, vagy kifejezetten két kihívás:

"1) a meglévő üzleti folyamatok összevonása az adatok forrására az elemzés és az észlelések megvalósítása érdekében; 2) az adatok forrása, összegyűjtése, kezelése és kezelése az adatok növekedésével."

Nincsenek hibák, nincs stressz - Az Ön életét megváltoztató szoftverek készítésének lépésről lépésre történő leírása az élet megsemmisítése nélkül

Nem javíthatja a programozási képességeit, ha senki sem törődik a szoftver minőségével.

Milyen adatkatalógusok tehetők a vállalkozások számára?

A Gartner konkrét módszereket határoz meg, amelyekkel az adatkatalógusok javíthatják a szervezetek információáramlását és termelékenységét:

A szervezet számára elérhető legfrissebb információs eszközleltár összegyűjtése és kommunikálása.
Az üzleti kifejezések közös szótárának elkészítése, amely meghatározza a szervezeti adatok szemantikai értelmezését és jelentését, ezáltal biztosítva az eszközöket a definíciós következetlenségek közvetítéséhez és megoldásához.
Dinamikus és agilis együttműködési környezet lehetővé tétele az üzleti és informatikai kollégák számára az adatok kommentálására, dokumentálására és megosztására.
Az adathasználat átláthatóságának biztosítása a vonal és hatáselemzéssel.
Az adatok felügyelete, ellenőrzése és nyomon követése az információkezelési folyamatok támogatása érdekében.
Metaadatok rögzítése az adatok felhasználásának és újrafelhasználásának belső elemzésének, a lekérdezés optimalizálásának és az adatok tanúsításának javítása érdekében.
Információk csoportosítása az üzleti felhasználás során azáltal, hogy rögzíti, továbbítja és elemzi az létező adatokat, honnan származik, milyen hátrányaiban használják, miért van szükségük, hogyan áramlik a folyamatok és rendszerek között, ki felelõs érte, mit jelent és milyen értéke van.

Fontos az adatok megfelelő azonosítása és a szervezet kulcsfontosságú személyei számára elérhetővé tétele - mondja a Gartner-jelentés, nemcsak azért, hogy megtalálják az utat az „adatforrások pénzbeli felhasználása a digitális üzleti eredmények érdekében”, hanem azért is, hogy megfeleljenek a rendeleteknek, függetlenül attól, hogy iparági jellegűek-e. különösképp, mint például az egészségbiztosítás hordozhatóságáról és elszámoltathatóságáról szóló törvény (HIPAA), vagy általánosabb jellegű, például az általános adatvédelmi rendelet (GDPR).

Hozzáadás a gépi tanuláshoz

De semmi nincs hátrányai nélkül. Az adatkatalógusok esetében a probléma a lassú és fárasztó folyamat volt, melynek során manuálisan összeállítottuk azokat a metaadatokkal, amelyeket be kell helyezni. Itt jön be a gépi tanulási elem.

Az adatkatalógusokat, amelyeket a Forrester értékelt, MLDC-knek hívják, mivel kihasználják a gépi tanulás erejét, az AI egyik elemét. Ahogyan azt a Podium Data blog elmagyarázta, ez lehetővé teszi "állandó metaadatok tárházának felépítését, majd az ML / AI alkalmazását a vadászgörény kiépítéséhez és a mögöttes adatforrásokkal kapcsolatos potenciálisan hasznos betekintés feltárásához".

Hogyan válasszuk ki

Annak érdekében, hogy a szervezetek felmérjék, melyik vállalkozást kell kiválasztani, a Forrester 29 értékelési pontot alkalmazott a top 12 MLDC-hez. A piac vezetőit azonosította: IBM, Relito, Unifi Software, Alation és Collibra. Az erős előadók, amelyeket találtak, az Informatica, az Oracle, a Waterline Data, az Infogix, a Cambridge Semantics és a Cloudera. Hortonworks egyedül áll a "versenyző" rangjában.

Nem szabad azonban csak az általános rangsoron túl menni. A jelentés lebontja mindegyik sajátos erősségeit és gyengeségeit. Ennek megfelelően, ha egy adott tulajdonság, mint például a kutatás és fejlesztés, kiemelkedően fontos egy szervezet számára, akkor úgy tekintheti, hogy a Hortonworks azonos az IBM és a Colilbra egyenlőségével ebben a vonatkozásban, mivel ezeknek a hármasoknak ugyanazon a minőségnél az öt legjobb pontszáma oszlik meg, amely két ponttal jobb, mint Alation és Coloudera, és négy ponttal jobb, mint a Cambridge Semantics.

Ennek megfelelően a Forrester jelentés azt tanácsolja azoknak, akik a jelentést útmutatásként használják, hogy ne gondolják, hogy a legmagasabb rangú társaság mindenki számára a legjobb választás. Nagy figyelmet kell fordítaniuk az értékelés bontására, hogy megtalálják, mi felel meg sajátos igényeiknek.