Mennyire strukturált az adatai? Strukturált, nem strukturált és félig strukturált adatok vizsgálata

Szerző: Roger Morrison
A Teremtés Dátuma: 25 Szeptember 2021
Frissítés Dátuma: 11 Lehet 2024
Anonim
Mennyire strukturált az adatai? Strukturált, nem strukturált és félig strukturált adatok vizsgálata - Technológia
Mennyire strukturált az adatai? Strukturált, nem strukturált és félig strukturált adatok vizsgálata - Technológia

Tartalom



Forrás: monsitj / iStockphoto

Elvitel:

Ismerje meg a strukturált, strukturálatlan és félig strukturált adatokat.

A történelem során az elemző elemzők csak egy adattípusból tudtak dekódolni és kinyerni az információkat: a strukturált adatokból. Az ilyen típusú adatok könnyen áttekinthetőek voltak, mert világos mintáik voltak, ám a rendelkezésre álló adatok kis százalékát képviselték.

A nem strukturált adatok között szerepelt a videó, a hang, a fájlok, valamint a közösségi médiából és a mobil eszközökről származó adatok. A kezét tekintve a rendelkezésre álló legnagyobb nyers információtartalék volt, mégsem tudta ezt az erőforrást megbízhatóan felhasználni.


A dolgok azonban megváltoztak, mivel a megnövekedett tárolási lehetőségek és a kiváló feldolgozási képességek strukturálatlan adatanalitikát hoztak létre - ez egy új, így éretlen technológia. A jobb üzleti intelligencia teljes mértékben kihasználja ezt a lehetőséget, és jelentős beruházások történnek a strukturált és strukturálatlan adatanalitika összesítése érdekében, hogy elérjék ezt a látszólag végtelen információt.

Nézzük meg ezt a két adatformátumot, hogy megértsük a különbségeket, és hogy mi áll a jövőben az összes elemző számára.

Mi a strukturált adat?

A strukturált adatok emberi vagy gép által generált és jól szervezett információk, amelyeket könnyen tárolhatunk soros adatbázis-struktúrákban, amelyeket relációs adatbázisoknak (RDB-k) nevezünk. Bármi olyan létezik olyan formátumban, amelyet könnyen rögzíthető, tárolható és rendezhető egy RDB struktúrában, hogy később elemezhető legyen. (Ha többet szeretne tudni az adatbázisokról, olvassa el az adatbázisok bevezető részét.)


Ilyenek például a irányítószámok, telefonszámok és a felhasználói demográfiai adatok, például a kor vagy a nem. Az ezekben az adatbázisokban található adatok lekérdezhetők az SQL (strukturált lekérdezési nyelv) vagy a VLOOKUP függvényekkel az Excel táblázatokban. Algoritmusok készíthetők a különböző mezőkben található adatok gyors kereséséhez az indexek, illetve numerikus és ábécé adatai alapján. Az összes adatot szigorúan meghatározzák a mező típusa és neve alapján, és így bizonyos mértékben korlátozott az adatok tárolására, lekérdezésére és elemzésére való képesség.

A strukturált adatokat használó tipikus alkalmazások közé tartozik a kórházkezelő szoftver, az ügyfélkapcsolat-kezelő (CRM) alkalmazások és a légitársaságok foglalási rendszerei. Rendes felépítése és könnyű hozzáférhetősége miatt a strukturált adatok hasznosak és hatékonyak nagy mennyiségű információ kezelésekor. Az emberiség számára a végtelen adatmennyiségbe rejtett fekete olaj fúrásakor a strukturált adatok keresése nem más, mint a felület karcolása.

Mi az a nem strukturált adat?

A szervezetekben található adatok túlnyomó része strukturálatlan, és egyesek szerint a jelenleg rendelkezésre álló összes adat akár 80% -át is elérhetik. Definíció szerint a nem strukturált adatok mindazok, amelyeknek nincs azonosítható belső szerkezete. Bizonyos típusú adatok azonban ebbe a kategóriába tartoznak van a homályos belső struktúra valamilyen formája, mégis nem felel meg az adatbázisnak vagy a táblázatnak.

Nincsenek hibák, nincs stressz - Az Ön életét megváltoztató szoftverek készítésének lépésről lépésre történő leírása az élet megsemmisítése nélkül


Nem javíthatja a programozási képességeit, ha senki sem törődik a szoftver minőségével.

A legtöbb üzleti adat strukturálatlan, kezdve az ügyfélszolgálati interakciókat, fájlokat, webnaplókat, videókat és egyéb multimédiás tartalmakat, az értékesítés automatizálását, a közösségi média üzeneteit. Nem szükséges magyarázni, hogy ezek az adatok mennyire értékesek lehetnek, ha bányászni, megszervezni és elemezni lehetne.

A legtöbb nem strukturált adatot az emberek generálják, és így azt más emberek számára is megértik. Ez azt jelenti, hogy a kedvezőbb számítógépes intelligencia nem érti az ilyen típusú információkat, mivel túl távol van a gépi nyelv és a strukturált adatbázisok linearitásától.

Közül esik: félig strukturált adatok

A félig strukturált adatok egy harmadik típusú adatok, amelyek az egész pite jóval kisebb részét képviselik (5-10 százalék). A két világ között szó szerint elfoglalt félig strukturált adatok belső szemantikai címkéket és jelöléseket tartalmaznak, amelyek azonosítják a különálló elemeket, de hiányzik a relációs adatbázisban való megfeleléshez szükséges struktúra.

Például az s strukturált adatoknak tűnhet, mivel kategorizálhatók dátum, fájlméret vagy idő szerint. Ezek azonban nem, mivel a legértékesebb információ a bennük található, nem pedig a viszonylag egyszerű címkék. Nem igazán lehet tartalom és tárgy szerint rendezni, mivel az emberek nem beszélnek olyan szigorú mintákkal, hogy a gép egyértelműen megértse őket. A félig strukturált adatok további példái a NoSQL adatbázisok, a nyílt szabványos JSON és a jelölőnyelv XML.

A félig strukturált adatokat rendszerint lekérdezik és katalogizálják elemzés céljából metaadat-elemzés segítségével. Például egy röntgen-letapogatás hatalmas számú képpontból áll, amelyek képezik a képet - amelyek eredendően strukturálatlan adatok, amelyekhez nem lehet hozzáférni. A beolvasott fájl azonban továbbra is tartalmaz egy metaadatot, amely információt nyújt róla, például kommentárok és felhasználói azonosító.

A strukturálatlan adatokat átalakíthatjuk strukturált adatokké?

Az alapvető kihívás, amellyel minden adatelemzőnek szembe kell néznie, az, hogy a rendelkezésre álló információkat ügyesen, rendezetten szervezi, hogy azok hozzáférhetők és megérthetők legyenek. Az adatbányászati ​​eszközök általában nem képesek olyan információk elemzésére, amelyek definíciójuk szerint túl hasonlítanak az emberi nyelvre, vagyis csak egy másik ember tudja gyűjteni és kategorizálni.

A strukturálatlan adatok puszta mennyisége azonban a tárolás vagy megszervezés minden kísérletét rendkívül fáradságos és költséges. Például egy webes keresőmotorból származó információs készlet annyira hatalmas, hogy a legtöbb elem hatalmas beruházást igényel a munka és az erőforrások szempontjából, csupán a legalapvetőbb kinyerése érdekében. Még a leghatékonyabb adatbányászati ​​módszerekkel is hiányzik jelentős mennyiségű információ az interneten, és ami még rosszabb, a mély webben.

De technikák léteznek. Csodálatos sebességgel fejlesztik őket. Például a metaadatok felhasználhatók a strukturált és nem strukturált adatok összekapcsolására. Az összegyűjtött információkat mind a felhasználók, mind az algoritmusok kiszűrhetik és indexelhetik, a releváns adatok elemzése érdekében. Más megoldások között szerepel az "adatkezelés", amely egy folyamat, amelyen keresztül a nem technikai felhasználók fokozatosan rendszerezik az összetett adatokat. (Az adatkezelő szokásos felhasználókkal kapcsolatos további információkért lásd: Hogyan segíthetnek a nagy adatok az önkiszolgáló elemzésben.)

Egy bizonyos ponton képesek leszünk hatékonyan átalakítani ezeket a tömegesen nem szervezett információmennyiségeket egy jobban szervezett és átszervezett formátumra. Lehet, hogy ma nem, holnap nem, de hamarosan felrobbanhatunk az emberiség eddig látott legnagyobb boltozatában: nagy adatok.