Hadoop Analytics: Az adatok kombinálása forrás-agnosztikai megközelítést igényel

Szerző: Laura McKinney
A Teremtés Dátuma: 1 Április 2021
Frissítés Dátuma: 16 Lehet 2024
Anonim
Hadoop Analytics: Az adatok kombinálása forrás-agnosztikai megközelítést igényel - Technológia
Hadoop Analytics: Az adatok kombinálása forrás-agnosztikai megközelítést igényel - Technológia


Forrás: Agsandrew / Dreamstime.com

Elvitel:

A forrás-agnosztikai módszerek ideálisak az adatok feldolgozásához a Hadoop elemzéshez.

Az adatforrások kombinálása a Hadoop-ban összetett üzlet. Ennek néhány oka a következő:

  • Az adatforrásokat egyesítő, egyéni, forrás-specifikus szkriptek problémák.
  • Az adatintegráció vagy az adattudományi eszközök használata túl sok bizonytalanságot vezet be.
  • A külső forrásokból származó adatok hozzáadása szinte lehetetlen.

Ma megvitatom azt, hogy a Hadoop elemzését hogyan fejlesztették ki forrás-agnosztikai technológiák, amelyek megkönnyítik a belső és a külső adatforrások kombinálását. A forrás-agnosztikai módszerek működésének ismertetése mellett azt is felvázolom, hogy a Hadoop elemzéséhez miért van szükség beépített intelligencia és tudás-továbbítási képességekre, a kapcsolatok és az adatok jellemzőinek megértésére, valamint a skálázható és nagy teljesítményű architektúrára.



  • Forrás-agnosztikai módszerek tartalmazzon egy rugalmas, entitásmegoldási modellt, amely lehetővé teszi új adatforrások hozzáadását statisztikailag megalapozott, megismételhető adattudományi folyamatok felhasználásával. Ezek a folyamatok kihasználják az algoritmusokat az adatokból való ismeretek gyűjtésére, valamint a legjobb integrációs megközelítés meghatározására történő értékeléséhez és elemzéséhez.
    Nem számít, mennyire töredezett vagy hiányos az eredeti forrásrekordok, a Hadoop analitikai technológiáknak forrás-agnosztikának kell lenniük, és képeseknek kell lenniük az adatok egységesítésére a forrásadatok megváltoztatása vagy manipulálása nélkül. Ezeknek a technológiáknak az entitás indexeket is létre kell hozniuk az adattartalom, az egyének tulajdonságai és a világban való létezésük alapján. Ennek megvalósításához meg kell értenie az adattartalmat, a szerkezetet és a komponensek egymáshoz való viszonyát.
  • Beépített adattudományi és adatintegrációs szakértelem lehetővé teszi az adatok nagy pontossággal történő tisztítását, szabványosítását és korrelációját. A megjelenítési eszközök és jelentések segítenek az elemzőknek az adatok kiértékelésében és az azokból való tanulásban, valamint a rendszer különböző hangolásain a rendszer különböző lépéseiből nyert ismeretek alapján.
  • A kapcsolatok megértése az entitások között pontosabb entitás-feloldási folyamatokat eredményez. Mivel a valós entitások nem csupán attribútumaik összegét, hanem kapcsolataikat is tükrözik, a kapcsolati ismereteket fel kell használni arra, hogy felismerjék, amikor a rekordok azonosak. Ez különösen fontos a sarokban lévő esetek és a nagy adatok kezelésekor.
  • Az adatok jellemzése javítja az adatok elemzését, felbontását és összekapcsolását az adatforrásokon belüli információk azonosításával és összevetésével. Segíthet az adatok tartalmának, sűrűségének és eloszlásának érvényesítésében a strukturált információk oszlopaiban. Az adatok jellemzése felhasználható a lényeges entitáshoz kapcsolódó adatok (név, cím, születési idő stb.) Azonosítására és kivonására a strukturálatlan és félig strukturált forrásokból a strukturált forrásokkal való korrelációhoz.
  • Méretezhető, párhuzamos architektúra gyorsan végez elemzést akkor is, ha több száz strukturált, félig strukturált és strukturálatlan adatforrást és több tízmilliárd rekordot támogat.

A Hadoop megváltoztatja a világ elemzési módját. Amikor új forrás-agnosztikai elemzést adnak a Hadoop ökoszisztémájához, a szervezetek összekapcsolhatják a pontokat sok belső és külső adatforrással, és olyan betekintést nyerhetnek, amely eddig még nem volt lehetséges.


Ezt a cikket eredetileg a Novetta.com oldalon tették közzé. Itt engedéllyel nád volt. A Novetta megőrzi az összes szerzői jogot.