Lehet-e túl sok adat a nagy adatban?

Tartalom

K:

A:

A kérdésre a válasz hangos IGEN. A nagy adatprojektekben feltétlenül lehet túl sok adat.

Számos módja van annak, hogy ez megtörténjen, és számos oka annak, hogy a szakembereknek bármilyen módon korlátozzák és tárolják az adatokat a megfelelő eredmények elérése érdekében. (Olvassa el a 10 nagy mítoszot a nagy adatokról.)

Általában véve a szakértők arról beszélnek, hogy egy modellben megkülönböztetik a "jelet" a "zajtól". Más szavakkal: a nagy adatokkal rendelkező tengeren a releváns betekintési adatok megcélzása nehézkessé válik. Egyes esetekben tűt keres egy szénakazalban.

Tegyük fel például, hogy egy vállalat nagy adatok felhasználásával próbál specifikus betekintést generálni egy ügyfélbázis egy szegmensében, és vásárlásaikat egy adott időkereten belül. (Olvassa el: Mit csinál a nagy adat?)

Az óriási mennyiségű adatkészlet bevonása a véletlenszerű adatok begyűjtését eredményezheti, ami nem releváns, vagy akár olyan torzítást eredményezhet, amely az adatokat egy vagy másik irányba eltorzítja.

Ez drasztikusan lelassítja a folyamatot is, mivel a számítási rendszereknek nagyobb és nagyobb adatkészletekkel kell birkózniuk.

Olyan sokféle projektben az adatmérnökök számára rendkívül fontos, hogy az adatokat a korlátozott és specifikus adatkészletekre készítsék - a fenti esetben csak a vizsgált vásárlói szegmensre vonatkoznának az adatok, csak az adott időre vonatkozó adatok. a vizsgált keret, és egy olyan megközelítés, amely eltávolítja a további azonosítókat vagy háttérinformációkat, amelyek megzavarhatják a dolgokat vagy lelassíthatják a rendszereket. (ReadJob Szerep: Adatmérnök.)

Bővebben nézzük meg, hogyan működik ez a gépi tanulás határain. (Olvassa el a Machine Learning 101. számot.)

A gépi tanulás szakértői beszélnek valami úgynevezett "túlcsatlakozásról", ahol a túlságosan összetett modell kevésbé eredményes eredményeket eredményez, ha a gépi tanulási programot új termelési adatokhoz kapcsolják.

A túlteljesítés akkor fordul elő, ha egy összetett adatpont halmaza túl jól felel meg a kezdeti képzési készletnek, és nem teszi lehetővé a program számára, hogy könnyen alkalmazkodjon az új adatokhoz.

Technikai szempontból a túlcsatlakozást nem túl sok adatminta okozza, hanem túl sok adatpont koronálása. De azt állíthatja, hogy a túl sok adat rendelkezésével hozzájárulhat az ilyen típusú problémákhoz is. A dimenzió átok kezelése ugyanazokkal a technikákkal foglalkozik, mint amelyeket a korábbi nagy adatprojektekben végeztek, amikor a szakemberek megpróbálták meghatározni, hogy mit táplálnak informatikai rendszerek.

A lényeg az, hogy a nagy adatok rendkívül hasznosak lehetnek a vállalatok számára, vagy pedig nagy kihívásokká válhatnak. Ennek egyik aspektusa az, hogy a társaság rendelkezik-e a megfelelő adatokkal. A szakértők tudják, hogy nem tanácsos az összes adatot csak egy garatba dobni, és így betekintést nyerni - az új, felhőben natív és kifinomult adatrendszerekben erőfeszítéseket tesznek az adatok ellenőrzésére, kezelésére és kurátúrálására annak érdekében, hogy pontosabbak és az adatvagyon hatékony felhasználása.