Milyen kulcsfontosságú módszerek vannak az adattudományi folyamatok automatizálására és optimalizálására? googletag.cmd.push (function () {googletag.display (div-gpt-ad-1562928221186-0);}); K:

Tartalom

K:

Milyen kulcsfontosságú módszerek vannak az adattudományi folyamatok automatizálására és optimalizálására?

A:

Az adattudományi folyamatok a gépi tanulás és az AI keretében négy különálló szakaszra oszthatók:

adatgyűjtés és feltárás,
modellépület,
modell telepítése és
online értékelés és finomítás.

Tapasztalataim szerint a leginkább akadályozó szakaszok az adatgyűjtés és a modellek telepítésének fázisai bármely gépi tanuláson alapuló adattudományi folyamatban, és ezek optimalizálásának két módja van:

1. Hozzon létre egy nagyon hozzáférhető adatboltot.

A legtöbb szervezetben az adatokat nem egy központi helyen tárolják. Vegyük csak az ügyfelekkel kapcsolatos információkat. Van vevő elérhetősége, ügyfélszolgálata, visszajelzése és böngészési előzményei, ha vállalkozása webes alkalmazás. Ezek az adatok természetesen szétszórtan vannak, mivel eltérő célokat szolgálnak. Tartózkodhatnak különféle adatbázisokban, és részben teljesen strukturáltak, mások nem szerkezettelenek, sőt egyszerű fájlokként is tárolhatók.

Sajnos ezeknek az adatkészleteknek a szórottsága erősen korlátozza az adattudományi munkát, mivel az összes NLP, gépi tanulás és az AI probléma alapja adat. Tehát, ha ezeket az adatokat egy helyen - az adattárban - tartjuk, rendkívül fontos a modell fejlesztésének és telepítésének felgyorsítása szempontjából. Mivel ez minden adattudományi folyamat szempontjából döntő fontosságú, a szervezeteknek képzett adatmérnököket kell felvenniük, hogy segítsék őket adatállományuk felépítésében. Ez könnyen elindulhat, amikor az egyszerű adatok egy helyre kerülnek, és lassan egy jól átgondolt adattárré alakulnak, teljesen dokumentálva és igénybe vehető segédeszközökkel, hogy az adatok részhalmazát különböző formátumokba exportálják különböző célokra.

2. Mutassa be modelleit a zökkenőmentes integráció szolgáltatásaként.

Az adatokhoz való hozzáférés lehetővé tételén túl fontos az adattudósok által kifejlesztett modellek integrálása a termékbe. Rendkívül nehéz lehet a Pythonban kifejlesztett modellek integrálása a Ruby-on futó webalkalmazással. Ezenkívül a modelleknek sok olyan adatfüggőségük lehet, amelyet a termék nem biztos, hogy képes biztosítani.

Ennek egyik módja egy erős infrastruktúra felállítása a modell körül, és csak annyi funkcionalitás felfedése, amely a termékéhez szüksége van ahhoz, hogy a modellt „webszolgáltatásként” lehessen használni. Például, ha az alkalmazásnak érzelmi besorolást igényel a termékértékelések során. , csak annyit kell tennie, hogy meghívja a webszolgáltatást, feltéve, hogy a releváns és a szolgáltatás visszaadja a megfelelő érzelmi osztályozást, amelyet a termék közvetlenül felhasználhat. Ilyen módon az integráció egyszerűen egy API hívás formájában történik. A modell és az azt használó termék szétválasztása megkönnyíti a felmerülő új termékek számára, hogy ezeket a modelleket is könnyedén használják.

A modell körüli infrastruktúra felállítása már egy teljesen más történet, és komoly kezdeti beruházást igényel a mérnöki csapatoktól. Miután az infrastruktúra megvan, csak modellek építésének kérdése, amely illeszkedik az infrastruktúrához.