Az adatbányászás és az adattudomány tanulásának 7 lépése

Szerző: Eugene Taylor
A Teremtés Dátuma: 12 Augusztus 2021
Frissítés Dátuma: 22 Június 2024
Anonim
Az adatbányászás és az adattudomány tanulásának 7 lépése - Technológia
Az adatbányászás és az adattudomány tanulásának 7 lépése - Technológia

Tartalom


Forrás: Paul Fleet / Dreamstime.com

Elvitel:

Az adattudományt legjobban cselekedettel lehet megtanulni, de a statisztika és a gépi tanulás megfelelő alapja is fontos.

Gyakran kérdeznek tőlem, hogyan lehet elsajátítani az adatbányászatot és az adattudományt. Itt van az összefoglalóm.

Az adatbányászat és az adattudomány legjobban megtanulhatja azáltal, hogy így végez, tehát kezdje el az adatok elemzését a lehető leghamarabb! Ne felejtse el azonban elsajátítani az elméletet, mivel jó statisztikai és gépi tanulási alapokra van szüksége, hogy megértse, mit csinál, és hogy valódi értékrögöket találjon a nagy adatok zajában.

Íme hét lépés az adatbányászás és az adattudomány tanulásához. Bár számozva vannak, megteheti őket párhuzamosan vagy más sorrendben.


  1. Nyelvek: Tanulja meg az R, a Python és az SQL nyelvet
  2. Eszközök: Tanulja meg, hogyan kell használni az adatbányászási és megjelenítési eszközöket
  3. könyvek: Olvassa el a bevezető könyveket az alapok megértése érdekében
  4. Oktatás: Nézze meg a webináriumokat, vegyen részt kurzusokon, és fontolja meg az igazolást vagy az adattudományi fokozatot (Tudjon meg többet a Ben Loricas-ban Hogyan tápláljunk egy adattudósot tudósítót.)
  5. Adatok: Ellenőrizze a rendelkezésre álló adatforrásokat, és keressen ott valamit
  6. Versenyek: Vegyen részt adatbányászati ​​versenyeken
  7. Kapcsolatba léphet más adattudósokkal, közösségi hálózatokon, csoportokon és találkozókon keresztül

Ebben a cikkben felváltva használom az adatbányászatot és az adattudományt. Tekintse meg az Analytics ágazat áttekintése bemutatóomat, ahol különféle kifejezések, például statisztika, tudásfeltárás, adatbányászat, prediktív elemzés, adattudomány és nagy adatok fejlődését és népszerűségét vizsgálom.


1. Nyelvek tanulása

Egy nemrégiben végzett KDnuggets közvélemény-kutatás szerint az adatbányászatban a legnépszerűbb nyelvek az R, a Python és az SQL. Sok forrás létezik mindegyikhez, például:

  • Ingyenes e-könyv az adattudományról R-vel
  • Az adattudomány Pythonjának első lépései
  • Python az adatelemzéshez: Agilis eszközök a valós adatokhoz
  • Nélkülözhetetlen Python: Adatforrás az adattudomány számára
  • W3 iskolák SQL tanulása

2. Eszközök: Adatbányászat, Adattudomány és Megjelenítő szoftver

Számos adatbányászási eszköz létezik a különféle feladatokhoz, de a legjobb, ha megtanuljuk, hogyan kell használni egy olyan adatbányászkészletet, amely támogatja az adatok elemzésének teljes folyamatát. Indulhat olyan nyílt forrású (ingyenes) eszközökkel, mint például a KNIME, a RapidMiner és a Weka.

Sok elemző feladathoz azonban meg kell ismernie a SAS-t, amely a vezető kereskedelmi eszköz és széles körben használatos. Más népszerű elemző és adatbányászati ​​szoftverek: MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler és Rattle.

Nincsenek hibák, nincs stressz - Az Ön életét megváltoztató szoftverek készítésének lépésről lépésre történő leírása az élet megsemmisítése nélkül

Nem javíthatja a programozási képességeit, ha senki sem törődik a szoftver minőségével.

A megjelenítés az adatok elemzésének alapvető része. Ismerje meg a Microsoft Excel (sok egyszerűbb feladathoz használható), az R grafika (különösen a ggplot2) és a Tableau használatát - kiváló csomag a megjelenítéshez. További jó megjelenítési eszközök a TIBCO Spotfire és a Miner3D.

3. könyvek

Számos adatbányászat és adattudományi könyv áll rendelkezésre, de ezeket ellenőrizheti:

  • Adatbányászat és elemzés: Alapvető fogalmak és algoritmusok, ingyenes PDF letöltés (vázlat), Mohammed Zaki és Wagner Meira Jr.
  • Adatbányászat: gyakorlati gépi tanulási eszközök és technikák, készítette Ian Witten, Eibe Frank és Mark Hall, a Weka szerzőitől, és a Weka széles körű felhasználásával példákban
  • A statisztikai tanulás, az adatbányászat, a következtetés és a jóslás elemei: Trevor Hastie, Robert Tibshirani, Jerome Friedman. Nagyszerű bevezetés a matematikai orientációhoz
  • LIONbook: Tanulás és intelligens optimalizálás, Roberto Battiti és Mauro Brunato, szabadon elérhető az interneten, fejezetről fejezetre
  • A Massive Datasets Book bányászása, Rajaraman A., Ullman J.
  • A StatSoft elektronikus statisztikai könyv (ingyenes) számos adatbányászási témát tartalmaz

4. Oktatás: Webináriumok, tanfolyamok, bizonyítványok és fokok

Először megnézheti a sok ingyenes internetes szemináriumot és internetes közvetítést az elemzés, a nagy adatok, az adatbányászat és az adattudomány legújabb témáiról.

Számos online tanfolyam van, rövid és hosszú, sok közülük ingyenes. (Lásd a KDnuggets online oktatási könyvtárát.)

Ellenőrizze különösen ezeket a tanfolyamokat:

  • Gépi tanulás, a Coursera, Andrew Ng tanítja
  • Tanuljunk az adatokból az edX-en, a caltech professzor, Yaser Abu-Mostafa tanította
  • Nyílt online tanfolyam az alkalmazott adatok tudományában, a Syracuse iSchool-tól
  • Adatbányászat a Weka-val, ingyenes online tanfolyam
  • Ellenőrizze az ingyenes online diákat is az Adatbányász kurzusomról, amely egy szemeszter hosszú adatbányászat bevezető tanfolyam

Végül mérlegelje az igazolások megszerzését az adatbányászatban és az adattudományban, vagy haladó fokozatban, például az adattudományi Master fokozatban.

5. Adatok

Adatokra lesz szükség az elemzéshez - lásd a KDnuggets az Adatbányászathoz használt adatkészletek könyvtárat, ideértve:

  • Kormányzati, szövetségi, állami, városi, helyi és nyilvános adatoldalak és portálok
  • Adat-API-k, hubok, piacterek, platformok, portálok és keresőmotorok
  • Ingyenes nyilvános adatkészletek

6. Versenyek

Ismét a legjobban cselekedettel fog tanulni, tehát vegyen részt a Kaggle versenyeken. Kezdje a kezdő versenyekkel, például a Titanic túlélésének előrejelzésével a gépi tanulással.

7. Kölcsönhatás: Találkozók, csoportok és közösségi hálózatok

Csatlakozhat sok társcsoporthoz. Tekintse meg az elemzés, a big data, az adatbányászat és az adattudomány legfontosabb 30 LinkedIn-csoportját.

Az AnalyticBridge egy aktív elemző és adattudományi közösség.

Részt vehet az elemzésről, a nagy adatokról, az adatbányászatról, az adattudományról és a tudásmegállapításról szóló számos találkozón és konferencián.

Fontolja meg a csatlakozást az ACM SIGKDD-hez is, amely megszervezi az éves KDD konferenciát - a terület vezető kutatási konferenciáját.

Ez a cikk a KDNuggets.com nádas. A szerző engedélyével használták.