Hogyan segíti a max pooling a AlexNet nagyszerű képfeldolgozási technológiát? googletag.cmd.push (function () {googletag.display (div-gpt-ad-1562928221186-0);}); K:

Tartalom

K:

Hogyan segíti a max pooling a AlexNet nagyszerű képfeldolgozási technológiát?

A:

Az AlexNet-ben, egy innovatív konvolúciós neurális hálózatban a max pooling fogalmát beillesztik egy komplex modellbe, amely több konvolúciós réteget tartalmaz, részben az illesztés elősegítése és az neurális hálózat munkájának korszerűsítése érdekében, amikor képeket dolgoznak a szakértők szerint egy „nemlineáris lefelé irányuló mintavételi stratégia”.

Az AlexNet széles körű CNN-nek tekinthető, mivel megnyerte a 2012-es ILSVRC-t (ImageNet nagy méretű vizuális felismerési kihívás), amelyet a gépi tanulás és az ideghálózat fejlődésének csúcspontjának tekintik (egyesek a számítógépes látás „olimpiájának” hívják). ).

A hálózat keretein belül, ahol a képzés két GPU-ra van felosztva, öt konvolúciós réteg van, három teljesen összekapcsolt réteg és néhány max pooling megvalósítás.

Alapvetően a max pooling a neurongyűjteményből származó kimenetek „poolját” veszi, és alkalmazza azokat a következő réteg értékeire. Ennek megértésének másik módja az, hogy a max pooling megközelítés konszolidálhatja és egyszerűsítheti az értékeket a modell megfelelőbb felszerelése érdekében.

A maximális összevonás segíthet kiszámítani a színátmeneteket. Azt lehet mondani, hogy „csökkenti a számítási terhet” vagy „zsugorodik a túlteljesítés” - lefelé vett mintavétellel a maximális összevonás bekapcsolja az úgynevezett „dimenzió csökkentését”.

A dimenzió csökkentése azzal a kérdéssel foglalkozik, hogy egy túl bonyolult modell van, amelyet nehéz futtatni egy neurális hálózaton keresztül. Képzeljünk el egy összetett formát, sok apró, egyenetlen kontúrral, és ennek a vonalnak minden apró részét egy adatpont képviseli. A dimenzió csökkentésével a mérnökök elősegítik a gépi tanulási programot, hogy „kicsinyítsen” vagy kevesebb adatpontot gyűjtsön, hogy a modell egészét egyszerűbbé tegye. Éppen ezért, ha egy maximális összevonási réteget és annak kimenetét nézi, néha láthat egy egyszerűbb pixelációt, amely megfelel a dimenzió csökkentésének stratégiájának.

Az AlexNet az egyenirányított lineáris egységeknek (ReLU) nevezett funkciót is használja, és a max pooling kiegészítheti ezt a technikát a képek CNN-n keresztüli feldolgozásakor.

A szakértők és a projektben részt vevők bőséges vizuális modelleket, egyenleteket és egyéb részleteket mutattak be az AlexNet sajátos felépítésének bemutatására, de általános értelemben a max pooling-ra gondolhat, mint a több mesterséges idegsejt kimenetének összevonására vagy konszolidálására. Ez a stratégia a CNN átfogó felépítésének része, amely szinonimává vált a csúcstechnikai látásmód és a kép osztályozás szempontjából.