Est-ce que la dernière couche d'un réseau neuronal classificateur utilise à la fois sigmoïde et softmax?

Les couches cachées d'un réseau de classificateurs utilisent sigmoïde ou une autre fonction d'activation pour introduire la non-linéarité et normaliser les données, mais la dernière couche utilise-t-elle sigmoïde conjointement avec softmax? J'ai le sentiment que cela n'a pas d'importance et que le réseau s'entraînera dans les deux sens - mais est-ce qu'une couche softmax seule devrait être utilisée? ou la fonction sigmoïde devrait-elle être appliquée en premier?Est-ce que la dernière couche d'un réseau neuronal classificateur utilise à la fois sigmoïde et softmax?

Source

2017-10-06 Evan Weissburg

En général, il ne sert à rien d'activer le sigmoïde supplémentaire juste avant la couche de sortie de la softmax. Puisque la fonction sigmoïde est a partial case of softmax, elle écrase simplement les valeurs dans l'intervalle [0, 1] deux fois de suite, ce qui donne une distribution de sortie presque uniforme. Bien sûr, vous pouvez vous en servir, mais ce sera beaucoup moins efficace. A propos, si vous choisissez de ne pas utiliser ReLu, tanh est a better activation function que sigmoïde.

Source

2017-10-07 20:59:10 Maxim

Merci! Pouvez-vous me diriger vers une ressource où je peux lire plus à propos de tanh vs sigmoïde dans les classificateurs? Je les ai vus décrits comme extrêmement comparables auparavant. –

@EvanWeissburg Bien sûr, recommande vivement cet article - http://cs231n.github.io/neural-networks-1/#actfun – Maxim

Est-ce que la dernière couche d'un réseau neuronal classificateur utilise à la fois sigmoïde et softmax?

Répondre

Questions connexes