Y at-il des cas où il est préférable d'utiliser l'activation sigmoïde sur ReLu

Je forme une architecture de réseau neuronal complexe où j'utilise un RNN pour coder mes entrées puis, Un réseau neuronal profond avec une couche de sortie softmax.Y at-il des cas où il est préférable d'utiliser l'activation sigmoïde sur ReLu

J'optimise maintenant ma partie de réseau neuronal profond d'architecture (nombre d'unités et nombre de couches cachées). J'utilise actuellement l'activation du sigmoïde pour toutes les couches. Cela semble convenir à quelques couches cachées, mais à mesure que le nombre de couches augmente, il semble que le sigmoïde ne soit pas le meilleur choix. Pensez-vous que je devrais faire l'optimisation hyper-paramètre pour sigmoïde d'abord puis ReLu ou, il est préférable de simplement utiliser ReLu directement?

Aussi, pensez-vous qu'il est logique d'avoir Relu dans les premières couches cachées et sigmoïd uniquement dans la dernière couche cachée étant donné que j'ai une sortie softmax.

Source

2017-06-27 ryuzakinho

Vous ne pouvez pas optimiser les hyperparamètres indépendamment, non. Ce n'est pas parce que la solution optimale est finalement X couches et Y nœuds que cela sera vrai pour toutes les fonctions d'activation, stratégies de régulation, taux d'apprentissage, etc. C'est ce qui rend l'optimisation des paramètres difficile. C'est aussi pourquoi il existe des bibliothèques pour l'optimisation des hyperparamètres. Je vous suggère de commencer par lire sur le concept de «l'optimisation de recherche aléatoire».

Source

2017-06-27 10:38:56 5Ke

Merci. En fait, j'utilise l'optimisation de l'essaim de particules pour ma recherche. Je voulais juste une certaine intuition pour affiner l'espace de recherche. – ryuzakinho

Y at-il des cas où il est préférable d'utiliser l'activation sigmoïde sur ReLu

Répondre

Questions connexes