Je forme une architecture de réseau neuronal complexe où j'utilise un RNN pour coder mes entrées puis, Un réseau neuronal profond avec une couche de sortie softmax.Y at-il des cas où il est préférable d'utiliser l'activation sigmoïde sur ReLu
J'optimise maintenant ma partie de réseau neuronal profond d'architecture (nombre d'unités et nombre de couches cachées). J'utilise actuellement l'activation du sigmoïde pour toutes les couches. Cela semble convenir à quelques couches cachées, mais à mesure que le nombre de couches augmente, il semble que le sigmoïde ne soit pas le meilleur choix. Pensez-vous que je devrais faire l'optimisation hyper-paramètre pour sigmoïde d'abord puis ReLu ou, il est préférable de simplement utiliser ReLu directement?
Aussi, pensez-vous qu'il est logique d'avoir Relu dans les premières couches cachées et sigmoïd uniquement dans la dernière couche cachée étant donné que j'ai une sortie softmax.
Merci. En fait, j'utilise l'optimisation de l'essaim de particules pour ma recherche. Je voulais juste une certaine intuition pour affiner l'espace de recherche. – ryuzakinho