Habituellement, l'abandon est placé sur les couches entièrement connectées uniquement parce qu'elles sont celles avec le plus grand nombre de paramètres et donc elles sont susceptibles de co-adapter excessivement elles-mêmes causant un surajustement.
Cependant, comme c'est une technique de régularisation stochastique, vous pouvez vraiment la placer partout. Habituellement, il est placé sur les calques avec un grand nombre de paramètres, mais personne ne vous refuse de l'appliquer à la couche convolutionnelle (qui a un nombre inférieur de paramètres par rapport aux calques fc).
En outre, la probabilité de chute doit être modifiée en fonction de l'impact de la régularisation que vous souhaitez. Une règle de base consiste à définir la probabilité de maintien (probabilité de 1) à 0,5 lorsque la suppression est appliquée aux couches entièrement connectées tout en la définissant sur un nombre supérieur (0,8, 0,9, généralement) lorsqu'elle est appliquée aux couches convolutives. Juste un mot: puisque dans chaque version de «machine à apprentissage», le décrochage machine est implémenté dans sa version «inversée», vous devez réduire votre taux d'apprentissage pour dépasser le «boost» que la probabilité de décrochage donne au taux d'apprentissage. Pour une évaluation plus complète à ce sujet: https://pgaleone.eu/deep-learning/regularization/2017/01/10/anaysis-of-dropout/
Merci beaucoup – TheWho