En général, vous ne bénéficierez pas d'une couche d'échelle juxtaposée avec la normalisation par lots. Chacun est une transformation linéaire. Où BatchNorm traduit de sorte que la nouvelle distribution a une moyenne de 0 et une variance de 1, Scale compresse toute la plage dans un intervalle spécifié, généralement [0,1]. Puisqu'il s'agit de deux transformations linéaires, si vous les faites en séquence, la seconde annulera complètement le travail de la première.
Ils traitent également différemment avec les valeurs aberrantes. Considérons un ensemble de données: dix valeurs, cinq chacune de -1 et +1. BatchNorm ne changera pas du tout: il a déjà la moyenne 0 et la variance 1. Pour la cohérence, spécifions le même intervalle pour Scale, [-1, 1], qui est aussi un choix populaire.
Maintenant, ajoutez une valeur aberrante de, disons 99 au mélange. Scale transformera l'ensemble à l'intervalle [-1, 1] de sorte qu'il y ait maintenant cinq valeurs de -1.00, une valeur de +1.00 (l'ancienne 99) et cinq valeurs de -0.96 (auparavant +1).
BatchNorm s'inquiète de l'écart type moyen et non des valeurs max et min. Le nouveau moyen est +9; le S.D. est 28.48 (arrondissant tout à 2 décimales). Les nombres seront mis à l'échelle pour être approximativement cinq valeurs de -35 et -28, et une valeur de 3,16
Si une mise à l'échelle fonctionne mieux que l'autre dépend beaucoup de l'inclinaison et de la dispersion de votre distribution. Je préfère BatchNorm, car il a tendance à mieux se différencier dans les régions denses d'une distribution.
Copie possible de [Qu'est-ce que "batch normalizaiton"? pourquoi l'utiliser? comment affecte-t-il la prédiction?] (http://stackoverflow.com/questions/41269570/what-is-batch-normalizaiton-why-using-it-how-does-it-affect-prediction) – Shai
Il est presque le même question, mais ne se réfère pas au problème avec la couche d'échelle après la couche batchnorm – Kev1n91
répondre à la plupart de cette question. Envisageriez-vous de le reformuler, de sorte qu'il est plus spécifique aux sujets non couverts par la question liée? – Shai