RMSprop, Adam, précision de test AdaDelta ne améliore pas en utilisant Caffe

Je suis finetuning en utilisant Caffe sur un ensemble de données d'image sur un Tesla K40. L'utilisation d'un batch size=47, solver_type=SGD, base_lr=0.001, lr_policy="step", momentum=0.9, gamma=0.1, les training loss diminue et test accuracy va de 2%-50% en 100 itérations qui est assez bon.RMSprop, Adam, précision de test AdaDelta ne améliore pas en utilisant Caffe

Lors de l'utilisation d'autres optimiseurs tels que RMSPROP, ADAM et ADADELTA, la training loss reste à peu près la même, même et aucune amélioration test accuracy après 1000 itérations. Pour RMSPROP, j'ai modifié les paramètres respectifs comme indiqué here.

Pour ADAM, j'ai changé les paramètres respectifs comme indiqué here

Pour ADADELTA, j'ai changé les paramètres respectifs mentionnés here

Quelqu'un peut-il s'il vous plaît me dire ce que je fais mal?

Source

2015-10-02 VeilEclipse

J'ai trouvé que l'on devrait utiliser des taux d'apprentissage inférieurs avec des solveurs différents de SGD. Cependant, je ne sais pas trop pourquoi. – pir

À quel point abaissez-vous le taux d'apprentissage, comparé à SGD? – VeilEclipse

Si j'utilise le même taux d'apprentissage qu'avec SGD, l'algorithme RMSProp diverge, alors qu'il convergera (avec un ACC légèrement inférieur à mon SGD bien réglé) avec un taux d'apprentissage qui est 1/3 de l'original. Cependant, cela peut être très spécifique à un problème. – pir

J'ai vu des résultats similaires à ceux de pir: Adam divergerait avec la même base_lr que celle utilisée par SGD. Quand j'ai réduit base_lr à 1/100 de sa valeur d'origine, Adam a soudainement convergé et a donné de bons résultats.

Source

2016-04-06 02:31:59

Merci pour votre remarque. Cela signifie si 'base_lr': 1e-3 pour SGD alors' base_lr: 1e-5' pour Adam. Est-ce trop petit? – user8264

J'ai trouvé que 1e-4 est un bon taux d'apprentissage pour Adam. Vous devriez également essayer 1e-3 et 1e-5 sur votre ensemble de données pour voir si vous obtenez de bonnes performances –

Dans mon cas, lr_rate pour Adam est deux fois plus rapide que SGD. J'ai aussi essayé 50%, 150%, mais 200% lr_rate est le meilleur pour moi – user8264

RMSprop, Adam, précision de test AdaDelta ne améliore pas en utilisant Caffe

Répondre

Questions connexes