Je suis finetuning
en utilisant Caffe
sur un ensemble de données d'image sur un Tesla K40
. L'utilisation d'un batch size=47
, solver_type=SGD
, base_lr=0.001
, lr_policy="step"
, momentum=0.9
, gamma=0.1
, les training loss
diminue et test accuracy
va de 2%-50%
en 100
itérations qui est assez bon.RMSprop, Adam, précision de test AdaDelta ne améliore pas en utilisant Caffe
Lors de l'utilisation d'autres optimiseurs tels que RMSPROP
, ADAM
et ADADELTA
, la training loss
reste à peu près la même, même et aucune amélioration test accuracy
après 1000
itérations. Pour RMSPROP
, j'ai modifié les paramètres respectifs comme indiqué here.
Pour ADAM
, j'ai changé les paramètres respectifs comme indiqué here
Pour ADADELTA
, j'ai changé les paramètres respectifs mentionnés here
Quelqu'un peut-il s'il vous plaît me dire ce que je fais mal?
J'ai trouvé que l'on devrait utiliser des taux d'apprentissage inférieurs avec des solveurs différents de SGD. Cependant, je ne sais pas trop pourquoi. – pir
À quel point abaissez-vous le taux d'apprentissage, comparé à SGD? – VeilEclipse
Si j'utilise le même taux d'apprentissage qu'avec SGD, l'algorithme RMSProp diverge, alors qu'il convergera (avec un ACC légèrement inférieur à mon SGD bien réglé) avec un taux d'apprentissage qui est 1/3 de l'original. Cependant, cela peut être très spécifique à un problème. – pir