2017-04-20 2 views
0

Quel type de méthode de formation vous pouvez recommander pour la formation d'une séquence basée sur l'attention pour séquencer le modèle de traduction automatique neuronale? SGD, Adadelta, Adam ou quelque chose de mieux? S'il vous plaît donner quelques conseils, merci.Méthode de formation Choix pour le modèle seq2seq

Répondre

0

Utilisez un algorithme de gradient adaptatif tel qu'Adam ou Adadelta ou RMSProp. J'ai tendance à utiliser Adam, et toujours en combinaison avec des dégradés écrêtés.

Les algorithmes de gradient adaptatif ont des taux d'apprentissage pour chaque paramètre. Ceci est très utile lorsque vous avez des modèles où certains paramètres peuvent être plus clairsemés (augmenter le taux d'apprentissage) ou non (diminuer le taux d'apprentissage). Si vous travaillez avec quelque chose comme la traduction automatique neuronale, cette rareté est un problème. Adam est un peu plus coûteux en calcul, je suppose, mais donne de bons résultats.