0

Dans la traduction automatique, les modèles séquence-à-séquence sont devenus très populaires. Ils utilisent souvent quelques astuces pour améliorer les performances, telles que l'assemblage ou la moyenne d'un ensemble de modèles. La logique ici est que les erreurs seront alors "moyenne". Si je comprends bien, en moyenne un modèle prend simplement la moyenne des paramètres des modèles X et ensuite créer un seul modèle qui peut être utilisé pour décoder les données de test. En remontant, cependant, la moyenne de chacun des modèles de sortie. Cela demande beaucoup plus de ressources, car les modèles X doivent fournir une sortie, alors qu'un modèle moyenné n'est exécuté qu'une seule fois sur les données de test.Quelle est la différence entre les modèles ensembling et moyennage?

Quelle est exactement la différence ici? Comment la sortie diffère-t-elle? Dans mes tests, les deux méthodes ont donné une amélioration faible et similaire sur un score de base. Cela vous amène à vous demander pourquoi les gens se soucient des ensembles s'ils peuvent aussi simplement faire la moyenne. Cependant, dans tous les documents de traduction automatique de Neural que je rencontre, les gens parlent d'ensembling et non de moyennage. Pourquoi est-ce? Existe-t-il des documents sur la moyenne (en particulier les documents liés à la seq2seq et à la traduction automatique)?

Toute aide est grandement appréciée!

Répondre

0

L'assemblage est un terme plus général. Bagging et boostant sont des exemples de méthodes d'ensemble. Par exemple, la forêt aléatoire ne fait pas que la moyenne des arbres de décision, elle utilise bagging - d'abord des échantillons de données et de caractéristiques, puis forme des arbres (l'utilisation de toutes les données/caractéristiques n'aurait pas beaucoup de sens, car les arbres similaire).