La configuration de classification standard sous la direction: nous avons un tas d'échantillons, chacun avec l'étiquette correcte de N
étiquettes. Nous construisons un NN avec N sorties, transformons les probabilités avec softmax, et la perte est la moyenne cross-entropy
entre chaque sortie NN et l'étiquette réelle correspondante, représentée comme un vecteur 1-hot
avec 1
dans le véritable label et 0
ailleurs. Nous optimisons ensuite cette perte en suivant son gradient. L'erreur de classification est utilisée uniquement pour mesurer la qualité de notre modèle. Cependant, je sais que lorsque nous faisons policy gradient
nous pouvons utiliser le likelihood ratio trick, et nous n'avons plus besoin d'utiliser cross-entropy
! notre perte simplement tf.gather
la sortie NN correspondant à l'étiquette correcte. Par exemple. this solution of OpenAI gym CartPole.Lorsque nous faisons une classification supervisée avec NN, pourquoi nous entraînons-nous pour une entropie croisée et non pour une erreur de classification?
Pourquoi ne pouvons-nous utiliser la même astuce lorsque vous faites l'apprentissage supervisé? Je pensais que la raison pour laquelle nous avons utilisé cross-entropy
est parce qu'il est différentiable, mais apparemment tf.gather
est differentiable as well. Je veux dire - SI nous nous mesurons sur l'erreur de classification, et nous pouvons optimiser pour l'erreur de classification car elle est différentiable, n'est-il pas Mieux d'optimiser également pour l'erreur de classification au lieu de ce proxy cross-entropy
bizarre?
merci! n'a pas eu le rôle d'éviter une variance élevée - comme vous l'avez montré, nous utilisons en fait l'entropie croisée avec un vecteur à un seul degré dans les paramètres supervisés et rl. Comment voulez-vous éviter cela? – ihadanny
la chose est dans le cas de RL il n'y a pas un-chaud, il y a une distribution "vraie" là, et pourtant nous regardons seulement l'action prise - c'est une estimation de monte carlo, qui a la variance élevée. Si nous connaissions toutes les probabilités, nous pourrions éviter cela en calculant l'entropie croisée correcte, mais ce n'est pas possible (à moins de pouvoir réinitialiser l'environnement à l'état avant que l'action soit prise, comme dans les méthodes de recherche arborescente). – lejlot