J'essaye de construire un agent d'apprentissage de la différence temporelle pour Othello. Alors que le reste de ma mise en œuvre semble fonctionner comme prévu, je m'interroge sur la fonction de perte utilisée pour former mon réseau. Dans le livre de Sutton «Apprentissage par renfort: une introduction», l'erreur moyenne de la valeur quadratique (MSVE) est présentée comme la fonction de perte standard, soit une erreur quadratique moyenne multipliée par la distribution sur la politique (somme sur tous les états s (onPolicyDistribution (s) * [V (s) - V '(s, w)] ²))Implémentation d'une fonction de perte (MSVE) dans l'apprentissage par renforcement
Ma question est maintenant: Comment l'obtenir sur la distribution des polices lorsque ma politique est une fonction e-gourmande d'une fonction de valeur apprise est-il même nécessaire et quel est le problème si je viens d'utiliser un lieu MSELoss?
Je suis en œuvre tout cela dans pytorch, donc des points bonus pour une mise en œuvre facile là :)