3

J'essaye de construire un agent d'apprentissage de la différence temporelle pour Othello. Alors que le reste de ma mise en œuvre semble fonctionner comme prévu, je m'interroge sur la fonction de perte utilisée pour former mon réseau. Dans le livre de Sutton «Apprentissage par renfort: une introduction», l'erreur moyenne de la valeur quadratique (MSVE) est présentée comme la fonction de perte standard, soit une erreur quadratique moyenne multipliée par la distribution sur la politique (somme sur tous les états s (onPolicyDistribution (s) * [V (s) - V '(s, w)] ²))Implémentation d'une fonction de perte (MSVE) dans l'apprentissage par renforcement

Ma question est maintenant: Comment l'obtenir sur la distribution des polices lorsque ma politique est une fonction e-gourmande d'une fonction de valeur apprise est-il même nécessaire et quel est le problème si je viens d'utiliser un lieu MSELoss?

Je suis en œuvre tout cela dans pytorch, donc des points bonus pour une mise en œuvre facile là :)

Répondre

0

Comme vous l'avez mentionné, dans votre cas, ça sonne comme vous faites du Q-learning, vous n'avez donc pas besoin de faire un dégradé de politique tel que décrit dans le livre de Sutton. C'est un besoin lorsque vous apprenez une politique. Vous n'êtes pas en train d'apprendre une politique, vous apprenez une fonction de valeur et vous l'utilisez pour agir.