Confusion d'évaluation de politique de Monte-Carlo

J'ai de la difficulté à comprendre l'algorithme d'évaluation de politique de Monte Carlo. Ce que je lis est que G est le rendement moyen après avoir visité un état particulier, disons s1, pour la première fois. Cela signifie-t-il qu'il faut faire la moyenne de toutes les récompenses qui suivent cet état s1 jusqu'à la fin de l'épisode, puis attribuer la valeur résultante à s1? Ou est-ce que cela signifie la récompense immédiate reçue pour avoir pris une action en s1 en moyenne sur plusieurs épisodes?Confusion d'évaluation de politique de Monte-Carlo

Source

2017-03-16 Marcus Ruddick

Le but de l'évaluation de politique de Monte Carlo est de trouver une fonction de valeur pour une politique donnée π. Une fonction de valeur pour une politique nous indique simplement la récompense escomptée cumulative attendue qui résultera d'être dans un état, puis de suivre la politique pour toujours ou jusqu'à la fin de l'épisode. Il nous indique le retour attendu pour un état. Donc, une approche Monte Carlo pour estimer cette fonction de valeur consiste simplement à exécuter la politique et à garder une trace du retour de chaque état; quand j'atteins un état pour la première fois, combien de récompenses escomptées accumulées dans le reste de l'épisode? Moyenne de tous ceux que vous observez (un retour pour chaque état que vous visitez, pour chaque épisode que vous exécutez).

Est-ce que cela signifie en moyenne toutes les récompenses suivantes cet état s1 à la fin de l'épisode, puis attribuer la valeur résultante à s1? Ou est-ce que cela signifie la récompense immédiate reçue pour avoir pris une action en s1 en moyenne sur plusieurs épisodes?

Ainsi, votre première pensée est correcte.

Source

2017-03-16 07:07:43

Confusion d'évaluation de politique de Monte-Carlo

Répondre

Questions connexes