1

J'essaie d'implémenter une itération de valeur pour le MDP '3x4 windy gridworld' et j'ai du mal à comprendre l'équation de Bellman et sa mise en œuvre.Cas de base pour l'itération de valeur dans l'apprentissage par renforcement

La forme de l'équation Bellman que je travaille avec c'est

enter image description here

Supposons que c'est le gridword Je travaille avec et je veux trouver la valeur (U(s)) de la tuile marquée X.

enter image description here

(capture d'images à partir this vidéo)

La récompense à tous les carreaux attend que les carreaux terminaux soient définis comme étant zéro et il est également supposé que si on essaie de faire un mouvement dans une direction particulière, il y a une petite probabilité que le coup réel ait lieu à droite angles au mouvement prévu. (Si vous essayez de descendre de x, vous descendez avec la probabilité 0.8 mais vous vous déplacez à gauche ou à droite avec une probabilité de 0.1 chacun)

Maintenant, lorsque vous essayez de démêler l'équation de gemme pour la position x, il y a trois voisins (U(s')) pour l'action 'UP'. L'emplacement d'origine lui-même (puisqu'il ne peut pas monter) avec une probabilité de 0,8, l'état +1 à sa droite avec une probabilité de 0,1 et la tuile qui lui reste également avec une probabilité de 0,1. Ceux-ci forment les états s'. Par conséquent, une fonction permettant de trouver la valeur de l'état X appelait récursivement tous les états s'. L'état +1 à partir de ce n'est pas un problème puisqu'il s'agit d'une tuile terminale et que cela constituerait pour le cas de base. Mais l'un de ces états est l'état original X lui-même et je ne comprends pas comment ce cas se terminera jamais dans l'appel récursif. Même problème avec la troisième tuile; va-t-il jamais se terminer après tous les appels à c'est voisins et ainsi de suite?

Répondre

2

L'itération de valeur ne termine pas; il converge asymptotiquement vers les valeurs correctes tant que vous avez γ < 1 et les récompenses qui ne sont pas infinies. En pratique, vous pouvez terminer chaque fois que le terme d'escompte (qui exponetie par γ à chaque niveau de récursivité) devient si petit que continuer à calculer le prochain U(s') n'aurait aucun impact sur la valeur que vous avez déjà accumulée.