Vous avez une politique, qui est effectivement une distribution de probabilité d'actions pour tous mes états. Une fonction de valeur détermine le meilleur déroulement des actions pour obtenir la récompense la plus élevée.Comprendre les fonctions de stratégie et de valeur apprentissage par renfort
J'ai donc une politique aléatoire. Je reçois la fonction de valeur. Je mets à jour ma politique avec une nouvelle distribution en fonction de la fonction value. J'obtiens une fonction de valeur de cette nouvelle politique mise à jour et réévalue encore une fois. De cette définition, j'ai de la difficulté à comprendre comment fonctionne l'itération de valeur et je pense que c'est à cause d'une mauvaise compréhension de ce qu'est une fonction de valeur.
Est-ce qu'une fonction de valeur n'est pas la meilleure des actions, c'est juste un cours d'actions qui déterminera une récompense? L'itération de politique recherche-t-elle simplement une fonction de valeur qui offre une récompense plus élevée que sa récompense actuelle et qui se met immédiatement à jour, ce qui donne une nouvelle distribution d'actions pour mes états (une nouvelle politique) et itérativement ?
Dans ce cas, l'itération de valeur recherche-t-elle la meilleure action possible à chaque état de la séquence (par opposition à un qui est juste meilleur)? Je me bats ici pour comprendre pourquoi un ne serait pas mettre à jour la politique?
Est-ce que ma compréhension de la politique et de la fonction de valeur, etc., est correcte?
Merci beaucoup!
Je pense que ma compréhension de la politique est certainement incorrecte: Si une politique est simplement une distribution sur toutes les actions possibles pour mes états alors je ne suis pas entièrement sûr de ce que cela veut dire "mise à jour". Si c'est simplement la mise à jour de la distribution, alors comment fonctionne exactement l'itération de valeur si elle fonctionne avec une distribution "pire" puisque la politique n'est-elle pas initialement aléatoire lorsqu'elle est initialisée? Je ne peux pas comprendre comment ceux-ci convergeraient et seraient également bons?
vous posez plusieurs questions dans plusieurs messages, pas un seul monolithique. – vin