Comment comprendre l'algorithme d'apprentissage Q (λ) de Watkins dans le livre RL de Sutton & Barto?

à Sutton & livre de RL Barto (link), l'algorithme d'apprentissage Q de Watkins (λ) présenté à la figure 7.14: Ligne 10 "Pour tout s, a:", le "s, un" est ici pour tous les (s, a), alors que (s, a) dans la ligne 8 et la ligne 9 est pour le courant (s, a), est-ce vrai? Pour les lignes 12 et 13, quand un '! = A *, exécute la ligne 13, tous les e (s, a) seront mis à 0, quel est donc le point de trace d'éligibilité lorsque toutes les traces d'éligibilité sont mis à 0, car la situation a '! = a * arrivera très souvent. Même si la situation a '! = A * ne se produit pas très souvent, mais une fois que cela arrive, la signification de la trace d'éligibilité sera totalement perdue, alors le Q ne sera plus mis à jour, puisque tous les e (s, a) = 0, alors dans chaque mise à jour, le e (s, a) sera toujours 0 si vous utilisez les traces de remplacement.Comment comprendre l'algorithme d'apprentissage Q (λ) de Watkins dans le livre RL de Sutton & Barto?

Donc, est-ce une erreur ici?

Source

2016-11-29 user186199

Je peux le comprendre maintenant après avoir écrit ce processus étape par étape. les traces pour tous les e (s, a) sont mises à 0 après un '! = a *, mais le e (s', a ') a été remis à 1 à l'étape suivante (ligne 9 ici). voir mon détail de compréhension ici

Source

2016-11-30 15:36:16 user186199

L'idée de traces d'admissibilité est de donner du crédit ou le blâme uniquement aux paires état-actions éligibles. Le livre de Sutton & Barto a une belle illustration de l'idée: Backward view of eligibility traces

Dans l'algorithme Q (λ) de Watkin que vous voulez donner crédit/blâme aux couples état-action que vous réellement avez visité, si vous auriez suivi votre politique Q de manière déterministe (en choisissant toujours la meilleure action).

Donc, la réponse à votre question est dans la ligne 5:

Choose a' from s' using policy derived from Q (e.g. epsilon-greedy)

Parce qu'un » est choisi epsilon gourmand, il y a un peu de chance (avec une probabilité epsilon) que vous prenez une étape aléatoire d'exploration au lieu d'un pas gourmand. Dans un tel cas, la trace d'éligibilité entière est mise à zéro, car cela n'a aucun sens de donner crédit/blâme aux paires d'actions d'état qui ont été visitées auparavant. Les paires d'actions d'état que vous avez visitées avant l'étape exploratoire aléatoire ne méritent aucun crédit/blâme pour les récompenses futures, d'où vous supprimez la trace d'éligibilité entière. Dans les étapes de temps après, vous commencez à construire une nouvelle trace d'éligibilité ...

Hope that helps.

Source

2016-11-30 22:53:26 tom1139

Je pense qu'il vaut la peine d'expliquer que la différence ici par exemple. SARSA (qui ne réinitialise pas les traces d'éligibilité) est que Q (λ) est un algorithme hors-politique. Donc la table Q est une estimation de $ q _ * $, pas $ q _ {\ pi} $. –

Comment comprendre l'algorithme d'apprentissage Q (λ) de Watkins dans le livre RL de Sutton & Barto?

Répondre

Questions connexes