à Sutton & livre de RL Barto (link), l'algorithme d'apprentissage Q de Watkins (λ) présenté à la figure 7.14: Ligne 10 "Pour tout s, a:", le "s, un" est ici pour tous les (s, a), alors que (s, a) dans la ligne 8 et la ligne 9 est pour le courant (s, a), est-ce vrai? Pour les lignes 12 et 13, quand un '! = A *, exécute la ligne 13, tous les e (s, a) seront mis à 0, quel est donc le point de trace d'éligibilité lorsque toutes les traces d'éligibilité sont mis à 0, car la situation a '! = a * arrivera très souvent. Même si la situation a '! = A * ne se produit pas très souvent, mais une fois que cela arrive, la signification de la trace d'éligibilité sera totalement perdue, alors le Q ne sera plus mis à jour, puisque tous les e (s, a) = 0, alors dans chaque mise à jour, le e (s, a) sera toujours 0 si vous utilisez les traces de remplacement.Comment comprendre l'algorithme d'apprentissage Q (λ) de Watkins dans le livre RL de Sutton & Barto?
Donc, est-ce une erreur ici?
Je pense qu'il vaut la peine d'expliquer que la différence ici par exemple. SARSA (qui ne réinitialise pas les traces d'éligibilité) est que Q (λ) est un algorithme hors-politique. Donc la table Q est une estimation de $ q _ * $, pas $ q _ {\ pi} $. –