Il existe plusieurs réponses valides pour votre question. Du point de vue théorique, pour atteindre la convergence, le Q-learning requiert que toutes les paires d'actions d'états soient (asymptotiquement) visitées à l'infini.
La condition précédente peut être réalisée de plusieurs façons. À mon avis, il est plus commun d'interpréter n
simplement comme le nombre d'étapes de temps, c'est-à-dire, combien d'interactions l'agent a effectué avec l'environnement [par exemple, Busoniu, 2010, Chapter 2]. Cependant, dans certains cas, la vitesse d'exploration peut être différente pour chaque état et, par conséquent, n
est le nombre de fois que l'agent a visité l'état s
[par exemple Powell, 2011, chapter 12].
Les deux interprétations sont également valides et assurent (ensemble d'autres conditions) la convergence asymptotique de Q-learning. Quand est préférable d'utiliser une approche ou une autre dépend de votre problème particulier, similaire à la valeur exacte de E
que vous devriez utiliser.