1

Je souhaite implémenter une politique de sélection d'action de politique gre-gourmande dans Q-learning. Ici, beaucoup de gens ont utilisé, l'équation suivante pour le taux d'exploration décroissant,Stratégie ε-cupide avec taux d'exploration décroissant

ɛ = e^(- En)

n = l'âge de l'agent

E = paramètre exploitation

Mais Je ne suis pas clair ce que signifie ce "n"? est ce nombre de visites à une paire d'états-actions particulière OU est-ce le nombre d'itérations?

Merci beaucoup

Répondre

1

Il existe plusieurs réponses valides pour votre question. Du point de vue théorique, pour atteindre la convergence, le Q-learning requiert que toutes les paires d'actions d'états soient (asymptotiquement) visitées à l'infini.

La condition précédente peut être réalisée de plusieurs façons. À mon avis, il est plus commun d'interpréter n simplement comme le nombre d'étapes de temps, c'est-à-dire, combien d'interactions l'agent a effectué avec l'environnement [par exemple, Busoniu, 2010, Chapter 2]. Cependant, dans certains cas, la vitesse d'exploration peut être différente pour chaque état et, par conséquent, n est le nombre de fois que l'agent a visité l'état s [par exemple Powell, 2011, chapter 12].

Les deux interprétations sont également valides et assurent (ensemble d'autres conditions) la convergence asymptotique de Q-learning. Quand est préférable d'utiliser une approche ou une autre dépend de votre problème particulier, similaire à la valeur exacte de E que vous devriez utiliser.