Pour autant que je comprenne Q-learning, une valeur Q est une mesure de «comment bien» une paire d'état-action particulière. Ceci est habituellement représenté dans une table dans l'une des façons suivantes (voir fig.):Représentation Q-table
- sont à la fois des représentations valides?
- Comment déterminez-vous la meilleure action si la table Q est donnée en tant que table de transition d'état à état (comme indiqué dans la première table q de la figure), en particulier si les transitions d'état ne sont pas déterministes l'action d'un État peut vous débarquez dans différents états à des moments différents?)
@Pablo EM - merci pour l'édition. J'apprécie beaucoup. – 5mali