2017-03-02 1 views
0

Pour autant que je comprenne Q-learning, une valeur Q est une mesure de «comment bien» une paire d'état-action particulière. Ceci est habituellement représenté dans une table dans l'une des façons suivantes (voir fig.):Représentation Q-table

enter image description here

  1. sont à la fois des représentations valides?
  2. Comment déterminez-vous la meilleure action si la table Q est donnée en tant que table de transition d'état à état (comme indiqué dans la première table q de la figure), en particulier si les transitions d'état ne sont pas déterministes l'action d'un État peut vous débarquez dans différents états à des moments différents?)
+1

@Pablo EM - merci pour l'édition. J'apprécie beaucoup. – 5mali

Répondre

1
  1. No. en général, une action ne correspond pas à une transition vers un état particulier. Il peut y avoir un nombre d'actions différent de celui des états, la même action peut conduire à des états différents selon l'état dans lequel elle est effectuée, et différentes actions peuvent conduire au même état. Les transitions peuvent également être stochastiques.

  2. Voir (1).

+0

à partir de votre réponse Je voudrais conclure que la première table q n'est pas une représentation correcte alors que celle du bas est la représentation correcte de la table q. Ai-je raison de le faire? – 5mali

+0

@ 5mali, en effet. –

+0

@ Don Reba Merci^_ ^. Tout s'explique maintenant. – 5mali