Je suis novice dans l'apprentissage par renforcement. Donc, il peut sembler une question trivialeApprentissage par renforcement Nombre total de politiques ayant des états finis et des actions
En supposant 3 états {x, y, z} et 2 actions {a, b}
Pourquoi le nombre total des politiques/espace de recherche 2^3 = 8.
Tenir compte de ces cas,
x - y - z (actions a,b)
x - z - y (actions a,b)
y - x - z (actions a,b)
y - z - x (actions a,b)
z - x - y (actions a,b)
z - y - x (actions a,b)
Cela ne ferait que me donner 6 politiques? Ensuite, en considérant * 2 en raison des actions (b, a), il me donnera 12 politiques.
Ai-je raté quelque chose?