2017-05-10 1 views
2

Je suis novice dans l'apprentissage par renforcement. Donc, il peut sembler une question trivialeApprentissage par renforcement Nombre total de politiques ayant des états finis et des actions

En supposant 3 états {x, y, z} et 2 actions {a, b}

Pourquoi le nombre total des politiques/espace de recherche 2^3 = 8.

Tenir compte de ces cas,

x - y - z (actions a,b) 
x - z - y (actions a,b) 
y - x - z (actions a,b) 
y - z - x (actions a,b) 
z - x - y (actions a,b) 
z - y - x (actions a,b) 

Cela ne ferait que me donner 6 politiques? Ensuite, en considérant * 2 en raison des actions (b, a), il me donnera 12 politiques.

Ai-je raté quelque chose?

Répondre

2

En supposant une politique déterministe (ce qui est votre cas), une politique détermine l'action qui doit être effectuée dans chaque état. Dans votre cas, vous avez 3 états (x,y,z) et deux actions possibles (a,b). Ensuite, ce sont vos politiques possibles:

+---+---+---+ 
| x | y | z | 
+---+---+---+ 
| a | a | a | 
| a | a | b | 
| a | b | a | 
| a | b | b | 
| b | a | a | 
| b | a | b | 
| b | b | a | 
| b | b | b | 
+---+---+---+ 

J'espère que maintenant il est plus clair que le nombre total de politiques/espace de recherche est 2^3 = 8.