Apprentissage par renforcement Nombre total de politiques ayant des états finis et des actions

Je suis novice dans l'apprentissage par renforcement. Donc, il peut sembler une question trivialeApprentissage par renforcement Nombre total de politiques ayant des états finis et des actions

En supposant 3 états {x, y, z} et 2 actions {a, b}

Pourquoi le nombre total des politiques/espace de recherche 2^3 = 8.

Tenir compte de ces cas,

x - y - z (actions a,b) 
x - z - y (actions a,b) 
y - x - z (actions a,b) 
y - z - x (actions a,b) 
z - x - y (actions a,b) 
z - y - x (actions a,b)

Cela ne ferait que me donner 6 politiques? Ensuite, en considérant * 2 en raison des actions (b, a), il me donnera 12 politiques.

Ai-je raté quelque chose?

Source

2017-05-10 aceminer

En supposant une politique déterministe (ce qui est votre cas), une politique détermine l'action qui doit être effectuée dans chaque état. Dans votre cas, vous avez 3 états (x,y,z) et deux actions possibles (a,b). Ensuite, ce sont vos politiques possibles:

+---+---+---+ 
| x | y | z | 
+---+---+---+ 
| a | a | a | 
| a | a | b | 
| a | b | a | 
| a | b | b | 
| b | a | a | 
| b | a | b | 
| b | b | a | 
| b | b | b | 
+---+---+---+

J'espère que maintenant il est plus clair que le nombre total de politiques/espace de recherche est 2^3 = 8.

Source

2017-05-10 07:52:40

Apprentissage par renforcement Nombre total de politiques ayant des états finis et des actions

Répondre

Questions connexes