étapes de l'algorithme MCTS sont:Monte Carlo Recherche: Adversaire se déplace avant SCTM arbre frontière
- Sélection
- Expansion
- Simulation
- rétropropagation
Ma question concerne la troisième étape, simulation. Nous avons développé notre arbre de décision avec un nouveau nœud et simulons les mouvements restants jusqu'à la fin du jeu. Cette simulation peut être divisé en deux parties:
- tourne dans lequel nous utiliser la politique de notre arbre de décision
- tours dans lequel mis se déplace au hasard pour les deux joueurs (ou utiliser une alternative spécifique du jeu politique par défaut)
Une visualisation de la ligne d'arbre SCTM qui sépare les deux phases est à la figure 1 de cette publication: http://www.ru.is/faculty/yngvi/pdf/FinnssonB09a.pdf
Je suis confus au sujet de la première partie. Pour simuler le jeu, nous prenons d'abord notre politique d'arbre dans le premier nœud, puis l'adversaire se déplace, puis nous prenons un autre mouvement de politique d'arbre, et ainsi de suite, jusqu'à atteindre le nœud créé à l'étape 2 de l'algorithme. Quels mouvements laissons-nous l'adversaire faire entre nos mouvements de politique d'arbre avant que nous atteignions la ligne d'arbre? Un adversaire au hasard pourrait faire un mouvement qui nous empêche de prendre notre prochain mouvement de politique d'arbre. Ou y a-t-il un autre malentendu de ma part?