J'essaie d'écrire un contrôleur adaptatif pour un système de contrôle, à savoir un système de gestion de l'alimentation utilisant Q-learning. J'ai récemment mis en place un problème de RL jouet pour le système de chariot et j'ai élaboré la formulation du problème de contrôle d'hélicoptère à partir des notes d'Andrew NG. J'apprécie comment l'approximation de la fonction de valeur est impérative dans de telles situations. Cependant ces deux exemples populaires ont un très petit nombre d'actions discrètes possibles. J'ai trois questions:Apprentissage par renforcement: Le dilemme du choix des étapes de discrétisation et des mesures de performance pour l'action continue et l'espace d'état continu
1) Quelle est la manière correcte de traiter de tels problèmes si vous n'avez pas un petit nombre d'actions discrètes? La dimensionnalité de mes actions et de mes états semble avoir explosé et l'apprentissage semble très médiocre, ce qui m'amène à ma prochaine question.
2) Comment mesurer les performances de mon agent? Comme la récompense change en même temps que l'environnement dynamique, je ne peux pas décider, à chaque pas de temps, les mesures de performance pour mon agent RL continu. De même, contrairement aux problèmes de gridworld, je ne peux pas vérifier la table de Q-valeur en raison des énormes paires d'états-actions, comment puis-je savoir que mes actions sont optimales?
3) Depuis j'ai un modèle pour l'évolution des états à travers le temps. Etats = [Y, U]. Y [t + 1] = aY [t] + bA, où A est une action. Choisir l'étape de discrétisation pour les actions A affectera également la façon dont je dois discrétiser ma variable d'état Y. Comment choisir mes étapes de discrétisation? Merci beaucoup!