1

J'essaie d'écrire un contrôleur adaptatif pour un système de contrôle, à savoir un système de gestion de l'alimentation utilisant Q-learning. J'ai récemment mis en place un problème de RL jouet pour le système de chariot et j'ai élaboré la formulation du problème de contrôle d'hélicoptère à partir des notes d'Andrew NG. J'apprécie comment l'approximation de la fonction de valeur est impérative dans de telles situations. Cependant ces deux exemples populaires ont un très petit nombre d'actions discrètes possibles. J'ai trois questions:Apprentissage par renforcement: Le dilemme du choix des étapes de discrétisation et des mesures de performance pour l'action continue et l'espace d'état continu

1) Quelle est la manière correcte de traiter de tels problèmes si vous n'avez pas un petit nombre d'actions discrètes? La dimensionnalité de mes actions et de mes états semble avoir explosé et l'apprentissage semble très médiocre, ce qui m'amène à ma prochaine question.

2) Comment mesurer les performances de mon agent? Comme la récompense change en même temps que l'environnement dynamique, je ne peux pas décider, à chaque pas de temps, les mesures de performance pour mon agent RL continu. De même, contrairement aux problèmes de gridworld, je ne peux pas vérifier la table de Q-valeur en raison des énormes paires d'états-actions, comment puis-je savoir que mes actions sont optimales?

3) Depuis j'ai un modèle pour l'évolution des états à travers le temps. Etats = [Y, U]. Y [t + 1] = aY [t] + bA, où A est une action. Choisir l'étape de discrétisation pour les actions A affectera également la façon dont je dois discrétiser ma variable d'état Y. Comment choisir mes étapes de discrétisation? Merci beaucoup!

Répondre

3

Vous pouvez utiliser un algorithme d'apprentissage par renforcement à action continue et éviter complètement le problème de discrétisation. Je vous suggère de jeter un oeil à CACLA. En ce qui concerne la performance, vous devez mesurer la récompense accumulée par votre agent pendant un épisode d'apprentissage désactivé. Puisque votre environnement est stochastique, prenez de nombreuses mesures et faites la moyenne.

2

Jetez un coup d'œil aux algorithmes de recherche de politique. Fondamentalement, ils apprennent directement une politique paramétrique sans fonction de valeur explicite, évitant ainsi le problème d'approximation de la fonction Q pour les actions continues (par exemple, aucune discrétisation de l'espace d'action n'est nécessaire).

L'un des algorithmes de recherche de politique les plus faciles et les plus anciens est le gradient de politique. Jetez un oeil here pour un aperçu rapide sur le sujet. Et here pour une enquête sur la recherche de politiques (actuellement, il existe des techniques plus récentes, mais c'est un très bon point de départ). Dans le cas d'un problème de contrôle, il y a une tâche de jouet très simple que vous pouvez regarder, le Linear Quadratic Gaussian Regulator (LQG). Here vous pouvez trouver une conférence comprenant cet exemple et également une introduction à la recherche de politique et au gradient de politique. En ce qui concerne votre deuxième point, si votre environnement est dynamique (c'est-à-dire que la fonction de récompense de la fonction de transition (ou les deux) change au fil du temps), vous devez examiner les politiques non stationnaires. C'est typiquement un problème beaucoup plus difficile dans RL.