2017-02-14 1 views
0

J'ai du mal à trouver une bonne fonction de récompense pour le problème du pendule, la fonction que j'utilise: -x ** 2 + - 0.25 * (xdot ** 2) qui est le quadratique erreur du haut. avec x représentant l'emplacement actuel du pendule et xdot la vitesse angulaire.Apprentissage par renfort, pendule python

cela prend beaucoup de temps avec cette fonction et parfois ne fonctionne pas. quelqu'un a d'autres suggestions? J'ai cherché dans google mais n'a pas trouvé tout ce que je pouvais utiliser

+1

Je suppose que vous devriez plutôt publier ceci à des communautés de piles de données validées par recoupement ou même de datascience; le débordement est dédié aux aspects techniques, c'est-à-dire au codage et non à la méthodologie. –

+1

Beaucoup de choses peuvent influencer la vitesse de convergence et son efficacité, en particulier l'algorithme d'apprentissage (Q-learning, SARSA, Deep Q-learning), le taux d'apprentissage et la taille de l'état de l'espace. Pourriez-vous s'il vous plaît développer votre question un peu plus? –

Répondre

0

En this paper, les auteurs effectuent différentes expériences dans une simulation et une version réelle du pendule inversé avec la fonction de récompense suivante: enter image description here

ici, x est le vecteur d'état représentant l'angle actuel et la vitesse angulaire, et u est l'action. Les expériences montrent que la fonction de récompense fonctionne raisonnablement bien en utilisant les algorithmes suivants: SARSA, LSPI, expérience replay SARSA et expérience replay Q-learning. Cependant, tenez compte du fait que votre problème n'est peut-être pas (seulement) lié à la fonction de récompense, puisque la vitesse de convergence peut être affectée par de nombreux facteurs, comme suggéré par @Matheus Portela dans les commentaires.