J'ai du mal à trouver une bonne fonction de récompense pour le problème du pendule, la fonction que j'utilise: -x ** 2 + - 0.25 * (xdot ** 2) qui est le quadratique erreur du haut. avec x représentant l'emplacement actuel du pendule et xdot la vitesse angulaire.Apprentissage par renfort, pendule python
cela prend beaucoup de temps avec cette fonction et parfois ne fonctionne pas. quelqu'un a d'autres suggestions? J'ai cherché dans google mais n'a pas trouvé tout ce que je pouvais utiliser
Je suppose que vous devriez plutôt publier ceci à des communautés de piles de données validées par recoupement ou même de datascience; le débordement est dédié aux aspects techniques, c'est-à-dire au codage et non à la méthodologie. –
Beaucoup de choses peuvent influencer la vitesse de convergence et son efficacité, en particulier l'algorithme d'apprentissage (Q-learning, SARSA, Deep Q-learning), le taux d'apprentissage et la taille de l'état de l'espace. Pourriez-vous s'il vous plaît développer votre question un peu plus? –