Quelle est la façon de comprendre l'algorithme d'optimisation de la politique proximale dans RL?

Je connais les bases de l'apprentissage par renforcement, mais quels termes faut-il comprendre pour pouvoir lire arxiv PPO paper?Quelle est la façon de comprendre l'algorithme d'optimisation de la politique proximale dans RL?

Quelle est la feuille de route à apprendre et à utiliser PPO?

Source

2017-09-26 Александр Киберман

PPO est un algorithme simple, qui relève de la classe des algorithmes d'optimisation de politique (par opposition aux méthodes basées sur des valeurs telles que DQN). Si vous "connaissez" les bases de RL (je veux dire si vous avez au moins lu attentivement quelques premiers chapitres de Sutton's book par exemple), alors une première étape logique est de se familiariser avec les algorithmes de gradient de politique. Vous pouvez lire this paper ou le chapitre 13 de Sutton's book nouvelle édition. En outre, vous pouvez également lire this paper sur TRPO, qui est un travail antérieur du premier auteur de PPO (cet article a de nombreuses erreurs de notation, juste noter). J'espère que cela pourra aider. --Mehdi

Source

2017-09-28 18:36:34 Mehdi

PPO, et notamment TRPO tente de mettre à jour la politique de manière conservatrice, sans affecter ses performances de façon négative entre chaque mise à jour de politique. Pour ce faire, vous devez disposer d'un moyen de mesurer l'évolution de la stratégie après chaque mise à jour. Cette mesure est faite en regardant la divergence KL entre la politique mise à jour et l'ancienne politique. Ceci devient un problème d'optimisation contraint, nous voulons changer la politique dans le sens de la performance maximum, suite aux contraintes que la divergence KL entre ma nouvelle politique et ancienne ne dépasse pas un certain seuil prédéfini (ou adaptatif). Avec TRPO, nous calculons la contrainte KL pendant la mise à jour et trouvons le taux d'apprentissage pour ce problème (via Fisher Matrix et le gradient conjugué). C'est un peu compliqué à mettre en œuvre. Avec PPO, nous simplifions le problème en transformant la divergence KL d'une contrainte en un terme de pénalité, semblable à par exemple à L1, L2 pénalité de poids (pour empêcher un poids de croître de grandes valeurs). PPO effectue des modifications supplémentaires en supprimant le besoin de calculer la divergence KL tous ensemble, en coupant durablement le ratio de politique (ratio de politique mise à jour avec ancienne) pour être dans une petite gamme autour de 1.0, où 1.0 signifie que la nouvelle politique est la même qu'ancienne.

Source

2018-01-15 23:25:01 Sunrisetofu

Quelle est la façon de comprendre l'algorithme d'optimisation de la politique proximale dans RL?

Répondre

Questions connexes