reinforcement-learning

1La chaleur

1Répondre

DDPG gradient de politique en utilisant DeepLearning4J

J'essaie d'implémenter le deep deterministic policy gradient algorithm en Java en utilisant la bibliothèque DeepLearning4j, mais j'ai quelques problèmes avec l'implémentation du dégradé de politique d

0La chaleur

1Répondre

Apprentissage par renforcement - Apprendre à partir de pixels bruts

J'ai été présenté à RL par le livre de Sutton. Afin d'approfondir cette connaissance, je voudrais explorer comment l'agent apprend à partir de pixels bruts et essayer de mettre en œuvre un exemple en

0La chaleur

1Répondre

OpenAI gym: quand la réinitialisation est-elle nécessaire?

Bien que je puisse gérer pour obtenir les exemples et mon propre code à exécuter, je suis plus curieux de connaître les réelles attentes/sémantique derrière OpenAI API de gym, notamment Env.reset() Qu

2La chaleur

1Répondre

Apprentissage par renforcement Nombre total de politiques ayant des états finis et des actions

Je suis novice dans l'apprentissage par renforcement. Donc, il peut sembler une question triviale En supposant 3 états {x, y, z} et 2 actions {a, b} Pourquoi le nombre total des politiques/espace de r

0La chaleur

1Répondre

ValueError: La variable A3C_net/basic_lstm_cell/weight n'existe pas ou n'a pas été créée avec tf.get_variable()

Lorsque je crée un LSTM avec tf.nn.dynamic_rnn, le problème concernant name_scope entraîne son échec et la plateforme est WINDOWS 10. Je ne peux pas le résoudre et toute aide serait appréciée. Merci b

0La chaleur

1Répondre

Choix d'un état aléatoire pondéré par la probabilité

J'essaie de créer un environnement stochastique pour un algorithme RL personnalisé. Le code de ce code utilise un dictionnaire ordonné (exemple: OrderedDict ([(0,1), (1,0) , (2,0), (3,0)]) le premier

3La chaleur

1Répondre

Comment mettre à jour les valeurs Q pour un jeu à deux joueurs

Pour un jeu solo, les mises à jour de valeur Q sont assez intuitives. L'état actuel et l'état futur dépendent de la stratégie d'un seul joueur, mais pour deux joueurs ce n'est pas le cas. Considérez l

0La chaleur

1Répondre

Différentes récompenses pour le même état dans l'apprentissage par renforcement

Je souhaite implémenter Q-Learning pour le jeu de dinosaures Chrome (celui que vous pouvez jouer lorsque vous êtes hors ligne). J'ai défini mon état comme: la distance à l'obstacle suivant, la vitesse

0La chaleur

1Répondre

ne peut pas comprendre cette ligne d'un programme d'apprentissage Q populaire profond

https://github.com/yenchenlin/DeepLearningFlappyBird/blob/master/deep_q_network.py#L82 J'ai passé beaucoup de temps à le comprendre. Pourquoi utiliser tf.multiply? Je ne trouve pas les maths qui suppo

0La chaleur

1Répondre

Comment puis-je utiliser d'autres environnements

OpenAI de universe est une bibliothèque impressionnante, puisque le code # coding: utf-8 import gym import universe # register the universe environments env = gym.make('flashgames.DuskDrive-v0')