reinforcement-learning

0La chaleur

1Répondre

exploration et exploitation dans Q-learning

Dans l'algorithme Q-learning, la sélection d'une action dépend de l'état actuel et des valeurs de la matrice Q. Je veux savoir si ces valeurs de Q sont mises à jour seulement pendant l'étape d'explora

0La chaleur

2Répondre

Interface simple pour l'apprentissage de renforcement

J'ai un algorithme d'apprentissage par renforcement écrit en Python et je voudrais construire une interface très simple pour cela (formulaire d'entrée et de sortie). Comme je suis un débutant fictif e

1La chaleur

1Répondre

Pybrain renforcement de l'apprentissage; dimension de l'état

Je travaille sur un projet de combiner l'apprentissage par renforcement avec des simulations de feux de circulation en utilisant le package Pybrain. J'ai lu le tutoriel et mis en œuvre mes propres sou

1La chaleur

1Répondre

Comment peut-on implémenter le masquage d'actions?

L'article Actor Mimic parle de la mise en œuvre d'une procédure de masquage d'action. Je cite Tout en jouant un certain jeu, nous masquer les sorties d'action AMN qui ne sont pas valables pour ce jeu

0La chaleur

1Répondre

Quelle est la meilleure fonction d'objectif pour la tâche CartPole?

Je fais un dégradé de politique et j'essaie de comprendre quelle est la meilleure fonction d'objectif pour la tâche. La tâche est l'environnement ouvert de CartPole-v0 dans lequel l'agent reçoit une r

4La chaleur

2Répondre

Comment comprendre l'algorithme d'apprentissage Q (λ) de Watkins dans le livre RL de Sutton & Barto?

à Sutton & livre de RL Barto (link), l'algorithme d'apprentissage Q de Watkins (λ) présenté à la figure 7.14: Ligne 10 "Pour tout s, a:", le "s, un" est ici pour tous les (s, a), alors que (s, a) dans

1La chaleur

2Répondre

Pourquoi mon réseau de neurones Q-learner n'apprend tic-tac-toe

Bon, alors j'ai créé un réseau de neurones Q-learner en utilisant la même idée que l'algorithme Atari de DeepMind (sauf que je donne des données brutes et non des images (encore)). construction du rés

2La chaleur

1Répondre

Q algorithme d'apprentissage en profondeur ne fonctionne pas

été essayé d'implémenter un algorithme d'apprentissage en profondeur Q, ayant un problème si, ne fonctionne pas, après 100 000 jeux et en utilisant 1000 itérations pour former chaque étape (bien que j