reinforcement-learning

0La chaleur

2Répondre

Q Débordement des coefficients d'apprentissage

J'ai utilisé le défi blackbox (www.blackboxchallenge.com) pour essayer d'apprendre l'apprentissage par renforcement. J'ai créé une tâche et un environnement pour le challenge et j'utilise PyBrain pour

0La chaleur

1Répondre

Comment calculer les gradients pour un réseau neuronal avec theano en utilisant Q-Learning

J'essaie d'utiliser un réseau neuronal standard entièrement connecté comme base pour les valeurs d'action dans Q-Learning. J'utilise http://deeplearning.net/tutorial/mlp.html#mlp comme référence spéci

1La chaleur

1Répondre

Apprentissage de différences temporelles et rétropropagation

J'ai lu cette page de standford - https://web.stanford.edu/group/pdplab/pdphandbook/handbookch10.html. Je ne suis pas capable de comprendre comment l'apprentissage TD est utilisé dans les réseaux de n

1La chaleur

2Répondre

Apprentissage par renforcement: Le dilemme du choix des étapes de discrétisation et des mesures de performance pour l'action continue et l'espace d'état continu

J'essaie d'écrire un contrôleur adaptatif pour un système de contrôle, à savoir un système de gestion de l'alimentation utilisant Q-learning. J'ai récemment mis en place un problème de RL jouet pour l

1La chaleur

1Répondre

Normaliser des échantillons à 0 moyenne et 1 variance, dans des algorithmes d'apprentissage automatique en ligne

Je travaille actuellement sur un algorithme d'apprentissage automatique en ligne, où je dois m'assurer que chaque caractéristique du vecteur d'entrée a une moyenne de 0 et une variance entre les échan

1La chaleur

1Répondre

Comment trouver les fonctions de base linéaires optimales d'un MDP?

Étant donné un ensemble de fonctions de base, il existe de nombreux documents sur la recherche d'un vecteur de poids pour approximer linéairement la fonction de valeur. Y a-t-il du papier sur la façon

4La chaleur

1Répondre

Tensorflow et multitraitement: passer des sessions

J'ai récemment travaillé sur un projet qui utilise un réseau de neurones pour le contrôle de robot virtuel. J'ai utilisé tensorflow pour le coder et il fonctionne bien. Jusqu'à présent, j'ai utilisé d

2La chaleur

1Répondre

Est-ce une implémentation correcte de Q-Learning for Checkers?

J'essaie de comprendre Q-Learning, Mon algorithme actuel fonctionne comme suit: 1. Une table de consultation est maintenue qui associe un état à l'information sur sa récompense immédiate et utilitaire

2La chaleur

1Répondre

Différence temporelle de gradient Lambda sans approximation de fonction

Dans chaque formalisme de GTD (λ) semble le définir en termes d'approximation de fonction, en utilisant θ et un certain vecteur de poids w. Je comprends que le besoin de méthodes de gradient provient