q-learning

1La chaleur

1Répondre

Je sais que c'est peut-être une question assez stupide à poser, mais que diable .. Je cherche actuellement à mettre en œuvre le sélecteur d'action soft max, qui utilise la distribution de Boltzmann. F

4La chaleur

2Répondre

Les valeurs de Q-Learning deviennent trop élevées

J'ai récemment tenté d'implémenter un algorithme de Q-Learning de base dans Golang. Notez que je suis novice dans le domaine de l'apprentissage par renforcement et de l'IA en général, donc l'erreur pe

2La chaleur

1Répondre

Est-ce une implémentation correcte de Q-Learning for Checkers?

J'essaie de comprendre Q-Learning, Mon algorithme actuel fonctionne comme suit: 1. Une table de consultation est maintenue qui associe un état à l'information sur sa récompense immédiate et utilitaire

0La chaleur

1Répondre

valeur Q pour l'état d'absorption

\begin{equation} Q_{t+1}(s_t,a_t) = Q_{t}(s_t,a_t) +\alpha (R_{t+1} + \gamma * \max(Q_t(s_{t+1}, a)) - Q_t(s_t, a_t)) \end{equation} Dans l'équation ci-dessus, il y a un terme max(Q_t(s_{t+1},a)

1La chaleur

1Répondre

Structure de données C++ pour un graphe non orienté de taille inconnue

J'essaie de créer un programme qui explore un graphe non orienté d'une taille inconnue et construit une liste d'adjacence au fur et à mesure. Normalement, je ferais un set<set<String>> (les chambres s

-3La chaleur

1Répondre

Qu'est-ce q-learning profond

Qu'est-ce qu'un apprentissage en profondeur? Est-ce la même chose que l'apprentissage par renforcement profond? Comment cela implique-t-il les réseaux neuronaux profonds? Comme dans ce qui doit être a

11La chaleur

1Répondre

Apprentissage par renforcement profond par rapport à l'apprentissage par renforcement

Quelle est la différence entre deep l'apprentissage par renforcement et l'apprentissage par renforcement? Je sais essentiellement ce qu'est l'apprentissage par renforcement, mais que signifie le terme

1La chaleur

1Répondre

Javascript - Empêcher Chrome de tuer la page pendant la boucle longue

Chrome continue de tuer la page au milieu de mon jeu de navigateur connect-quatre quand il fonctionne correctement. Le jeu est un joueur contre l'installation de l'ordinateur et le jeu lui-même foncti

0La chaleur

2Répondre

Q Débordement des coefficients d'apprentissage

J'ai utilisé le défi blackbox (www.blackboxchallenge.com) pour essayer d'apprendre l'apprentissage par renforcement. J'ai créé une tâche et un environnement pour le challenge et j'utilise PyBrain pour