reinforcement-learning

3La chaleur

2Répondre

Quelle est la façon de comprendre l'algorithme d'optimisation de la politique proximale dans RL?

Je connais les bases de l'apprentissage par renforcement, mais quels termes faut-il comprendre pour pouvoir lire arxiv PPO paper? Quelle est la feuille de route à apprendre et à utiliser PPO?

1La chaleur

2Répondre

Utilisation de CNTK pour générer une séquence par échantillonnage à chaque étape de génération

Dans un modèle seq2seq avec un codeur et un décodeur, à chaque étape de génération, une couche softmax génère une distribution sur l'ensemble du vocabulaire. Dans CNTK, un décodeur gourmand peut être

0La chaleur

1Répondre

Comment régler l'entrée pour LSTM dans Keras

Je suis nouveau à Keras, et j'ai du mal à comprendre la forme des données d'entrée de la couche LSTM. La documentation de Keras indique que les données d'entrée doivent être en 3D avec une forme (nb_s

1La chaleur

2Répondre

Lorsque nous faisons une classification supervisée avec NN, pourquoi nous entraînons-nous pour une entropie croisée et non pour une erreur de classification?

La configuration de classification standard sous la direction: nous avons un tas d'échantillons, chacun avec l'étiquette correcte de N étiquettes. Nous construisons un NN avec N sorties, transformons

1La chaleur

1Répondre

Comment déployer un modèle d'apprentissage par renforcement sur un service Web

Je prévois de créer un site Web où les utilisateurs peuvent jouer à un jeu simple avec un agent d'IA qualifié. Comment déployer un modèle d'apprentissage par renforcement sur un service Web? Pouvons-n

3La chaleur

1Répondre

Implémentation d'une fonction de perte (MSVE) dans l'apprentissage par renforcement

J'essaye de construire un agent d'apprentissage de la différence temporelle pour Othello. Alors que le reste de ma mise en œuvre semble fonctionner comme prévu, je m'interroge sur la fonction de perte

0La chaleur

1Répondre

Approximateur de fonction et q-learning

J'essaie de mettre en œuvre q-learning avec une fonction d'approximation de valeur d'action. J'utilise openai-gym et l'environnement "MountainCar-v0" pour tester mon algorithme. Mon problème est, il n

2La chaleur

1Répondre

Programmation dynamique du processus décisionnel de Markov avec l'itération de valeur

Je suis en train d'apprendre à propos de MDP et value iteration en auto-apprentissage et j'espère que quelqu'un peut améliorer ma compréhension. Considérons le problème d'un dé à 3 faces ayant les num

2La chaleur

1Répondre

OpenAI mode joueur de gym

Est-ce que quelqu'un sait comment faire fonctionner un des environnements de gym OpenAI en tant que joueur. Comme en laissant un joueur humain jouer un tour de poteau de panier? J'ai vu qu'il y a env.

0La chaleur

1Répondre

tf.gradients renvoie tous les zéros

Ce qui suit est une partie du code que j'utilise pour concevoir algo de dégradé de politique. en tensorflow: self.activation = tf.contrib.layers.fully_connected(inputs= state,num_outputs =\ num_actio