reinforcement-learning

0La chaleur

1Répondre

activations d'enregistrement de l'implémentation de lignes de base openAI

Je voudrais enregistrer les variables et les activations du reference implementation for reinforcement learning provided by openAI. L'enregistrement des poids et des biais était simple, mais j'ai du m

0La chaleur

2Répondre

Comprendre les fonctions de stratégie et de valeur apprentissage par renfort

Vous avez une politique, qui est effectivement une distribution de probabilité d'actions pour tous mes états. Une fonction de valeur détermine le meilleur déroulement des actions pour obtenir la récom

0La chaleur

1Répondre

Apprentissage direct/indirect et supervisé/non supervisé/de renforcement

Existe-t-il une correspondance entre l'apprentissage direct/indirect et supervisé/non supervisé/de renforcement? Pour moi, cela ressemble à un apprentissage direct - apprentissage supervisé et apprent

1La chaleur

1Répondre

kuka_grasp_block_playback.py de bulletphysics/bullet3 (bibliothèque pybullet) ne fonctionne pas sur mon système.

J'ai téléchargé le dépôt github bullet3 (Bullet Physics SDK) de https://github.com/bulletphysics/bullet3.git qui contient des liaisons python pour les exemples OpenAI Gym pour exécuter des algorithmes

3La chaleur

1Répondre

OpenAI Gym: Comprendre la notation `action_space`

Je veux configurer un agent RL sur l'environnement OpenAI CarRacing-v0, mais avant cela, je veux comprendre l'espace d'action. En the code on github ligne 119 dit: self.action_space = spaces.Box(np.ar

0La chaleur

1Répondre

Tensorflow: tf.gradients entre les différents chemins du graphique

Je travaille sur une implémentation DDPG, qui nécessite le calcul des gradients d'un réseau (ci-dessous: critic) par rapport à la sortie d'un autre réseau (ci-dessous: actor). Mon code utilise déjà de

2La chaleur

1Répondre

Comment implémenter un environnement personnalisé dans keras-rl/OpenAI GYM?

Je suis un débutant complet à l'apprentissage par renforcement et j'ai été à la recherche d'un cadre/module pour naviguer facilement sur ce terrain dangereux. Dans ma recherche, je suis tombé sur deux

3La chaleur

1Répondre

Existe-t-il des exemples d'utilisation de l'apprentissage par renforcement pour la classification de texte?

Imaginez un problème de classification binaire comme l'analyse des sentiments. Depuis que nous avons les étiquettes, ne pouvons-nous pas utiliser l'écart entre les prévisions - réelles comme récompens

0La chaleur

1Répondre

Différenciation automatique dans les réseaux de gradient de politique

Je comprends la rétropropagation dans les réseaux de gradient de politique, mais je ne suis pas sûr de savoir comment cela fonctionne avec les bibliothèques qui se différencient automatiquement. Autre

2La chaleur

1Répondre

Python jeu réseau neuronal. Comment configurer les entrées

Je suis en train de faire un jeu de chars en pygame où vous déplacez un char autour des murs et tirez sur d'autres chars. J'essaie de trouver un moyen de créer un réseau de neurones, probablement un a