q-learning

3La chaleur

1Répondre

Comment mettre à jour les valeurs Q pour un jeu à deux joueurs

Pour un jeu solo, les mises à jour de valeur Q sont assez intuitives. L'état actuel et l'état futur dépendent de la stratégie d'un seul joueur, mais pour deux joueurs ce n'est pas le cas. Considérez l

0La chaleur

1Répondre

Différentes récompenses pour le même état dans l'apprentissage par renforcement

Je souhaite implémenter Q-Learning pour le jeu de dinosaures Chrome (celui que vous pouvez jouer lorsque vous êtes hors ligne). J'ai défini mon état comme: la distance à l'obstacle suivant, la vitesse

1La chaleur

1Répondre

deep q l'apprentissage ne converge pas

J'expérimente un apprentissage profond en utilisant Keras, et je veux apprendre à un agent à effectuer une tâche. dans mon problème que je wan't pour enseigner un agent pour éviter des objets frapper

0La chaleur

1Répondre

Représentation Q-table

Pour autant que je comprenne Q-learning, une valeur Q est une mesure de «comment bien» une paire d'état-action particulière. Ceci est habituellement représenté dans une table dans l'une des façons sui

1La chaleur

2Répondre

La décroissance d'Epsilon dans Q Learning

Le défi le plus important dans tout algorithme d'apprentissage par renforcement est d'équilibrer l'exploration et l'exploitation. J'essaie d'exécuter Q learning sur un problème de jouet, et je réalise

1La chaleur

1Répondre

Randomize Optimal Action Choix

Je travaille sur le code ci-dessous pour un programme de voiture auto-conduite. J'ai un problème dans ma fonction choose_action. L'agent doit être le choix d'une action au hasard d'un choix d'actions

-2La chaleur

2Répondre

Problèmes C++ Stockez un tableau en hashtable

Je suis actuellement en train de faire une recherche sur l'implémentation d'un programme C++ en utilisant l'algorithme Q-learning pour aider l'agent à obtenir la récompense. J'essaye d'utiliser le Has

0La chaleur

1Répondre

index de liste erreur hors plage utilisant random.choice

Je reçois l'erreur ci-dessous lorsque j'exécute mon programme, qui a la fonction définie ci-dessous. Je pense que c'est le valid_actions = filter(lambda x: x != random.choice(maxQactions) qui provoq

0La chaleur

1Répondre

Différenciation automatique dans les réseaux de gradient de politique

Je comprends la rétropropagation dans les réseaux de gradient de politique, mais je ne suis pas sûr de savoir comment cela fonctionne avec les bibliothèques qui se différencient automatiquement. Autre

0La chaleur

1Répondre

Comment indexer un autre tableau dans un tenseur tensoriel

J'essaye d'écrire un réseau de q-learning profond pour un problème dans AI. J'ai une fonction predict() qui produit un tenseur de forme (None, 3) en prenant une entrée de forme (None, 5). Le 3 dans (N