3La chaleur
2Répondre
Quelle est la façon de comprendre l'algorithme d'optimisation de la politique proximale dans RL?
1La chaleur
2Répondre
Utilisation de CNTK pour générer une séquence par échantillonnage à chaque étape de génération
0La chaleur
1Répondre
Comment régler l'entrée pour LSTM dans Keras
1La chaleur
2Répondre
1La chaleur
1Répondre
Comment déployer un modèle d'apprentissage par renforcement sur un service Web
3La chaleur
1Répondre
Implémentation d'une fonction de perte (MSVE) dans l'apprentissage par renforcement
0La chaleur
1Répondre
Approximateur de fonction et q-learning
2La chaleur
1Répondre
Programmation dynamique du processus décisionnel de Markov avec l'itération de valeur
2La chaleur
1Répondre
0La chaleur
1Répondre
tf.gradients renvoie tous les zéros