Apprentissage par renforcement et POMDP

Je suis en train d'utiliser multi-couche NN pour mettre en œuvre la fonction de probabilité dans le processus de Markov partiellement Observable ..
Je pensais que les entrées au NN seraient: état actuel, l'action choisie, État du résultat; La sortie est une probabilité dans [0,1] (problème que l'exécution de l'action sélectionnée sur l'état actuel conduira à l'état résultat)
A l'entraînement, j'ai alimenté les entrées indiquées précédemment, dans le NN, et je lui ai enseigné le output = 1,0 pour chaque cas qui s'est déjà produit.

Le problème:
Pour presque tous les cas de test, la probabilité de sortie est proche 0,95 .. pas de sortie est inférieur à 0,9! Même pour des résultats presque impossibles, il a donné ce problème élevé. PS: Je pense que c'est parce que j'ai enseigné que les cas se sont produits, mais pas ceux qui ne se sont pas produits .. Mais je ne peux pas à chaque étape de l'épisode lui enseigner la sortie = 0.0 pour chaque action!Apprentissage par renforcement et POMDP

Des suggestions pour surmonter ce problème? Ou peut-être une autre façon d'utiliser NN ou d'implémenter la fonction prob?

Merci

Source

2010-05-01 Betamoo

Le problème est que la somme sur tous les états suivants possibles doit être égale à 1. Si vous construisez votre réseau comme ça, ce n'est pas garanti. Deux alternatives possibles viennent à l'esprit, où j'assume des états discrets.

Lors d'une prédiction, exécutez le réseau pour chaque état suivant possible. Ensuite, normaliser en divisant par la somme de toutes les probabilités.
Utilisez une sortie par état suivant possible. Vous pouvez alors utiliser une couche softmax (comme dans la classification) et interpréter les valeurs qui vont alors de 0 à 1 et résumer à 1 comme probabilités.

Ces deux sont en réalité à peu près équivalents d'un point de vue mathématique. Dans le cas des variables continues, vous devrez supposer des distributions (par exemple un gaussien multivarié) et utiliser les paramètres de cette distribution (par exemple, mean et covariance stdev) comme sorties.

Source

2010-05-03 12:54:48 bayer

Lors du montage du NN vous pouvez adapter à un éventail de données plus large, dans la formation est-il des données que vous souhaitez obtenir monté sur une plus proche de 0 probabilité? S'il n'y a pas, je soupçonne que vous pourriez obtenir de mauvais résultats. Dans un premier temps, j'essaierais de choisir des choses différentes dans l'ensemble de données d'entraînement.

De même, comment entraînez-vous le NN? Avez-vous essayé d'utiliser d'autres méthodes? Que diriez-vous des fonctions d'activation, peut-être essayer d'utiliser des fonctions différentes.

Avec les réseaux de neurones, je pense que quelques essais et erreurs lors du choix du modèle vont aider. (Désolé si tout cela n'est pas assez spécifique.)

Source

2010-05-01 16:39:51 shuttle87

Apprentissage par renforcement et POMDP

Répondre

Questions connexes