2017-05-27 5 views
1

J'étudie le format de dossier de POMDP et la mise en jachère this et beaucoup d'autres liens. J'ai tout compris mais je n'arrive pas à comprendre ce que signifie la valeur dans la deuxième rangée du fichier. Ses valeurs sont Reward ou Cost. Vous ne trouvez pas la réponse ailleurs. Se confondre, car il devrait être possible d'avoir des coûts ET des récompenses dans un document, non? Pourquoi dois-je spécifier l'un d'entre eux? Aussi nulle part dans le reste du fichier, la valeur n'est pas utilisée.Quelle est la signification de la ligne Valeurs dans POMDP?

Répondre

1

En POMDP vous pouvez utiliser récompenses OU coûts pour définir l'objectif d'apprentissage. La seule différence est que dans le premier cas, vous essayez de maximiser le value function, alors que pour le coût, vous essayez de minimiser le value function.

Dans le POMDP file vous pouvez définir celui que vous utilisez:

values: [ reward, cost ] 

Lorsque le solveur lit le POMDP file, il interprétera les valeurs définies avec R: soit comme récompense ou le coût.

+0

Merci pour votre précisions. Peut-être que vous savez aussi comment cela est implémenté dans le fichier POMDPx, car il n'y a pas de lignes spécifiant cela? – Oskars

+0

Dans [ce format de fichier POMDPX] (http://bigbird.comp.nus.edu.sg/pmwiki/farm/appl/index.php?n=Main.PomdpXDocumentation), il doit être défini avec la balise ''. – agold