Différence temporelle de gradient Lambda sans approximation de fonction

Dans chaque formalisme de GTD (λ) semble le définir en termes d'approximation de fonction, en utilisant θ et un certain vecteur de poids w. Je comprends que le besoin de méthodes de gradient provient largement de leurs propriétés de convergence pour les approximateurs de fonctions linéaires, mais je voudrais utiliser GTD pour l'échantillonnage d'importance.Différence temporelle de gradient Lambda sans approximation de fonction

Est-il possible de tirer parti de GTD sans approximation de la fonction? Si oui, comment les équations de mise à jour sont-elles formalisées?

Source

2016-04-30 Andnp

Je comprends que lorsque vous dites "sans approximation de fonction", vous voulez dire représenter la fonction de valeur V sous forme de tableau. Dans ce cas, la représentation tabulaire de V peut aussi être vue comme un approximateur de fonction.

Par exemple, si l'on définit la fonction de valeur approximative comme:

Puis, en utilisant une représentation sous forme de tableau, il y a autant de fonctionnalités que les états, et le vecteur de caractéristique pour s un état donné est zéro pour tous les états sauf s (qu'il soit égal à un), et le vecteur de paramètres theta stocke la valeur pour chaque état. Par conséquent, GTD, ainsi que d'autres algorithmes, peuvent être utilisés sans aucune modification de manière tabulaire.

Source

2016-05-04 11:49:20

C'est exactement ce que je cherchais, merci! J'aurais dû voir que thêta pourrait alors être interprété comme la fonction de valeur en utilisant le codage un-de-k. – Andnp

Différence temporelle de gradient Lambda sans approximation de fonction

Répondre

Questions connexes