Dans chaque formalisme de GTD (λ) semble le définir en termes d'approximation de fonction, en utilisant θ et un certain vecteur de poids w. Je comprends que le besoin de méthodes de gradient provient largement de leurs propriétés de convergence pour les approximateurs de fonctions linéaires, mais je voudrais utiliser GTD pour l'échantillonnage d'importance.Différence temporelle de gradient Lambda sans approximation de fonction
Est-il possible de tirer parti de GTD sans approximation de la fonction? Si oui, comment les équations de mise à jour sont-elles formalisées?
C'est exactement ce que je cherchais, merci! J'aurais dû voir que thêta pourrait alors être interprété comme la fonction de valeur en utilisant le codage un-de-k. – Andnp