L'article Actor Mimic parle de la mise en œuvre d'une procédure de masquage d'action. Je citeComment peut-on implémenter le masquage d'actions?
Tout en jouant un certain jeu, nous masquer les sorties d'action AMN qui ne sont pas valables pour ce jeu et prendre le softmax que sur le sous-ensemble d'actions valides
Est-ce que quelqu'un a une idée sur la façon dont ce masquage d'action peut être mis en œuvre dans Tensorflow, par exemple? En particulier, comment prend-on une softmax uniquement sur un sous-ensemble d'actions spécifié?