0
  • Je travaille sur un projet avec RL & NN
  • je dois déterminer la structure du vecteur d'action qui sera envoyé à un réseau de neurones ..

J'ai 3 différentes actions (A & B & Rien) chacune avec des puissances différentes (par exemple A100 A50 B100 B50) Je me demande quelle est la meilleure façon d'alimenter ces actions à un NN afin de donner de meilleurs résultats?apprentissage par renforcement des réseaux de neurones

1- alimentation A/B à l'entrée 1, tandis que l'action électrique 100/50/Rien à l'entrée 2

2- alimentation A100/A50/Rien à l'entrée 1, tandis que B100/B50/Rien à l'entrée 2

3- alimentation A100/A50 à l'entrée 1, tandis que B100/B50 à l'entrée 2, tandis que rien drapeau à l'entrée 3

4- également pour nourrir 100 & 50, ou les deux à normaliser & 1?

J'ai besoin des raisons pour lesquelles choisir une méthode Toutes les suggestions sont recommandées

Merci

+0

Combien y-a-t-il de sorties et que voulez-vous faire avec différentes entrées? Sauf si vous spécifiez quels sont les «meilleurs résultats», personne ne pourra vous aider. (BTW, combien d'entrées sont là, et comment devraient-ils interagir?) –

Répondre

1

Que voulez-vous apprendre? Quelle devrait être la sortie? L'entrée est-elle simplement l'action utilisée? Si vous apprenez un modèle de l'environnement, il se traduit par une distribution de probabilité:

P (NEXT_STATE | état, action)

Il est courant d'utiliser un modèle distinct pour chaque action. Cela simplifie le mappage entre l'entrée et la sortie. L'entrée est un vecteur des entités d'état. La sortie est un vecteur des caractéristiques de l'état suivant. L'action utilisée est impliquée par le modèle.

Les entités d'état peuvent être codées en tant que bits. Un bit actif indiquerait la présence d'une caractéristique.

Ceci permettrait d'apprendre un modèle déterministe. Je ne sais pas quel est le meilleur moyen d'apprendre un modèle stochastique des états suivants. Une possibilité pourrait être d'utiliser des neurones stochastiques.