3

Je travaille sur la gestion de l'alimentation d'un système. Les objectifs que je cherche à minimiser sont la consommation d'énergie et la latence moyenne. J'ai une fonction unique objectif ayant la somme pondérée de façon linéaire des deux objectifs:Optimisation multi-critères avec apprentissage par renforcement

C=w.P_avg+(1-w).L_avg,  where w belongs to (0,1) 

J'utilise Q-learning pour trouver une courbe de compromis au sens de Pareto optimale en faisant varier le poids w et réglage des préférences différentes au pouvoir consommation et latence moyenne. J'obtiens une courbe pareto-optimale. Mon objectif, maintenant, est de fournir une contrainte (par exemple, la latence moyenne L_avg) et donc d'ajuster/trouver la valeur de w pour répondre aux critères donnés. Le mien est un algorithme en ligne, donc le réglage de w devrait se faire en ligne.

Pourrais-je recevoir des indices ou des suggestions à cet égard?

Répondre

2

Il y a une branche d'apprentissage de renforcement des objectifs multiples dans la communauté.

Le idear est 1:

assignez une famille d'agents à chaque objectif. Les solutions obtenues par les agents dans une famille sont comparées aux solutions obtenues par les agents du reste des familles. Un mécanisme de négociation est utilisé pour trouver des solutions de compromis satisfaisant tous les objectifs.

Il y a aussi un document qui pourrait être vous intéresser:

optimisation multi-objectifs par l'apprentissage par renforcement pour l'expédition du système d'alimentation et de la stabilité tension.

Je n'ai pas trouvé d'URL publique pour ça.

+0

Merci pour vos suggestions. Mais les documents/méthodes recommandés avec le LR multi-agents sont pour l'apprentissage hors-politique ou les tâches épisodiques. Dans mon cas, j'ai un problème d'apprentissage en ligne. – user846400

Questions connexes