Je travaille sur la gestion de l'alimentation d'un système. Les objectifs que je cherche à minimiser sont la consommation d'énergie et la latence moyenne. J'ai une fonction unique objectif ayant la somme pondérée de façon linéaire des deux objectifs:Optimisation multi-critères avec apprentissage par renforcement
C=w.P_avg+(1-w).L_avg, where w belongs to (0,1)
J'utilise Q-learning pour trouver une courbe de compromis au sens de Pareto optimale en faisant varier le poids w et réglage des préférences différentes au pouvoir consommation et latence moyenne. J'obtiens une courbe pareto-optimale. Mon objectif, maintenant, est de fournir une contrainte (par exemple, la latence moyenne L_avg) et donc d'ajuster/trouver la valeur de w pour répondre aux critères donnés. Le mien est un algorithme en ligne, donc le réglage de w devrait se faire en ligne.
Pourrais-je recevoir des indices ou des suggestions à cet égard?
Merci pour vos suggestions. Mais les documents/méthodes recommandés avec le LR multi-agents sont pour l'apprentissage hors-politique ou les tâches épisodiques. Dans mon cas, j'ai un problème d'apprentissage en ligne. – user846400