Amélioration de l'apprentissage par renforcement appliquée à la gestion de l'énergie par l'apprentissage des dynamiques indépendantes des actions
Résumé
Cet article est une traduction française de: "Enhancing Decision- Making
through Action-Independent Dynamics Learning" publié à ECAI 2024.
L'ajout d'objectifs auxiliaires dans l'apprentissage par renforcement permet aux
agents d'acquérir des connaissances supplémentaires, améliorant la recherche de
la politique optimale. Cet article présente l'algorithme MP-PPO, qui fusionne les
concepts de PPO avec un module de prédiction probabiliste Transformer intégré
dans l'architecture de l'Acteur-Critique. Ce modèle tire parti de la dépendance
temporelle inhérente aux systèmes de gestion de l'énergie, en prédisant les transitions
d'état futurs en apprenant à prédire certaines caractéristiques d'état. Les
expériences sur données réelles, démontrent que l'intégration de capacités prédictives
pour la prédiction d'états partiels améliore à la fois le rendement échantillonnal
et l'efficacité de l'approche originale PPO.