Amélioration de l'apprentissage par renforcement appliquée à la gestion de l'énergie par l'apprentissage des dynamiques indépendantes des actions

Théo Zangato, Aomar Osmani, Pegah Alizadeh

In EGC 2025, vol. RNTI-E-41, pp.475-482

Résumé

Cet article est une traduction française de: "Enhancing Decision- Making through Action-Independent Dynamics Learning" publié à ECAI 2024. L'ajout d'objectifs auxiliaires dans l'apprentissage par renforcement permet aux agents d'acquérir des connaissances supplémentaires, améliorant la recherche de la politique optimale. Cet article présente l'algorithme MP-PPO, qui fusionne les concepts de PPO avec un module de prédiction probabiliste Transformer intégré dans l'architecture de l'Acteur-Critique. Ce modèle tire parti de la dépendance temporelle inhérente aux systèmes de gestion de l'énergie, en prédisant les transitions d'état futurs en apprenant à prédire certaines caractéristiques d'état. Les expériences sur données réelles, démontrent que l'intégration de capacités prédictives pour la prédiction d'états partiels améliore à la fois le rendement échantillonnal et l'efficacité de l'approche originale PPO.

Aperçu Voir bibtex

Télécharger