RNTI

MODULAD
Calcul d'une politique déterministe dans un MDP avec récompenses imprécises
In EGC 2019, vol. RNTI-E-35, pp.45-56
Résumé
Pour beaucoup d'applications réelles nécessitant une prise de déci- sion séquentielle dans un cadre incertain, on utilise un processus de décision Markovien avec récompenses inconnues (IRMDP) en calculant naturellement des politiques stochastiques. Une politique stochastique n'est pas facilement in- terprétable pour l'utilisateur final. Celui-ci a souvent besoin d'une politique dé- terministe et compréhensible. Pour mieux motiver l'utilisation d'une procédure exacte pour trouver une politique déterministe, nous montrons quelques cas où l'idée intuitive d'utiliser une politique déterministe obtenue après une «déter- minisation» (arrondi) de la politique stochastique optimale donne une politique déterministe différente de la politique optimale.