Calcul d'une politique déterministe dans un MDP avec récompenses imprécises
Résumé
Pour beaucoup d'applications réelles nécessitant une prise de déci-
sion séquentielle dans un cadre incertain, on utilise un processus de décision
Markovien avec récompenses inconnues (IRMDP) en calculant naturellement
des politiques stochastiques. Une politique stochastique n'est pas facilement in-
terprétable pour l'utilisateur final. Celui-ci a souvent besoin d'une politique dé-
terministe et compréhensible. Pour mieux motiver l'utilisation d'une procédure
exacte pour trouver une politique déterministe, nous montrons quelques cas où
l'idée intuitive d'utiliser une politique déterministe obtenue après une «déter-
minisation» (arrondi) de la politique stochastique optimale donne une politique
déterministe différente de la politique optimale.