Améliorer les performances d'un modèle prédictif: perspectives et réalité
Abstract
Dans cet article, nous montrons que les performances d'un modèle
prédictif dépendent généralement plus de la qualité des données et du soin apporté
à leur préparation et à leur sélection, que de la technique de modélisation
elle-même. Entre deux techniques, l'écart de performance est souvent négligeable
en regard des incertitudes résultant de la définition de la variable à expliquer
et de la représentativité de l'échantillon d'étude. Toutefois, le rééchantillonnage
et l'agrégation de modèles peuvent permettre de réduire drastiquement la
variance et parfois même le biais de certains modèles. De bons résultats peuvent
aussi être obtenus simplement par la partition de modèles, c'est-à-dire en partitionnant
en classes l'échantillon initial et en construisant un modèle sur chaque
classe.