Apprentissage machine pour la prédiction de l'attrition: une étude comparative
Résumé
La prédiction du taux d'attrition est une préoccupation économique
majeure pour de nombreuses entreprises. Différentes approches d'apprentissage
ont été proposées, toutefois le choix à priori du modèle le plus adapté reste
une tâche non triviale car extrêmement dépendante des caractéristiques intrinsèques
des données d'attrition. Notre étude compare huit méthodes d'apprentissage
supervisé combinées à sept approches d'échantillonnage sur treize jeux
de données publiques relatifs au désabonnement. Nos évaluations, rapportées en
termes d'aire sous la courbe (AUC), explorent l'influence du rééquilibrage et
des propriétés des données sur les performances des méthodes d'apprentissage.
Nous nous appuyons sur le test de Nemenyi et l'Analyse des Correspondances
comme moyens de visualisation de l'association entre modèles, rééquilibrages
et données. Notre étude comparative identifie les meilleures méthodes dans un
contexte d'attrition et propose une chaîne de traitements générique performante
basée sur une approche ensemble.