Cartographie du risque épidémiologique : le défi des données fortement déséquilibrées
Résumé
L'émergence de la collecte de données massives a contribué au développement
de méthodes d'extraction de connaissances, mais elle a également
apporté son lot de défis. Parmi ces défis, on retrouve le problème des données
fortement déséquilibrées, notamment dans les classes à prédire d'une tâche de
classification catégorielle. Cet article présente une stratégie complète développée
afin de pallier la problématique de données déséquilibrées dans le cadre
d'une étude épidémiologique spatio-temporelle de la leptospirose. L'approche
est évaluée sur des données réelles pour une tâche de classification binaire de
“présence de risque” de contamination de la bactérie associée à la leptospirose,
où la classe majoritaire représente environ 95% des classes à prédire. Par le
sous-échantillonnage, l'entraînement de 200 modèles d'apprentissage supervisé
et une prédiction pondérée, notre stratégie a atteint une justesse équilibrée de
76,19%, un AUC de 83,29% et un rappel de 83,93%.