RNTI

MODULAD
Cartographie du risque épidémiologique : le défi des données fortement déséquilibrées
In EGC 2025, vol. RNTI-E-41, pp.159-170
Résumé
L'émergence de la collecte de données massives a contribué au développement de méthodes d'extraction de connaissances, mais elle a également apporté son lot de défis. Parmi ces défis, on retrouve le problème des données fortement déséquilibrées, notamment dans les classes à prédire d'une tâche de classification catégorielle. Cet article présente une stratégie complète développée afin de pallier la problématique de données déséquilibrées dans le cadre d'une étude épidémiologique spatio-temporelle de la leptospirose. L'approche est évaluée sur des données réelles pour une tâche de classification binaire de “présence de risque” de contamination de la bactérie associée à la leptospirose, où la classe majoritaire représente environ 95% des classes à prédire. Par le sous-échantillonnage, l'entraînement de 200 modèles d'apprentissage supervisé et une prédiction pondérée, notre stratégie a atteint une justesse équilibrée de 76,19%, un AUC de 83,29% et un rappel de 83,93%.