Sélection topologique de variables dans un contexte de discrimination
Résumé
En apprentissage automatique, la présence d'un grand nombre de variables
explicatives conduit à une plus grande complexité des algorithmes et à
une forte dégradation des performances des modèles de prédiction. Pour cela,
une sélection d'un sous-ensemble optimal discriminant de ces variables s'avère
nécessaire. Dans cet article, une approche topologique est proposée pour la sélection
de ce sous-ensemble optimal. Elle utilise la notion de graphe de voisinage
pour classer les variables par ordre de pertinence, ensuite, une méthode pas à pas
de type ascendante "forward" est appliquée pour construire une suite de modèles
dont le meilleur sous-ensemble est choisi selon son degré d'équivalence topologique
de discrimination. Pour chaque sous-ensemble, le degré d'équivalence est
mesuré en comparant la matrice d'adjacence induite par la mesure de proximité
choisie à celle induite par la "meilleure" mesure de proximité discriminante dite
de référence. Les performances de cette approche sont évaluées à l'aide de données
simulées et réelles. Des comparaisons de sélection de variables en discrimination
avec une approche métrique montrent une bien meilleure sélection à
partir de l'approche topologique proposée.