Une nouvelle approche pour la sélection de variables basée sur une métrique d'estimation de la qualité
Abstract
La maximisation d'étiquetage (F-max) est une métrique non biaisée
d'estimation de la qualité d'une classification non supervisée (clustering) qui favorise
les clusters ayant une valeur maximale de F-mesure d'étiquetage. Dans
cet article, nous montrons qu'une adaptation de cette métrique dans le cadre
de la classification supervisée permet de réaliser une sélection de variables et
de calculer pour chacune d'elles une fonction de contraste. La méthode est expérimentée
sur différents types de données textuelles. Dans ce contexte, nous
montrons que cette technique améliore les performances des méthodes de classification
de façon très significative par rapport à l'état de l'art des techniques
de sélection de variables, notamment dans le cas de la classification de données
textuelles déséquilibrées, fortement multidimensionnelles et bruitées.