Classification supervisée pour de grands nombres de classes à prédire : une approche par co-partitionnement des variables explicatives et à expliquer
Résumé
Dans la phase de préparation des données du data mining, les méthodes
de discrétisation et de groupement de valeurs supervisé possèdent de
nombreuses applications : interprétation, estimation de densité conditionnelle,
sélection de type filtre des variables, recodage des variables en amont des classifieurs.
Ces méthodes supposent habituellement un faible nombre de valeur à
expliquer (classes), typiquement moins d'une dizaine, et trouvent leur limite
quand leur nombre augmente. Dans cet article, nous introduisons une extension
des méthodes de discrétisation et groupement de valeurs, consistant à partitionner
d'une part la variable explicative, d'autre part la variable à expliquer.
Le meilleur co-partitionnement est recherché au moyen d'une approche Bayesienne
de la sélection de modèle. Nous présentons ensuite comment utiliser cette
méthode de prétraitement en préparation pour le classifieur Bayesien naïf. Des
expérimentations intensives démontrent l'apport de la méthode dans le cas de
centaines de classes.