Application du coclustering à l'analyse exploratoire d'une table de données
Résumé
La classification croisée est une technique d'analyse non supervisée
qui permet d'extraire la structure sous-jacente existante entre les individus et les
variables d'une table de données sous forme de blocs homogènes. Cette tech-
nique se limitant aux variables de même nature, soit numériques soit catégo-
rielles, nous proposons de l'étendre en proposant une méthodologie en deux
étapes. Lors de la première étape, toutes les variables sont binarisées selon un
nombre de parties choisi par l'analyste, par discrétisation en fréquences égales
dans le cas numérique ou en gardant les valeurs les plus fréquentes dans le cas
catégoriel. La deuxième étape consiste à utiliser une méthode de coclustering
entre individus et variables binaires, conduisant à des regroupements d'indivi-
dus d'une part, et de parties de variables d'autre part. Nous appliquons cette
méthodologie sur plusieurs jeux de donnée en la comparant aux résultats d'une
analyse par correspondances multiples ACM, appliquée aux même données bi-
narisées.