Classification d'un tableau de contingence et modèle probabiliste
Résumé
Ces dernières années, la classification croisée ou classification par
blocs, c'est-à-dire la recherche simultanée d'une partition des lignes et d'une
partition des colonnes d'un tableau de données, est devenue un outil très utilisé
en fouille de données. Dans ce domaine, l'information se présente souvent sous
forme de tableaux de contingence ou tableaux de co-occurrence croisant les modalités
de deux variables qualitatives. Dans cet article, nous étudions le problème
de la classification croisée de ce type de données en nous appuyant sur un modèle
de mélange probabiliste. En utilisant l'approche vraisemblance classifiante,
nous proposons un algorithme de classification croisée basé sur la maximisation
alternée de la vraisemblance associée à deux mélanges multinomiaux classiques
et nous montrons alors que sous certaines contraintes restrictives, on retrouve
les critères du Chi2 et de l'information mutuelle. Des résultats sur des données
simulées et des données réelles illustrent et confirment l'efficacité et l'intérêt de
cette approche.