Classification d'un tableau de contingence et modèle probabiliste

In EGC 2006, vol. RNTI-E-6, pp.457-462

Résumé

Ces dernières années, la classification croisée ou classification par blocs, c'est-à-dire la recherche simultanée d'une partition des lignes et d'une partition des colonnes d'un tableau de données, est devenue un outil très utilisé en fouille de données. Dans ce domaine, l'information se présente souvent sous forme de tableaux de contingence ou tableaux de co-occurrence croisant les modalités de deux variables qualitatives. Dans cet article, nous étudions le problème de la classification croisée de ce type de données en nous appuyant sur un modèle de mélange probabiliste. En utilisant l'approche vraisemblance classifiante, nous proposons un algorithme de classification croisée basé sur la maximisation alternée de la vraisemblance associée à deux mélanges multinomiaux classiques et nous montrons alors que sous certaines contraintes restrictives, on retrouve les critères du Chi2 et de l'information mutuelle. Des résultats sur des données simulées et des données réelles illustrent et confirment l'efficacité et l'intérêt de cette approche.

Aperçu Voir bibtex

Télécharger