RNTI

MODULAD
Modèles de mélanges topologiques pour la classification de données catégorielles et mixtes
In FDC 2011, vol. RNTI-E-21, pp.53-80
Abstract
Cet article présente une méthode basée sur les cartes auto-organisatrices probabilistes dédiées à la classification non supervisée et la visualisation de données catégorielles et des données mixtes contenant des composantes quantitatives et binaires. Pour chacun de ces types de données, nous proposons un formalisme probabiliste dans lequel les unités de la carte topologique sont représentées par un modèle de mélanges de loi de Bernoulli, dans le cas des données binaires et par un modèle de mélanges de lois de Bernoulli et Gaussienne dans le cas des données mixtes. Dans cette étude, la carte topologique est vue comme un modèle génératif et est revisitée dans un formalisme probabiliste de modèles de mélanges. L'idée de base de ce travail repose sur le principe de la conservation de la structure initiale des données en utilisant le formalisme probabiliste. Les modèles de mélanges proposés ici vérifient ce principe et fournissent des résultats directement interprétables par rapport aux données initiales, qu'elles soient simplement binaires ou mixtes. L'apprentissage consiste alors à estimer les paramètres du modèle en maximisant la vraisemblance des données d'apprentissage. L'algorithme d'apprentissage (PrMTM :Probabilistic Mixed Topological Map) que nous proposons est basé sur l'algorithme EM (Estimation-Maximisation). Nous avons montré que l'algorithme à base de modèles de mélanges fournit différentes informations pertinentes qui peuvent être utilisées dans des applications pratiques. Nos approches ont été validées sur différentes bases de données réelles et fournissent des résultats prometteurs.