Modèles de mélanges topologiques pour la classification de données catégorielles et mixtes
Résumé
Cet article présente une méthode basée sur les cartes auto-organisatrices
probabilistes dédiées à la classification non supervisée et la visualisation de données
catégorielles et des données mixtes contenant des composantes quantitatives
et binaires. Pour chacun de ces types de données, nous proposons un formalisme
probabiliste dans lequel les unités de la carte topologique sont représentées
par un modèle de mélanges de loi de Bernoulli, dans le cas des données
binaires et par un modèle de mélanges de lois de Bernoulli et Gaussienne dans le
cas des données mixtes. Dans cette étude, la carte topologique est vue comme un
modèle génératif et est revisitée dans un formalisme probabiliste de modèles de
mélanges. L'idée de base de ce travail repose sur le principe de la conservation
de la structure initiale des données en utilisant le formalisme probabiliste. Les
modèles de mélanges proposés ici vérifient ce principe et fournissent des résultats
directement interprétables par rapport aux données initiales, qu'elles soient
simplement binaires ou mixtes. L'apprentissage consiste alors à estimer les paramètres
du modèle en maximisant la vraisemblance des données d'apprentissage.
L'algorithme d'apprentissage (PrMTM :Probabilistic Mixed Topological Map)
que nous proposons est basé sur l'algorithme EM (Estimation-Maximisation).
Nous avons montré que l'algorithme à base de modèles de mélanges fournit
différentes informations pertinentes qui peuvent être utilisées dans des applications
pratiques. Nos approches ont été validées sur différentes bases de données
réelles et fournissent des résultats prometteurs.