Clustering multi-vues : une approche centralisée
Abstract
Nous abordons dans ce papier le problème de la classification nonsupervisée
multi-vues, i.e. où les données peuvent être décrites par plusieurs
ensembles de variables ou par plusieurs matrices de proximités. De nombreux
domaines d'applications sont concernés, tels la Recherche d'Information, la Biologie,
la Chimie et le Marketing. L'objet de cet axe de recherche est de proposer
un cadre théorique et méthodologique permettant la découverte d'une classification
réalisant un consensus entre les organisations émanant de toutes les vues.
Il convient alors de combiner les informations de chacune des vues par l'intermédiaire
d'un processus de fusion consistant à identifier l'accord entre les vues
et à réduire le conflit. Plusieurs stratégies de fusion peuvent être appliquées,
en amont, en aval, ou pendant le processus de classification. Nous présentons
les différentes solutions de fusion envisageables suivant différents contextes applicatifs,
puis nous nous focalisons sur des techniques dites centralisées. Nous
proposons une approche de classification non supervisée floue qui généralise différentes
solutions de fusion et nous présentons une extension à noyaux de cette
approche, permettant le traitement de données hétérogènes. Nousmontrons l'apport
théorique et expérimental de cette approche sur des jeux de données benchmarks
synthétiques et réels.