Une famille de matrices sparses pour une modélisation multi-échelle par blocs
Abstract
La sériation est une technique d'analyse de données qui ordonne les
observations directement à partir de leur tableau de valeurs afin de révéler une
structure intrinsèque à ces données. Une telle approche présente de nombreux
avantages de visualisation mais dès lors que les données sont bruitées ou que les
groupes se superposent, la visualisation de toute structure devient difficile. Pour
faire face à ces problèmes, nous introduisons de la parcimonie dans les données
à travers une famille de matrices indicatrices de voisins communs. Celles-ci sont
ordonnées selon un algorithme de type branch and bound et la matrice révélant
la meilleure structure au sens de "diagonale par blocs" est sélectionnée au moyen
d'un critère dérivé des problématiques de compression de données. Cet outil de
partitionnement identifie des sous-ensembles de données relatifs aux clusters
tout en écartant celles qui sont bruitées ou extrêmes ce qui permet de visualiser
la structure globale intrinsèque aux données. Cependant, une trop grande sparsité
des données amène parfois à l'éviction de données sous-représentées; nous
proposons à cet effet, une approche multi-échelle combinant différents niveaux
de sparsité dans une même visualisation.