RNTI

MODULAD
Une famille de matrices sparses pour une modélisation multi-échelle par blocs
In FDC 2011, vol. RNTI-E-21, pp.123-147
Abstract
La sériation est une technique d'analyse de données qui ordonne les observations directement à partir de leur tableau de valeurs afin de révéler une structure intrinsèque à ces données. Une telle approche présente de nombreux avantages de visualisation mais dès lors que les données sont bruitées ou que les groupes se superposent, la visualisation de toute structure devient difficile. Pour faire face à ces problèmes, nous introduisons de la parcimonie dans les données à travers une famille de matrices indicatrices de voisins communs. Celles-ci sont ordonnées selon un algorithme de type branch and bound et la matrice révélant la meilleure structure au sens de "diagonale par blocs" est sélectionnée au moyen d'un critère dérivé des problématiques de compression de données. Cet outil de partitionnement identifie des sous-ensembles de données relatifs aux clusters tout en écartant celles qui sont bruitées ou extrêmes ce qui permet de visualiser la structure globale intrinsèque aux données. Cependant, une trop grande sparsité des données amène parfois à l'éviction de données sous-représentées; nous proposons à cet effet, une approche multi-échelle combinant différents niveaux de sparsité dans une même visualisation.