Clustering de séquences d'évènements temporels
Abstract
Nous proposons une nouvelle méthode de clustering et d'analyse de
séquences temporelles basée sur les modèles en grille à trois dimensions. Les
séquences sont partitionnées en clusters, la dimension temporelle est discrétisée
en intervalles et la dimension évènement est partitionnée en groupes. La grille de
cellules 3D forme ainsi un estimateur non-paramétrique constant par morceaux
de densité jointe des séquences et des dimensions des évènements temporels.
Les séquences d'un cluster sont ainsi groupés car elles suivent une distribution
similaire d'évènements au cours du temps. Nous proposons aussi une méthode
d'exploitation du clustering par simplification de la grille ainsi que des indicateurs
permettant d'interpréter les clusters et de caractériser les séquences qui
les composent. Les expériences sur des données artificielles ainsi que sur des
données réelles issues de DBLP démontrent le bien-fondé de notre approche.