RNTI

MODULAD
Clustering de séries temporelles par construction de dictionnaire
In EGC 2020, vol. RNTI-E-36, pp.181-192
Résumé
La classification non-supervisée est un domaine qui regroupe les méthodes d'analyses de données dont l'objectif est la recherche de groupes d'observations similaires dans un jeu de données. Lorsque les données considérées sont issues de l'observation d'un phénomène à différents instants, elles sont appelées des séries temporelles : par exemple l'évolution du cours du temps d'une action boursière, de données météorologiques. . . Dans certains cas, ces séries peuvent alterner différentes phases de fonctionnement distinctes, que l'on appelle des régimes : par exemple, l'observation de la vitesse d'une voiture qui peut montrer des phases d'accélération, une vitesse de croisière, des phases de freinage, etc. . . Nous présentons dans cet article une méthode dédiée à l'analyse de ce dernier type de séries temporelles et qui est basée sur la combinaison de trois étapes : la segmentation individuelle des séries temporelles, le recodage dans un dictionnaire de régimes communs et le clustering des séquences catégorielles ainsi produites. Notre contribution inclut également une stratégie innovante de sélection de modèle pour la segmentation. Nous présentons les différents avantages de cette méthode et les résultats obtenus sur des jeux de données publics.