REGLO : une nouvelle stratégie pour résumer un flux de séries temporelles
Abstract
Les flux de séries temporelles sont aujourd'hui produits dans de nombreux
domaines comme la finance (Zhu et Shasha (2002)), la surveillance de
réseaux (Borgne et al. (2007); Airoldi et Faloutsos (2004)), la gestion de l'historique
des usages fréquents (Giannella et al. (2003); Teng et al. (2003)), etc.
Résumer de tels flux est devenu un domaine important qui permet de surveiller
et d'enregistrer des informations fiables sur les séries observées. À ce jour, la
majorité des algorithmes de ce domaine s'est concentrée sur des résumés séparés
et indépendants (Giannella et al. (2003); Zhu et Shasha (2002); Chen et al.
(2002)), en accordant à chaque série le même espace en mémoire. Toutefois, la
gestion de cet espace mémoire est un sujet important pour les flux de données
et une stratégie accordant la même quantité de mémoire à chaque série n'est pas
forcément appropriée. Dans cet article, nous considérons que les séries doivent
être en compétition vis à vis de l'espace mémoire, selon leur besoin de précision.
Ainsi, nous proposons : (1) une stratégie de gestion de l'espace mémoire
optimisée et (2) une nouvelle méthode de résumé des séries temporelles par approximation.
Dans ce but, nous observons à la fois l'erreur globale et les erreurs
locales. La répartition de la mémoire suit les étapes suivantes : (1) recherche
de la séquence la mieux représentée et (2) recherche de la partie à compresser
en minimisant l'erreur. Nos expérimentations sur des données réelles montrent
l'efficacité et la pertinence de notre approche.