Extraction de motifs séquentiels dans les flots de données d'usage du Web
Résumé
Ces dernières années, de nouvelles contraintes sont apparues pour les
techniques de fouille de données. Ces contraintes sont typiques d'un nouveau
genre de données : les “data streams”. Dans un processus de fouille appliqué
sur un data stream, l'utilisation de la mémoire est limitée, de nouveaux éléments
sont générés en permanence et doivent être traités le plus rapidement possible,
aucun opérateur bloquant ne peut être appliqué sur les données et celles-ci ne
peuvent être observées qu'une seule fois. A l'heure actuelle, la majorité des travaux
relatifs à l'extraction de motifs dans les data streams ne concernent pas les
motifs temporels. Nous montrons dans cet article que cela est principalement dû
au phénomène combinatoire qui est lié à l'extraction de motifs séquentiels. Nous
proposons alors un algorithme basé sur l'alignement de séquences pour extraire
les motifs séquentiels dans les data streams. Afin de respecter la contrainte d'une
passe unique sur les données, une heuristique gloutonne est proposée pour segmenter
les séquences. Nous montrons enfin que notre proposition est capable
d'extraire des motifs pertinents avec un support très faible.