Similarité par recouvrement de séquences pour la fouille de données séquentielles et textuelles

Pierre-François Marteau, Nicolas Béchet, Oussama Ahmia

In EGC 2019, vol. RNTI-E-35, pp.105-116

Résumé

Nous introduisons la notion de similarité par recouvrement de sé- quences pour estimer la similarité entre une séquence et un ensemble de sé- quences. Nous en dérivons une pseudo-distance qui s'apparente aux distances d'édition de type Levenshtein pour comparer des paires de séquences. La com- plexité algorithmique associée à cette semi-métrique peut-être ramenée à O(n · log(n)) en utilisant des arbres de suffixes. Nous introduisons un nouveau mo- dèle discriminant dédié à la classification de données textuelles dont la com- plexité algorithmique ne dépend pas de la taille de l'ensemble d'apprentissage, mais uniquement du nombre de classes et de la longueur des séquences. L'étude expérimentale préliminaire présentée s'appuie sur deux benchmaks : le premier concerne des séquences de nucléotides, le second une tâche de classification de textes. Les résultats obtenus positionnent l'approche proposée au niveau de l'état de l'art (incluant les approches "deep learning") sur les tâches considérées., avec des temps de calcul et un nombre de méta-paramètres avantageux.

Aperçu Voir bibtex

Télécharger