Détection de séquences atypiques basée sur un modèle de Markov d'ordre variable
Abstract
Récemment, le nombre et le volume des bases de données séquentielles
biologiques ont augmenté de manière considérable. Dans ce contexte, l'identification
des anomalies est essentielle. La plupart des approches pour les
extraire se fondent sur une base d'apprentissage ne contenant pas d'outlier. Or,
dans de très nombreuses applications, les experts ne disposent pas d'une telle
base. De plus, les méthodes existantes demeurent exigeantes en mémoire, ce
qui les rend souvent impossibles à utiliser. Nous présentons dans cet article une
nouvelle approche, basée sur un modèle de Markov d'ordre variable et sur une
mesure de similarité entre objets séquentiels. Nous ajoutons aux méthodes existantes
un critère d'élagage pour contrôler la taille de l'espace de recherche
et sa qualité, ainsi qu'une inégalité de concentration précise pour la mesure de
similarité, conduisant à une meilleure détection des outliers. Nous démontrons
expérimentalement la validité de notre approche.