Détection de données aberrantes à partir de motifs fréquents sans énumération exhaustive
Résumé
La détection de données aberrantes (outliers) consiste à détecter des
observations anormales au sein des données. Durant la dernière décennie, des
méthodes de détection d'outliers utilisant les motifs fréquents ont été proposées.
Elles extraient dans une première phase tous les motifs fréquents, puis assignent
à chaque transaction un score mesurant son degré d'aberration (en fonction du
nombre de motifs fréquents qui la couvre). Dans cet article, nous proposons deux
nouvelles méthodes pour calculer le score d'aberration fondé sur les motifs fréquents
(FPOF). La première méthode retourne le FPOF exact de chaque transaction
sans extraire le moindre motif. Cette méthode s'avère en temps polynomial
par rapport à la taille du jeu de données. La seconde méthode est une méthode
approchée où l'utilisateur final peut contrôler l'erreur maximale sur l'estimation
du FPOF. Une étude expérimentale montre l'intérêt des deux méthodes pour les
jeux de données volumineux où une approche exhaustive échoue à calculer une
solution exacte. Pour un même nombre de motifs, la précision de notre méthode
approchée est meilleure que celle de la méthode classique.