Algorithme semi-interactif pour la sélection de dimensions
Résumé
Nous présentons un algorithme génétique semi-interactif de sélection
de dimensions dans les grands ensembles de données pour la détection
d'individus atypiques (outliers). Les ensembles de données possédant un
nombre élevé de dimensions posent de nombreux problèmes aux algorithmes
de fouille de données, une solution est d'effectuer un pré-traitement afin de ne
retenir que les dimensions "intéressantes". Nous utilisons un algorithme
génétique pour le choix du sous-ensemble de dimensions à retenir. Par ailleurs
nous souhaitons donner un rôle plus important à l'utilisateur dans le processus
de fouille, nous avons donc développé un algorithme génétique semi-interactif
où l'évaluation des solutions n'élimine pas complètement la fonction
d'évaluation mais la couple avec une évaluation de l'utilisateur. Enfin,
l'importante réduction du nombre de dimensions nous permet de visualiser les
résultats de l'algorithme de détection d'outlier. Cette visualisation permet à
l'expert des données d'étiqueter les éléments atypiques (erreurs ou simplement
des individus différents de la masse).