Comparaison de critères de pureté pour l'intégration de connaissances en clustering semi-supervisé

Pierre Gançarski, Cédric Wemmert, Germain Forestier

In EGC 2010, vol. RNTI-E-19, pp.127-132

Abstract

L'utilisation de connaissances pour améliorer les processus de fouille de données a mobilisé un important effort de recherche ces dernières années. Il est cependant souvent difficile de formaliser ce type de connaissances, comme celles-ci sont souvent dépendantes du domaine. Dans cet article, nous nous intéressons à l'intégration de connaissances sous la forme d'objets étiquetés dans les algorithmes de clustering. Plusieurs critères permettant d'évaluer la pureté des clusters sont présentés et leur comportement est comparé sur des jeux de données artificiels. Les avantages et les inconvénients de chaque critère sont analysés pour aider l'utilisateur à faire un choix.

Preview See bibtex

Download