Comparaison de critères de pureté pour l'intégration de connaissances en clustering semi-supervisé
Résumé
L'utilisation de connaissances pour améliorer les processus de fouille
de données a mobilisé un important effort de recherche ces dernières années. Il
est cependant souvent difficile de formaliser ce type de connaissances, comme
celles-ci sont souvent dépendantes du domaine. Dans cet article, nous nous intéressons
à l'intégration de connaissances sous la forme d'objets étiquetés dans
les algorithmes de clustering. Plusieurs critères permettant d'évaluer la pureté
des clusters sont présentés et leur comportement est comparé sur des jeux de
données artificiels. Les avantages et les inconvénients de chaque critère sont
analysés pour aider l'utilisateur à faire un choix.