Sélection de mesures de similarité pour la classification de données catégorielles
Résumé
Le partitionnement de données est une opération très utilisée dans
l'exploration et l'analyse de données, en particulier pour traiter des tableaux
de données qui comprennent des attributs catégoriels. Une telle opération repose
sur des mesures de similarité, qui sont proposées en nombre dans la littérature.
Cependant, le choix d'une mesure est complexe et dépend du contexte et des
données en cours d'étude. Dans cet article, nous cherchons à caractériser de façon automatique la “meilleure” mesure de similarité pour partitionner un jeu de
données particulier. Nous présentons les bases de notre approche et une étude
empirique qui porte sur des données catégorielles ainsi qu'une évaluation de
cette approche.