RNTI

MODULAD
Sélection de mesures de similarité pour la classification de données catégorielles
In EGC 2020, vol. RNTI-E-36, pp.325-332
Résumé
Le partitionnement de données est une opération très utilisée dans l'exploration et l'analyse de données, en particulier pour traiter des tableaux de données qui comprennent des attributs catégoriels. Une telle opération repose sur des mesures de similarité, qui sont proposées en nombre dans la littérature. Cependant, le choix d'une mesure est complexe et dépend du contexte et des données en cours d'étude. Dans cet article, nous cherchons à caractériser de façon automatique la “meilleure” mesure de similarité pour partitionner un jeu de données particulier. Nous présentons les bases de notre approche et une étude empirique qui porte sur des données catégorielles ainsi qu'une évaluation de cette approche.