Sélection de mesures de similarité pour la classification de données catégorielles

Amedeo Napoli, Miguel Couceiro, Guilherme Alves

In EGC 2020, vol. RNTI-E-36, pp.325-332

Résumé

Le partitionnement de données est une opération très utilisée dans l'exploration et l'analyse de données, en particulier pour traiter des tableaux de données qui comprennent des attributs catégoriels. Une telle opération repose sur des mesures de similarité, qui sont proposées en nombre dans la littérature. Cependant, le choix d'une mesure est complexe et dépend du contexte et des données en cours d'étude. Dans cet article, nous cherchons à caractériser de façon automatique la “meilleure” mesure de similarité pour partitionner un jeu de données particulier. Nous présentons les bases de notre approche et une étude empirique qui porte sur des données catégorielles ainsi qu'une évaluation de cette approche.

Aperçu Voir bibtex

Télécharger