Degrés d'équivalence de mesures de comparaison pour données binaires et pour données numériques
Abstract
Afin d'aider au choix d'une mesure pour comparer des données, problème
au coeur de la conception de systèmes dans les domaines de la fouille
de données, l'apprentissage automatique ou la recherche d'information, nous
comparons les mesures les plus courantes selon l'ordre qu'elles induisent sur
les données et nous quantifions leur accord par des degrés d'équivalence. Nous
proposons une étude systématique des mesures de comparaison appliquées aux
données binaires et aux données numériques, en examinant les principales mesures
de similarité, distance et produits scalaires. Nous établissons leurs degrés
d'équivalence, en considérant des bases de données artificielles et réelles et identifions
des mesures équivalentes et quasi-équivalentes, qui peuvent être considérées
comme redondantes dans un cadre de recherche d'information.