Comparaison de distances et noyaux classiques par degré d'équivalence des ordres induits
Abstract
Le choix d'une mesure pour comparer les données est au coeur des
tâches de recherche d'information et d'apprentissage automatique. Nous considérons
ici ce problème dans le cas où seul l'ordre induit par la mesure importe,
et non les valeurs numériques qu'elle fournit : cette situation est caractéristique
des moteurs de recherche de documents par exemple. Nous étudions dans ce
cadre les mesures de comparaison classiques pour données numériques, telles
que les distances et les noyaux les plus courants. Nous identifions les mesures
équivalentes, qui induisent toujours le même ordre ; pour les mesures non équivalentes,
nous quantifions leur désaccord par des degrés d'équivalence basés sur
le coefficient de Kendall généralisé. Nous étudions les équivalences et quasiéquivalences
à la fois sur les plans théorique et expérimental.