RNTI

MODULAD
SoftJaccard : une mesure de similarité entre ensembles de chaînes de caractères pour l'unification d'entités nommées
In EGC 2009, vol. RNTI-E-15, pp.443-444
Abstract
Parmi lesmesures de similarité classiques utilisables sur des ensembles figure l'indice de Jaccard. Dans le cadre de cet article, nous en proposons une extension pour comparer des ensembles de chaînes de caractères. Cette mesure hybride permet de combiner une distance entre chaînes de caractères, telle que la distance de Levenstein, et l'indice de Jaccard. Elle est particulièrement adaptée pourmettre en correspondance des champs composés de plusieurs chaînes de caractères, comme par exemple, lorsqu'on se propose d'unifier des noms d'entités nommées.