SoftJaccard : une mesure de similarité entre ensembles de chaînes de caractères pour l'unification d'entités nommées
Abstract
Parmi lesmesures de similarité classiques utilisables sur des ensembles
figure l'indice de Jaccard. Dans le cadre de cet article, nous en proposons une
extension pour comparer des ensembles de chaînes de caractères. Cette mesure
hybride permet de combiner une distance entre chaînes de caractères, telle que la
distance de Levenstein, et l'indice de Jaccard. Elle est particulièrement adaptée
pourmettre en correspondance des champs composés de plusieurs chaînes de caractères,
comme par exemple, lorsqu'on se propose d'unifier des noms d'entités
nommées.