Extraction de clés de liage de données (résumé étendu)
Abstract
De grandes quantités de données sont publiées sur le web des données.
Les lier consiste à identifier les mêmes ressources dans deux jeux de données
permettant l'exploitation conjointe des données publiées. Mais l'extraction
de liens n'est pas une tâche facile. Nous avons développé une approche qui extrait
des clés de liage (link keys). Les clés de liage étendent la notion de clé
de l'algèbre relationnelle à plusieurs sources de données. Elles sont fondées sur
des ensembles de couples de propriétés identifiant les objets lorsqu'ils ont les
mêmes valeurs, ou des valeurs communes, pour ces propriétés. On présentera
une manière d'extraire automatiquement les clés de liage candidates à partir de
données. Cette opération peut être exprimée dans l'analyse formelle de concepts.
La qualité des clés candidates peut-être évaluée en fonction de la disponibilité
(cas supervisé) ou non (cas non supervisé) d'un échantillon de liens. La pertinence
et de la robustesse de telles clés seront illustrées sur un exemple réel.