Nettoyage des données XML : combien ça coûte ?
Résumé
L'objectif de cet article est de présenter un travail en cours qui
consiste à proposer, implanter et valider expérimentalement un modèle pour
estimer le coût d'un processus de nettoyage de documents XML. Notre
approche de calcul de coût est basée sur une méthode par calibration selon une
analyse probabiliste. Pour cela, nous proposons de calculer des probabilités de
pollution et au préalable de détection des différents types de pollutions. Pour
valider notre modèle, nous avons choisi de polluer artificiellement une
collection de données XML avec l'ensemble des types d'erreurs possibles
(erreurs typographiques, ajout de doublons, de valeurs manquantes, tronquées,
censurées, etc.) et d'estimer, grâce au modèle proposé, le nombre et le coût des
opérations nécessaires au nettoyage des données afin de proposer des stratégies
de réparation ciblées et économes. Les expérimentations en cours ne sont pas
rapportées dans cet article.