RNTI

MODULAD
F-CheX : Une approche de fouille dans les documents XML
In EDA 2010, vol. RNTI-B-6, pp.221-237
Résumé
Nous présentons dans cet article une approche de fouille dans les documents XML qui prend en compte la structure et le contenu. Notre approche consiste à effectuer un clustering sur les documents XML. Ces derniers sont représentés par des ensembles de chemins conservant la structure arborescente des éléments. Les ensembles de chemins sont mappés dans une matrice sur laquelle une méthode de clustering est appliquée. L'approche proposée utilise un thésaurus créé au préalable pour gérer l'aspect sémantique des mots. Une évaluation de notre approche est effectuée à travers une étude expérimentale sur deux collections de documents XML.