F-CheX : Une approche de fouille dans les documents XML
Abstract
Nous présentons dans cet article une approche de fouille dans les documents
XML qui prend en compte la structure et le contenu. Notre approche
consiste à effectuer un clustering sur les documents XML. Ces derniers sont
représentés par des ensembles de chemins conservant la structure arborescente
des éléments. Les ensembles de chemins sont mappés dans une matrice sur laquelle
une méthode de clustering est appliquée. L'approche proposée utilise un
thésaurus créé au préalable pour gérer l'aspect sémantique des mots. Une évaluation
de notre approche est effectuée à travers une étude expérimentale sur
deux collections de documents XML.