Classification de documents XML à partir d'une représentation linéaire des arbres de ces documents
Abstract
Cet article présente un nouveau modèle de représentation pour la classification
de documents XML. Notre approche permet de prendre en compte soit
la structure seule, soit la structure et le contenu de ces documents. L'idée est
de représenter un document par l'ensemble des sous-chemins de l'arbre XML
de longueur comprise entre n et m, deux valeurs fixées a priori. Ces chemins
sont ensuite considérés comme de simples mots sur lesquels on peut appliquer
des méthodes standards de classification, par exemple K-means. Nous évaluons
notre méthode sur deux collections: la collection INEX et les rapports d'activité
de l'INRIA. Nous utilisons un ensemble de mesures bien connues dans le domaine
de la recherche d'information lorsque les classes sont connues a priori.
Lorsqu'elles ne sont pas connues, nous proposons une analyse qualitative des
résultats qui s'appuie sur les mots (chemins) les plus caractéristiques des classes
générées.