RNTI

MODULAD
Classification de documents : calcul d'une distance structurelle
In EGC 2010, vol. RNTI-E-19, pp.609-614
Abstract
La classification des documents numériques garantit un accès rapide et ciblé à l'information. Si nous considérons qu'un document est représenté par sa ou ses structures, définir des classes de documents revient à définir des classes de structures. Une classe structurelle représente donc des structures « proches ». Ainsi, associer la structure d'un document à sa classe structurelle revient à calculer une distance dite « structurelle ». Elle tiendra compte à la fois de l'organisation des éléments (position des noeuds, chemin), du coût d'adaptation des représentants des classes ainsi que de la représentativité des sous-graphes. Sur un corpus de documents représentant des notices de livres issus de la bibliothèque de l'université, nous discuterons de la construction de cette distance, de l'intérêt de chacun des trois paramètres utilisés