Classification de documents : calcul d'une distance structurelle
Résumé
La classification des documents numériques garantit un accès rapide
et ciblé à l'information. Si nous considérons qu'un document est représenté par
sa ou ses structures, définir des classes de documents revient à définir des
classes de structures. Une classe structurelle représente donc des structures
« proches ». Ainsi, associer la structure d'un document à sa classe structurelle
revient à calculer une distance dite « structurelle ». Elle tiendra compte à la
fois de l'organisation des éléments (position des noeuds, chemin), du coût
d'adaptation des représentants des classes ainsi que de la représentativité des
sous-graphes. Sur un corpus de documents représentant des notices de livres
issus de la bibliothèque de l'université, nous discuterons de la construction de
cette distance, de l'intérêt de chacun des trois paramètres utilisés