Traitement automatique d'informations textuelles complexes : connaissances linguistiques hétérogènes et à granularité variable
Résumé
Dans cet article, nous présentons une méthodologie permettant le traitement
et la structuration de données linguistiques complexes. Par données complexes,
nous envisageons des informations textuelles présentant la particularité
d'être à la fois hétérogènes sémantiquement et à granularité variable. Pour passer
d'une structure linguistique constituée d'objets complexes à une organisation
des données permettant l'application de méthodes statistiques et/ou de fouille de
données, nous proposons un modèle de représentation des unités du discours.
Ce travail est mené dans le cadre d'un projet visant la mise en oeuvre d'un prototype
d'aide à la mise à jour de documents encyclopédiques articulé autour du
repérage automatique de zones textuelles contenant de l'information obsolète.