Traitement automatique d'informations textuelles complexes : connaissances linguistiques hétérogènes et à granularité variable

Marion Laignelet

In FDC 2011, vol. RNTI-E-21, pp.1-26

Abstract

Dans cet article, nous présentons une méthodologie permettant le traitement et la structuration de données linguistiques complexes. Par données complexes, nous envisageons des informations textuelles présentant la particularité d'être à la fois hétérogènes sémantiquement et à granularité variable. Pour passer d'une structure linguistique constituée d'objets complexes à une organisation des données permettant l'application de méthodes statistiques et/ou de fouille de données, nous proposons un modèle de représentation des unités du discours. Ce travail est mené dans le cadre d'un projet visant la mise en oeuvre d'un prototype d'aide à la mise à jour de documents encyclopédiques articulé autour du repérage automatique de zones textuelles contenant de l'information obsolète.

Preview See bibtex

Download