Découverte et extraction d'arguments de relations n-aires corrélés dans les textes
Résumé
Dans cet article, nous présentons une méthode hybride combinant des
approches de fouille de données et des analyses syntaxiques afin de découvrir
et extraire automatiquement des informations dans les textes. Ces informations
sont modélisées sous forme de relations n-aires représentées dans une Ressource
Termino-Ontologique (RTO). La relation n-aire relie un objet étudié (e.g. un emballage)
à ses caractéristiques sous forme d'arguments (e.g. son épaisseur). Dans
les textes, les arguments de l'objet étudié sont quantitatifs, associés à leurs attributs,
une valeur numérique et une unité de mesure, à extraire pour peupler l'ontologie
de nouvelles instances. La méthode proposée repose sur la découverte
de relations implicites d'expression des arguments dans les textes en utilisant
les motifs et règles séquentiels puis, sur l'intégration de relations syntaxiques
d'intérêt dans les motifs découverts afin de construire des patrons linguistiques
d'identification d'arguments corrélés. Les expérimentations ont été menées sur
un corpus du domaine des emballages et consistent à extraire les résultats expérimentaux
de perméabilités des emballages alimentaires.