OPILAND : identification de la perception des territoires par la fouille de texte
Abstract
De nombreux travaux ont été réalisés en extraction d'informations et
plus particulièrement en fouille de données d'opinions dans des contextes spécifiques
tels que les critiques de films, les évaluations de produits commerciaux,
les discours électoraux... Dans le cadre du projet SENTERRITOIRE, nous nous
posons la question de l'adéquation de ces méthodes pour des documents associés
à l'aménagement des territoires. Ces documents renferment différents types
d'informations se rapportant à des acteurs, des opinions, des informations géographiques,
et tout autre aspect lié plus généralement à la notion de territoire.
Cependant, il est extrêmement difficile d'identifier puis de lier les opinions à
ces informations. Après avoir souligné les limites des propositions actuelles et
les verrous soulevés par les données textuelles associées, nous proposons la méthode
semi-automatique nommée OPILAND (OPinion mIning from LAND-use
planning documents) combinant une chaîne de Traitement Automatique du Langage
Naturel et des techniques de Fouilles de Textes pour (1) détecter les entités
nommées de type lieu et organisation, (2) construire un vocabulaire d'opinions
relatif au domaine d'application, et (3) identifier les opinions relatives aux entités
nommées traitées. Les expérimentations sont menées sur des données du bassin
de Thau (France), puis appliquées sur trois corpus relatifs à d'autres domaines
afin de mettre en avant la généricité de notre approche.