Regrouper les données textuelles et nommer les groupes à l'aide de classes recouvrantes
Abstract
Organiser les données textuelles et en tirer du sens est un défi majeur
aujourd'hui. Ainsi, lorsque l'on souhaite analyser un débat en ligne ou un
forum de discussion, on voudrait pouvoir rapidement voir quels sont les principaux
thèmes abordés et la manière dont la discussion se structure autour d'eux.
Pour cela, et parce que un même texte peut être associé à plusieurs thèmes, nous
proposons une méthode originale pour regrouper les données textuelles en autorisant
les chevauchements et pour nommer chaque groupe de manière lisible.
La contribution principale de cet article est une méthode globale qui permet de
réaliser toute la chaîne, partant des données textuelles brutes jusqu'à la caractérisation
des groupes à un niveau sémantique qui dépasse le simple ensemble de
mots.