RNTI

MODULAD
TLabel: Nouvel opérateur d'agrégation par catégorisation dans les cubes de textes
In EDA 2015, vol. RNTI-B-11, pp.129-144
Résumé
L'analyse en ligne (OLAP) dans les cubes de textes nécessite la définition de nouveaux types d'opérateurs d'analyse appropriés aux données textuelles. En effet, les opérateurs d'agrégation classiques ont montré leur efficacité pour l'analyse en ligne des données numériques, mais ils sont inadaptés pour l'analyse des données textuelles. Dans cet article, nous proposons un nouvel opérateur d'agrégation par catégorisation nommé TLabel (Text Label) permettant d'agréger les données textuelles en plusieurs classes de documents. A chaque classe sera associée une étiquette (Label) qui représente le contenu sémantique des données textuelles de la classe grâce à une adaptation des techniques de fouille de textes à l'OLAP. Nous avons effectué une étude expérimentale sur notre opérateur TLabel. Les résultats préliminaires montrent l'intérêt de notre approche pour l'analyse en ligne des données textuelles.