TLabel: Nouvel opérateur d'agrégation par catégorisation dans les cubes de textes
Abstract
L'analyse en ligne (OLAP) dans les cubes de textes nécessite la définition
de nouveaux types d'opérateurs d'analyse appropriés aux données textuelles.
En effet, les opérateurs d'agrégation classiques ont montré leur efficacité
pour l'analyse en ligne des données numériques, mais ils sont inadaptés pour
l'analyse des données textuelles. Dans cet article, nous proposons un nouvel opérateur
d'agrégation par catégorisation nommé TLabel (Text Label) permettant
d'agréger les données textuelles en plusieurs classes de documents. A chaque
classe sera associée une étiquette (Label) qui représente le contenu sémantique
des données textuelles de la classe grâce à une adaptation des techniques de
fouille de textes à l'OLAP. Nous avons effectué une étude expérimentale sur
notre opérateur TLabel. Les résultats préliminaires montrent l'intérêt de notre
approche pour l'analyse en ligne des données textuelles.