Cube de textes et opérateur d'agrégation basé sur un modèle vectoriel adapté
Abstract
Les technologies d'entreposage de données et d'analyse en ligne (On-
Line Analytical Processing OLAP) ont largement fait leurs preuves pour l'analyse
de données structurées, mais elles sont inadaptées pour l'analyse des données
textuelles, faute d'outils et de méthodes adaptés. Nous proposons dans cet
article, un modèle de cube textuel nommé TCube, qui comporte plusieurs dimensions
sémantiques, pour une meilleure prise en charge de la sémantique des
données textuelles. Les attributs de chaque dimension sémantique sont regroupés
dans une hiérarchie de concepts, extraite à partir d'une ontologie de domaine
utilisée comme une ressource externe. Notre cube de textes comprend une mesure
d'analyse textuelle qui s'appuie à la fois sur un modèle vectoriel adapté à
l'analyse OLAP et sur une technique de propagation de pertinence. Il est également
associé à un nouvel opérateur d'agrégation appelé ORank(OLAP-Rank)
permettant d'agréger les données textuelles dans un environnement OLAP. Les
résultats préliminaires de notre étude expérimentale montrent l'intérêt de notre
approche.