Top_Keyword : agrégation de mots-clefs dans un environnement d'analyse en ligne (OLAP)
Abstract
Depuis plus d'une décennie, les travaux de recherche sur OLAP et
les bases de données multidimensionnelles ont produit des méthodes, des outils
et des moyens d'analyse de données numériques. L'accroissement de la disponibilité
des documents numériques entraîne un besoin pour l'ajout de documents
XML principalement constitués de données textuelles au sein de bases
de données multidimensionnelles et d'un environnement adapté à leur analyse.
En réponse à ce besoin, cet article présente une nouvelle fonction d'agrégation
permettant l'agrégation de données textuelles au sein d'un environnement
OLAP, au même titre que les fonctions d'agrégation arithmétique traditionnelles
le permettent pour des données numériques. La fonction TOP_KEYWORD
(ou TOP_KW) résume un ensemble de documents par leurs termes les plus significatifs,
en employant une fonction de pondération issue de la recherche
d'information : tf.idf.