Bien cube, les données textuelles peuvent s'agréger !
Abstract
La masse des données aujourd'hui disponibles engendre des besoins
croissants de méthodes décisionnelles adaptées aux données traitées. Ainsi, récemment
de nouvelles approches fondées sur des cubes de textes sont apparues
pour pouvoir analyser et extraire de la connaissance à partir de documents. L'originalité
de ces cubes est d'étendre les approches traditionnelles des entrepôts et
des technologies OLAP à des contenus textuels. Dans cet article, nous nous intéressons
à deux nouvelles fonctions d'agrégation. La première propose une nouvelle
mesure de TF-IDF adaptative permettant de tenir compte des hiérarchies
associées aux dimensions. La seconde est une agrégation dynamique permettant
de faire émerger des groupements correspondant à une situation réelle. Les
expériences menées sur des données issues du serveur HAL d'une université
confirment l'intérêt de nos propositions.