RNTI

MODULAD
Analyse des données textuelles : Une approche d'extraction de contenu sémantique et un opérateur d'agrégation Top_KRankedTopics
In EDA 2016, vol. RNTI-B-12, pp.51-64
Résumé
La prise en compte de la sémantique des données textuelles lors d'une analyse OLAP est une tâche complexe, qui n'est pas prise en charge par les systèmes décisionnels classiques. Pour répondre à cette problématique, nous proposons dans cet article une nouvelle approche pour l'extraction des descripteurs sémantique des données textuelles afin de les utiliser dans l'analyse. L'approche proposée est basée sur l'utilisation de la méthode Latent Dirichelet allocation (LDA) et la taxonomie Open Directory Project (ODP) comme une source de connaissance externe pour identifier les sujets pertinents dans un document textuel. Notre approche vise à construire pour chaque document textuel une hiérarchie sémantique à base des concepts du ODP. Pour prendre en compte cette hiérarchie sémantique lors d'une analyse OLAP, nous proposons une fonction de pondération ainsi qu'un opérateur d'agrégation qui sélectionne les k premiers sujets et retourne pour chaque sujet une liste de documents pondérés.