Analyse des données textuelles : Une approche d'extraction de contenu sémantique et un opérateur d'agrégation Top_KRankedTopics
Résumé
La prise en compte de la sémantique des données textuelles lors d'une
analyse OLAP est une tâche complexe, qui n'est pas prise en charge par les systèmes
décisionnels classiques. Pour répondre à cette problématique, nous proposons
dans cet article une nouvelle approche pour l'extraction des descripteurs
sémantique des données textuelles afin de les utiliser dans l'analyse. L'approche
proposée est basée sur l'utilisation de la méthode Latent Dirichelet allocation
(LDA) et la taxonomie Open Directory Project (ODP) comme une source de
connaissance externe pour identifier les sujets pertinents dans un document textuel.
Notre approche vise à construire pour chaque document textuel une hiérarchie
sémantique à base des concepts du ODP. Pour prendre en compte cette
hiérarchie sémantique lors d'une analyse OLAP, nous proposons une fonction
de pondération ainsi qu'un opérateur d'agrégation qui sélectionne les k premiers
sujets et retourne pour chaque sujet une liste de documents pondérés.