RNTI

MODULAD
TOM: A library for topic modeling and browsing
In EGC 2016, vol. RNTI-E-30, pp.451-456
Abstract
Cet article présente TOM, une bibliothèque Python pour la modélisation et l'exploration de thématiques dont l'objectif est de permettre de mener une analyse efficace, de bout en bout, d'un corpus textuel via la découverte de thématiques latentes. TOM offre des fonctions pour la préparation et la vectorisation de corpus, une interface unifiée pour deux modèles de thématiques (LDA et NMF), et implémente trois méthodes pour estimer le nombre optimal de thématiques. Par ailleurs, TOM construit automatiquement un explorateur interactif permettant facilement d'étudier un modèle de thématiques et les documents liés.