TOM: A library for topic modeling and browsing
Abstract
Cet article présente TOM, une bibliothèque Python pour la modélisation et l'exploration de thématiques
dont l'objectif est de permettre de mener une analyse efficace, de bout en bout, d'un corpus textuel
via la découverte de thématiques latentes. TOM offre des fonctions pour la préparation et la vectorisation
de corpus, une interface unifiée pour deux modèles de thématiques (LDA et NMF), et implémente trois
méthodes pour estimer le nombre optimal de thématiques. Par ailleurs, TOM construit automatiquement
un explorateur interactif permettant facilement d'étudier un modèle de thématiques et les documents liés.