Processus de Dirichlet profonds pour le topic modeling
Résumé
Cet article présente deux nouveaux modèles : l'Embedded Dirichlet
Process et l'Embedded Hierarchical Dirichlet Process. Ces méthodes sont des extensions
non-paramétriques de l'Embedded Topic Model (ETM) qui permettent
d'apprendre simultanément le nombre de thématiques, des représentations latentes
de documents, des embeddings de thématiques et des embeddings de
mots. Pour ce faire, nous remplaçons l'a priori logit-normal de l'ETM par des
processus de Dirichlet dans un cadre d'inférence par autoencodage variationnel
amorti. Nous testons nos modèles sur deux jeux de données : 20 Newsgroups
et Humanitarian Assistance and Disaster Relief. Nos modèles présentent l'avantage
de maintenir une faible perplexité tout en fournissant des représentations
sémantiques parlantes qui surclassent celles des autres méthodes de l'état de l'art.
Enfin, les topics sont extraits dans un contexte multilingue, et ce sans sacrifice
d'un a priori de type Dirichlet.