RNTI

MODULAD
Processus de Dirichlet profonds pour le topic modeling
In EGC 2022, vol. RNTI-E-38, pp.355-362
Résumé
Cet article présente deux nouveaux modèles : l'Embedded Dirichlet Process et l'Embedded Hierarchical Dirichlet Process. Ces méthodes sont des extensions non-paramétriques de l'Embedded Topic Model (ETM) qui permettent d'apprendre simultanément le nombre de thématiques, des représentations latentes de documents, des embeddings de thématiques et des embeddings de mots. Pour ce faire, nous remplaçons l'a priori logit-normal de l'ETM par des processus de Dirichlet dans un cadre d'inférence par autoencodage variationnel amorti. Nous testons nos modèles sur deux jeux de données : 20 Newsgroups et Humanitarian Assistance and Disaster Relief. Nos modèles présentent l'avantage de maintenir une faible perplexité tout en fournissant des représentations sémantiques parlantes qui surclassent celles des autres méthodes de l'état de l'art. Enfin, les topics sont extraits dans un contexte multilingue, et ce sans sacrifice d'un a priori de type Dirichlet.