Utilité d'un couplage entre Word2Vec et une analyse sémantique latente : expérimentation en catégorisation de données textuelles.
Résumé
Nous réexaminons dans cet article les méthodes de vectorisation de
textes dans le cadre d'une étude de classification de documents. Nous étudions
les méthodes basées sur des plongements de mots (word2vec) ou de documents
(analyse sémantique latente, ou sac de mots associées à diverses pondérations)
ainsi que certaines combinaisons de ces méthodes. A cette fin, nous évaluons ces
méthodes de vectorisation en utilisant trois modèles de classification (un percep-
tron multicouches, une machine linéaire à vecteurs supports optimisée par des-
cente de gradient stochastique et un classifieur multinomial naïf de Bayes). Nos
résultats montrent que le modèle proposé pour associer les méthodes word2vec
et LSA, qui conjugue les deux caractérisations complémentaires du contexte
d'occurrence des mots (local pour word2vec et global pour LSA), permet de
produire une vectorisation robuste, en général plus discriminante que les autres
approches testées.