Étiquetage thématique automatisé de corpus par représentation sémantique
Résumé
Dans les corpus de textes scientifiques, certains articles issus de communautés
de chercheurs différentes peuvent ne pas être décrits par les mêmes
mots-clés alors qu'ils partagent la même thématique. Ce phénomène cause des
problèmes dans la recherche d'information, ces articles étant mal indexés, et
limite les échanges potentiellement fructueux entre disciplines scientifiques.
Notre modèle permet d'attribuer automatiquement une étiquette thématique aux
articles au moyen d'un apprentissage des représentations sémantiques d'articles
du corpus déjà étiquetés. Passant bien à l'échelle, cette méthode a pu être testée
sur une bibliothèque numérique d'articles scientifiques comportant des millions
de documents. Nous utilisons un réseau sémantique de synonymes pour extraire
davantage d'articles sémantiquement similaires et nous les fusionnons avec ceux
obtenus par un modèle de classement thématique. Cette méthode combinée présente
de meilleurs taux de rappel que les versions utilisant soit le réseau sémantique
seul, soit la seule représentation sémantique des textes.