Contextual-RTM: un cadre général pour la modélisation de thématiques dans les réseaux de documents
Résumé
Les longs parcours de bases de connaissance ou de grands corpus
de documents en réseau peuvent parfois perdre le lecteur et lui faire
manquer certains liens entre les documents qu'il consulte. Nous proposons
ici un cadre de modélisation thématique pour les réseaux de documents,
Contextual-RTM, qui généralise Relational Topic Model (RTM).
Alors que RTM est agnostique à la position des liens dans les documents,
Contextual-RTM les prend en compte, permettant une meilleure
contextualisation. Nous définissons le contexte comme une fenêtre de taille
ajustable centrée autour du lien et proposons 3 méthodes d'agrégation
du contexte : uniforme, positionnelle et sémantique. Contextual-RTM se
montre compétitif sur des tâches d'identification de mots à l'origine de
liens entre documents. Nous intégrons ces méthodes dans un système
d'aide à la lecture capable d'inférer localement des liens latents entre
documents. Ainsi le lecteur garde une trace de ses précédentes lectures,
et s'en voit recommandé de nouvelles.