RNTI

MODULAD
Apprentissage Conjoint de Représentations d'Auteurs et de Documents
In EGC 2021, vol. RNTI-E-37, pp.11-23
Résumé
Les modèles de langue les plus récents utilisent des représentations de mots contextualisés à l'aide de Transformers. Ils ont rapidement dépassé les méthodes état de l'art dans de nombreuses tâches de traitement automatique de la langue. Des versions pré-entraînées de ces modèles sont largement utilisées, mais leur spécialisation pour résoudre une tâche spécifique reste une question centrale. Par exemple, ces méthodes ne produisent pas de représentation à l'échelle du document et de l'auteur, mais seulement du mot. Or comme le montrent Reimers et Gurevych (2019), une simple moyenne des plongements de mots ne suffit pas. En utilisant une approche dite du Variational Information Bottleneck, nous développons une architecture simple pour construire des représentations d'auteurs et de documents à partir de modèles pré-entraînés (Devlin et al., 2019). Nous évaluerons de manière quantitative et qualitative notre modèle sur deux jeux de données : un corpus d'articles scientifiques et un d'articles de presse. Notre modèle produit des représentations plus robustes que l'existant, et donne des résultats compétitifs en classification et en identification d'auteurs.