Apprentissage Conjoint de Représentations d'Auteurs et de Documents
Résumé
Les modèles de langue les plus récents utilisent des représentations
de mots contextualisés à l'aide de Transformers. Ils ont rapidement dépassé les
méthodes état de l'art dans de nombreuses tâches de traitement automatique
de la langue. Des versions pré-entraînées de ces modèles sont largement utilisées,
mais leur spécialisation pour résoudre une tâche spécifique reste une question
centrale. Par exemple, ces méthodes ne produisent pas de représentation
à l'échelle du document et de l'auteur, mais seulement du mot. Or comme le
montrent Reimers et Gurevych (2019), une simple moyenne des plongements
de mots ne suffit pas. En utilisant une approche dite du Variational Information
Bottleneck, nous développons une architecture simple pour construire des représentations
d'auteurs et de documents à partir de modèles pré-entraînés (Devlin
et al., 2019). Nous évaluerons de manière quantitative et qualitative notre modèle
sur deux jeux de données : un corpus d'articles scientifiques et un d'articles
de presse. Notre modèle produit des représentations plus robustes que l'existant,
et donne des résultats compétitifs en classification et en identification d'auteurs.