Classification de documents par un réseau de neurones opérant sur des graphes dans l'espace hyperbolique
Résumé
Diverses architectures de réseaux de neurones sont couramment employées pour la classification de documents, comme les réseaux convolutifs et récurrents, et plus récemment les modèles de langue pré-entraînés basés sur le Transformer. En parallèle, les réseaux de neurones opérant sur les données graphes ont largement progressé. Dans cet article, nous présentons une nouvelle approche où les textes sont encodés individuellement sous la forme de graphes orientés (des sommets mots connectés selon les co-occurrences dans le texte et connectés aux sommets représentant les phrases, eux-même connectés à un sommet document). Nous proposons un réseau de neurones qui apprend à partir de ces graphes et de façon hiérarchique, des représentations des mots, des phrases et du document dans l'espace hyperbolique, dont la courbure permet plus aisément la prise en compte de la hiérarchie que l'espace euclidien. Des expériences poussées montrent l'efficacité de cette approche pour la classification de documents. Notamment, elle s'avère plus performante que le modèle de langue distillé Dis-tilBERT quand elle est entraînée par distillation à partir de BERT-large, bien qu'ayant 160 fois moins de paramètres.