RNTI

MODULAD
Etude approfondie des représentations de données textuelles dans l'apprentissage non supervisé
In EGC 2023, vol. RNTI-E-39, pp.361-368
Résumé
Les plongements de textes ont récemment suscité un grand intérêt dans plusieurs tâches telles que la classification de textes/documents et la réponse aux questions. Cependant, bien que de nombreux défis soient rencontrés dans le domaine de l'apprentissage non supervisé, on en sait beaucoup moins sur la pertinence de ces différents plongements lorsqu'on dispose d'un ensemble de documents non labellisés. Dans cet article, nous étudions l'utilisation de telles représentations sur des tâches non supervisées : le clustering de documents et la visualisation. Ainsi, pour répondre à l'objectif de clustering, nous proposons d'utiliser une approche tandem combinant des techniques de réduction de dimension et de clustering. Nous montrons d'abord l'avantage de s'appuyer sur le sous-espace obtenu par Uniform Manifold Approximation and Projection (UMAP) pour le clustering plutôt que d'utiliser la réduction de dimension basée sur l'Analyse en composantes principales (ACP), plus souvent utilisée. Ensuite, à travers des expériences réalisées sur des jeux de données réels, nous montrons l'efficacité de l'approche tandem proposée sur des modèles pré-entraînés par rapport aux stratégies de ré-entraînement proposées dans la littérature.