RNTI

MODULAD
MTEB-FR: une expérience à large échelle pour l'apprentissage de représentation en français
In EGC 2025, vol. RNTI-E-41, pp.219-230
Résumé
De nombreux modèles de représentation textuelle (embedding) sont aujourd'hui disponibles et utilisés pour diverses tâches de traitement du langage naturel. Le projet MTEB (Massive Textual Embedding Benchmark) a fortement simplifié le choix d'un modèle efficace pour l'anglais. Nous proposons de l'élargir en introduisant la première expérience à large échelle pour le français. Nous introduisons 3 nouveaux ensembles de données, et en rassemblons des existants pour constituer une évaluation globale sur 27 jeux associés à 8 tâches (e.g. classification, recherche d'information). Nous comparons 51 modèles soigneusement sélectionnés, selon diverses métriques et statistiques, afin d'identifier les plus performants et d'analyser la corrélation entre performance et caractéristiques. Bien qu'aucune méthode ne domine sur toutes les tâches, les modèles multilingues avec un grand nombre de paramètres, et spécialisés pour la tâche de similarité entre phrases, sont particulièrement performants. D'autres modèles beaucoup plus économes sont également très compétitifs. Notre travail est accompagné d'une librairie facilement utilisable, ouverte au public (open source), et d'un classement public évolutif 1 permettant des contributions externes.