MTEB-FR: une expérience à large échelle pour l'apprentissage de représentation en français
Résumé
De nombreux modèles de représentation textuelle (embedding) sont
aujourd'hui disponibles et utilisés pour diverses tâches de traitement du langage
naturel. Le projet MTEB (Massive Textual Embedding Benchmark) a fortement
simplifié le choix d'un modèle efficace pour l'anglais. Nous proposons de l'élargir
en introduisant la première expérience à large échelle pour le français. Nous
introduisons 3 nouveaux ensembles de données, et en rassemblons des existants
pour constituer une évaluation globale sur 27 jeux associés à 8 tâches (e.g. classification,
recherche d'information). Nous comparons 51 modèles soigneusement
sélectionnés, selon diverses métriques et statistiques, afin d'identifier les plus
performants et d'analyser la corrélation entre performance et caractéristiques.
Bien qu'aucune méthode ne domine sur toutes les tâches, les modèles multilingues
avec un grand nombre de paramètres, et spécialisés pour la tâche de
similarité entre phrases, sont particulièrement performants. D'autres modèles
beaucoup plus économes sont également très compétitifs. Notre travail est accompagné
d'une librairie facilement utilisable, ouverte au public (open source),
et d'un classement public évolutif 1 permettant des contributions externes.