RNTI

MODULAD
Rien ne sert de décoder, il faut chercher à point : prédiction de mots-clés inter-domaine par recherche et classement à l'aide de Sentence-Transformers fine-tunés
In EGC 2026, vol. RNTI-E-42, pp.133-144
Résumé
La génération de mots-clés demeure encore un défi pour l'état de l'art, fortement focalisée sur les encodeurs-décodeurs neuronaux. Or, les modèles peinent à généraliser hors domaine ou même à générer des mots-clés absents satisfaisants dans leur domaine d'entraînement, qui plus est, ces modèles nécessitent d'importantes ressources de calcul et sacrifient souvent la latence pour des gains marginaux. Notre approche propose une architecture uniquement basée sur l'encodage, dédiée au classement de mots-clés issus d'un regroupement inter-domaines. En utilisant le même ensemble d'entraînement que les décodeurs comme index, chaque document de test est traité comme une requête : nous collectons les mots-clés des voisins les plus proches, puis apprenons à les classer à l'aide d'un Sentence-Transformers ajusté par fine-tuning aux différents domaines. L'apprentissage repose sur un objectif contrastif de type multiple negatives ranking, où chaque document de test est associé à un mot-clé de référence parmi un ensemble partagé de candidats négatifs. Cependant, certains mots-clés pouvant être pertinents à plusieurs documents, nous masquons leur contribution à la fonction objectif afin d'éviter de les considérer négatifs et pénaliser le modèle à tort. Cette adaptation permet de mieux modéliser les recouvrements sémantiques entre documents tout en préservant la stabilité de l'entraînement. Nous comparons notre méthode à de solides bases seq2seq, en évaluant le f-score et le rappel pour les mots-clés présents et absents, la robustesse hors domaine, la latence, les coûts d'entraînement et d'inférence ainsi que l'empreinte environnementale. Notre approche égale ou dépasse les modèles génératifs tout en réduisant fortement les limites associés à ces approches neuronales. Ce travail se positionne ainsi comme une alternative scalable aux architectures seq2seq pour l'indexation documentaire dans les bases de connaissances par mots-clés.