Rien ne sert de décoder, il faut chercher à point : prédiction de mots-clés inter-domaine par recherche et classement à l'aide de Sentence-Transformers fine-tunés
Résumé
La génération de mots-clés demeure encore un défi pour l'état de l'art,
fortement focalisée sur les encodeurs-décodeurs neuronaux. Or, les modèles
peinent à généraliser hors domaine ou même à générer des mots-clés absents
satisfaisants dans leur domaine d'entraînement, qui plus est, ces modèles nécessitent
d'importantes ressources de calcul et sacrifient souvent la latence pour
des gains marginaux. Notre approche propose une architecture uniquement basée
sur l'encodage, dédiée au classement de mots-clés issus d'un regroupement
inter-domaines. En utilisant le même ensemble d'entraînement que les décodeurs
comme index, chaque document de test est traité comme une requête :
nous collectons les mots-clés des voisins les plus proches, puis apprenons à les
classer à l'aide d'un Sentence-Transformers ajusté par fine-tuning aux différents
domaines. L'apprentissage repose sur un objectif contrastif de type multiple negatives
ranking, où chaque document de test est associé à un mot-clé de référence
parmi un ensemble partagé de candidats négatifs. Cependant, certains mots-clés
pouvant être pertinents à plusieurs documents, nous masquons leur contribution
à la fonction objectif afin d'éviter de les considérer négatifs et pénaliser le
modèle à tort. Cette adaptation permet de mieux modéliser les recouvrements
sémantiques entre documents tout en préservant la stabilité de l'entraînement.
Nous comparons notre méthode à de solides bases seq2seq, en évaluant le f-score
et le rappel pour les mots-clés présents et absents, la robustesse hors domaine,
la latence, les coûts d'entraînement et d'inférence ainsi que l'empreinte environnementale.
Notre approche égale ou dépasse les modèles génératifs tout en
réduisant fortement les limites associés à ces approches neuronales. Ce travail se
positionne ainsi comme une alternative scalable aux architectures seq2seq pour
l'indexation documentaire dans les bases de connaissances par mots-clés.