Agrégation de sac-de-sacs-de-mots pour la recherche d'information par modèles vectoriels
Abstract
Cet article étudie l'intérêt de représenter les documents textuels non
plus comme des sacs-de-mots, mais comme des sacs-de-sacs-de-mots. Au coeur
de l'utilisation de cette représentation, le calcul de similarité entre deux objets
nécessite alors d'agréger toutes les similarités entre sacs de chacun des objets.
Nous évaluons cette représentation dans un cadre de recherche d'information,
et étudions les propriétés attendues de ces fonctions d'agrégation. Les expériences
rapportées montrent l'intérêt de cette représentation lorsque les opérateurs
d'agrégation respectent certaines propriétés, avec des gains très importants
par rapport aux représentations standard.