RNTI

MODULAD
Classification ascendante hiérarchique à noyaux et une application aux données textuelles
In EGC 2017, vol. RNTI-E-33, pp.405-410
Résumé
La formule de Lance etWilliams permet d'unifier plusieurs méthodes de classification ascendante hiérarchique (CAH). Dans cet article, nous suppo- sons que les données sont représentées dans un espace euclidien et nous établis- sons une nouvelle expression de cette formule en utilisant les similarités cosinus au lieu des distances euclidiennes au carré. Notre approche présente les avan- tages suivants. D'une part, elle permet d'étendre naturellement les méthodes classiques de CAH aux fonctions noyau. D'autre part, elle permet d'appliquer des méthodes d'écrêtage permettant de rendre la matrice de similarités creuse afin d'améliorer la complexité de la CAH. L'application de notre approche sur des tâches de classification automatique de données textuelles montre d'une part, que le passage à l'échelle est amélioré en mémoire et en temps de traitement; d'autre part, que la qualité des résultats est préservée voire améliorée.