Classification ascendante hiérarchique à noyaux et une application aux données textuelles
Résumé
La formule de Lance etWilliams permet d'unifier plusieurs méthodes
de classification ascendante hiérarchique (CAH). Dans cet article, nous suppo-
sons que les données sont représentées dans un espace euclidien et nous établis-
sons une nouvelle expression de cette formule en utilisant les similarités cosinus
au lieu des distances euclidiennes au carré. Notre approche présente les avan-
tages suivants. D'une part, elle permet d'étendre naturellement les méthodes
classiques de CAH aux fonctions noyau. D'autre part, elle permet d'appliquer
des méthodes d'écrêtage permettant de rendre la matrice de similarités creuse
afin d'améliorer la complexité de la CAH. L'application de notre approche sur
des tâches de classification automatique de données textuelles montre d'une part,
que le passage à l'échelle est amélioré en mémoire et en temps de traitement;
d'autre part, que la qualité des résultats est préservée voire améliorée.