Une méthode de classification ascendante hiérarchique par compromis : hclustcompro
Résumé
Les méthodes d'apprentissage semi-supervisé permettent d'utiliser
des connaissances a priori pour guider l'algorithme de classification
dans la découverte de groupes. Dans ce travail, nous proposons un nouvel
algorithme de classification de type ascendante hiérarchique (CAH)
prenant en compte deux sources d'information associées aux mêmes objets.
Cette méthode appelée CAH par compromis (hclustcompro), permet
un compromis entre les hiérarchies obtenues à partir de chaque source
prise séparément. Une combinaison convexe des dissimilarités associées à
chacune des sources est utilisée pour modifier la mesure de dissimilarité
dans l'algorithme CAH classique. Le choix du paramètre de mélange est
le point clé de la méthode. Nous proposons une fonction objectif à minimiser
basée sur la différence absolue des corrélations entre dissimilarités
initiales et distances cophénétiques, ainsi qu'une procédure de rééchantillonnage
pour assurer la robustesse du choix du paramètre de mélange.
Nous illustrons notre méthode avec des données archéologiques provenant
du site d'Angkor Thom au Cambodge.