Clustering hiérarchique non paramétrique de données fonctionnelles
Abstract
Dans cet article, il est question de clustering de courbes. Nous proposons
une méthode non paramétrique qui segmente les courbes en clusters et
discrétise en intervalles les variables continues décrivant les points de la courbe.
Le produit cartésien de ces partitions forme une grille de données qui est inférée
en utilisant une approche Bayésienne de sélection de modèle ne faisant aucune
hypothèse concernant les courbes. Enfin, une technique de post-traitement, visant
à réduire le nombre de clusters dans le but d'améliorer l'interprétabilité
des clusters, est proposée. Elle consiste à fusionner successivement et de façon
optimale les clusters, ce qui revient à réaliser une classification hiérarchique ascendante
dont la mesure de dissimilarité correspond à la variation du critère.
De manière intéressante, cette mesure est en fait une somme pondérée de divergences
de Kullback-Leibler entre les distributions des clusters avant et après
fusions. L'intérêt de l'approche dans le cadre de l'analyse exploratoire de données
fonctionnelles est illustré par un jeu de données artificiel et réel.