Les forêts d'arbres extrêmement aléatoires : utilisation dans un cadre non supervisé
Résumé
Dans ce travail, nous présentons une nouvelle méthode permettant le
calcul de similarités entre objets basée sur les forêts d'arbres extrêmement aléatoires.
L'idée principale de notre méthode est de séparer les données de manière
itérative jusqu'à ce qu'une condition d'arrêt soit respectée, et de calculer une
similarité basée sur la co-occurrence des instances dans les feuilles de chaque
arbre obtenu. Nous évaluons la méthode sur un ensemble de jeux de données
synthétiques et réels. Cette évaluation est basée sur la comparaison des similarités
moyennes entre instances ayant la même étiquette aux similarités moyennes
entre instances d'étiquette différente. Ces mesures sont comparables aux notions
de similarités intracluster et intercluster, mais ont pour intérêt d'être agnostiques
aux choix d'une méthode de clustering en particulier. L'étude empirique montre
que la méthode permet effectivement de distinguer les individus n'appartenant
pas aux même clusters. Les forêts d'arbres extrêmement aléatoires non supervisées
ont des propriétés intéressantes, telles que : (i) l'invariance aux transformations
monotones de variables, (ii) la robustesse aux variables corrélées, et (iii),
la robustesse au bruit. Enfin, nous présentons les résulats obtenus par l'applicaton
d'un algorithme de clustering hiérarchique agglomératif, en utilisant les
matrices de similarité obtenues par notre méthode. Les résultats obtenus sur des
jeux de données homogènes et hétérogènes sont prometteurs.