Comparaison de bornes théoriques pour l'accélération du clustering incrémental en une passe

Nicolas Labroche, Marcin Detyniecki, Thomas Baerecke

In EGC 2014, vol. RNTI-E-26, pp.467-478

Abstract

Le clustering incrémental en une passe repose sur l'affectation efficace de chaque nouveau point aux clusters existants. Dans le cas général, où les clusters ne peuvent être représentés par une moyenne, la détermination exhaustive du cluster le plus proche possède une complexité quadratique avec le nombre de données. Nous proposons dans ce papier une nouvelle méthode d'affectation stochastique à chaque cluster qui minimise le nombre de comparaisons à effectuer entre la donnée et chaque cluster pour garantir, étant donné un taux d'erreur acceptable, l'affectation au cluster le plus proche. Plusieurs bornes théoriques (Bernstein, Hoeffding et Student) sont comparées dans ce papier. Les résultats sur des données artificielles et réelles montrent que la borne de Bernstein donne globalement les meilleurs résultats (notamment lorsqu'elle est réduite) car elle permet une accélération forte du processus de clustering, tout en conservant un nombre très faible d'erreurs.

Preview See bibtex

Download