Résumé hybride de flux de données par échantillonnage et classification automatique
Abstract
Face à la grande volumétrie des données générées par les systèmes informatiques,
l'hypothèse de les stocker en totalité avant leur interrogation n'est
plus possible. Une solution consiste à conserver un résumé de l'historique du
flux pour répondre à des requêtes et pour effectuer de la fouille de données.
Plusieurs techniques de résumé de flux de données ont été développées, telles
que l'échantillonnage, le clustering, etc. Selon le champ de requête, ces résumés
peuvent être classés en deux catégories: résumés spécialisés et résumés généralistes.
Dans ce papier, nous nous intéressons aux résumés généralistes. Notre
objectif est de créer un résumé de bonne qualité, sur toute la période temporelle,
qui nous permet de traiter une large panoplie de requêtes. Nous utilisons deux
algorithmes : CluStream et StreamSamp. L'idée consiste à les combiner afin de
tirer profit des avantages de chaque algorithme. Pour tester cette approche, nous
utilisons un Benchmark de données réelles "KDD_99". Les résultats obtenus
sont comparés à ceux obtenus séparément par les deux algorithmes.