Échantillonnage d'ensemble de motifs diversifiés par compression locale
Résumé
Les méthodes exhaustives d'extraction de motifs dans une base de
données constituent de véritables obstacles pour la rapidité et le contrôle en sortie des motifs: un grand nombre de motifs sont extraits, dont beaucoup sont redondants. Les méthodes d'extraction de motifs par échantillonnage, qui permettent de contrôler la taille des sorties obtenues tout en garantissant des temps de réponse rapides, apportent une solution à ces deux problèmes. Toutefois, ces méthodes ne fournissent pas des motifs de bonne qualité : elles retournent des motifs très peu fréquents dans la base. Par ailleurs, elles ne passent pas à l'échelle. Pour garantir en sortie des motifs plus fréquents et diversifiés, nous proposons d'intégrer à l'échantillonnage des méthodes de compression pour sélectionner les motifs les plus représentatifs des transactions échantillonnées.
Nous montrons que notre approche améliore l'état de l'art en termes de diversité des motifs produits.