Parallélisation de l'échantillonnage de motifs séquentiels
Résumé
Durant ces 10 dernières années, le domaine de la fouille de données
a connu d'importants travaux sur la découverte de motifs par échantillonnage
en sortie. Très récemment, ces méthodes d'échantillonnage ont été appliquées
sur des données séquentielles qui sont d'une nature complexe. La complexité de
ces données réside sur leur structure qui a un impact notoire sur la rapidité du
calcul et notamment sur le pré-traitement. A cela s'ajoute la taille des bases de
données qui, de nos jours, deviennent très volumineuses. Dans ce papier, nous
avons montré comment bénéficier du modèle de programmation BSP (Bulk Synchronous
Parallel) pour améliorer l'efficacité des méthodes d'échantillonnage en
sortie sur les données séquentielles. En effet, nous proposons un algorithme distribué
et parallèle qui s'opère sur des bases de données séquentielles sciemment
distribuées afin d'accélérer le temps de calcul. Les analyses que nous avons faites
montrent l'impact positif du framework sur le temps d'exécution de la méthode.