Omniscience dans la Conception des Entrepôts de Données Parallèles sur un Cluster
Abstract
Généralement, le processus de conception d'un entrepôt de données
parallèle passe principalement par deux étapes : (1) la fragmentation des données
et (2) l'allocation des fragments générés sur les différents noeuds de traitement.
Le principal inconvénient d'une telle approche de conception est le coût
élevé de communication pour équilibrer la charge entre les noeuds de traitement,
ainsi le noeud coordinateur peut devenir un goulot d'étranglement dans le système.
Pour remédier à ces problèmes, la réplication de données (RD) est utilisée.
Fréquemment, la fragmentation des données, l'allocation des fragments et
la réplication de données sont effectuées de manière isolée. En effet, l'interaction
entre ces phases est ignorée. Dans cet article, nous proposons une nouvelle
approche de conception d'un entrepôt de données parallèle qui traite conjointement
la fragmentation, l'allocation et la réplication. Un algorithme d'allocation
redondant basé sur l'algorithme de classification floue ”Fuzzy k-means” est proposé.
Nous avons également formalisé le problème du traitement parallèle des
requêtes comme un Dual Bin Packing, un algorithme glouton est proposé pour
la résolution du problème. Enfin, une validation de nos propositions en utilisant
le banc d'essai "Star Schema Benchmark" (SSB) est proposée.