RNTI

MODULAD
Omniscience dans la Conception des Entrepôts de Données Parallèles sur un Cluster
In EDA 2013, vol. RNTI-B-9, pp.45-55
Résumé
Généralement, le processus de conception d'un entrepôt de données parallèle passe principalement par deux étapes : (1) la fragmentation des données et (2) l'allocation des fragments générés sur les différents noeuds de traitement. Le principal inconvénient d'une telle approche de conception est le coût élevé de communication pour équilibrer la charge entre les noeuds de traitement, ainsi le noeud coordinateur peut devenir un goulot d'étranglement dans le système. Pour remédier à ces problèmes, la réplication de données (RD) est utilisée. Fréquemment, la fragmentation des données, l'allocation des fragments et la réplication de données sont effectuées de manière isolée. En effet, l'interaction entre ces phases est ignorée. Dans cet article, nous proposons une nouvelle approche de conception d'un entrepôt de données parallèle qui traite conjointement la fragmentation, l'allocation et la réplication. Un algorithme d'allocation redondant basé sur l'algorithme de classification floue ”Fuzzy k-means” est proposé. Nous avons également formalisé le problème du traitement parallèle des requêtes comme un Dual Bin Packing, un algorithme glouton est proposé pour la résolution du problème. Enfin, une validation de nos propositions en utilisant le banc d'essai "Star Schema Benchmark" (SSB) est proposée.