Équilibrage de Distribution de Données d'une Base en Mémoire Parallèle Partitionnées par Intervalle
Résumé
Grâce à la disponibilité de plus grandes capacités de mémoire principale, nous assistons à une présence des systèmes parallèles de bases de données gérées en mémoire offrant une performance accrue contrairement aux bases de données traditionnelles. Le partitionnement de données est une pré-condition de ces bases de données, car il permet d'améliorer de manière significative les performances de certaines requêtes (par ex. le cas de requêtes d'intervalle). Le partitionnement engendre un problème d'équilibrage de distribution des données. En conséquence, il peut contribuer à la dégradation de la performance de requêtes. Le groupe de Ganesan et al. a proposé un algorithme offrant un faible rapport entre les charges maximale et minimale des nœuds tout en exploitant des informations de la charge globale. Ces informations sont stockées dans une structure de données, appelée skip graphs nécessitant l'échange de (log p) messages entre les p nœuds de la machine parallèle lors du processus d'équilibrage. L'objectif de notre travail est de réduire le nombre de ces messages. Pour ce faire, nous proposons un vecteur de statistiques approximatives des partitions (VSP), où les nœuds et les clients ont une vue approximative sur la distribution de données. Le coût de maintenance de ce vecteur est quasiment nul. Notre approche est validée sur un cluster de 8 nœuds et 2 clients.