RNTI

MODULAD
Clé de partition multi-attributs pour un partitionnement horizontal optimal des entrepôts de données NoSQL en colonnes
In EDA 2018, vol. RNTI-B-14, pp.89-104
Résumé
Les systèmes NoSQL en colonnes offrent des techniques de stockage adaptées à la construction d'entrepôts de données. Plusieurs scénarios sont possibles pour stocker des entrepôts de données sur ces systèmes. Dans cet article, nous étudions une nouvelle approche de placement des données d'un entrepôt sur un cluster dans un système NoSQL en colonnes. Notre approche s'appuie sur une méthode basée sur une stratégie de regroupement d'attributs pour définir les clés de partition RowKey d'un schéma de partitionnement horizontal des données. Nous obtenons ainsi un modèle physique de données qui permet de garantir une localisation et une distribution plus homogène des données dans les différents nœuds du cluster. Nous utilisons la méthode des règles d'association pour obtenir les partitions sus-mentionnées. Pour évaluer notre méthode, nous avons effectué plusieurs tests sur le benchmark TPC-DS au sein du SGBD NoSQL HBase. Les résultats obtenus montrent que notre stratégie de placement des données augmente les performances des entrepôts NoSQL en colonnes de l'ordre de 48%.