Conception physique d'un entrepôt de données distribuées basée sur K-means équilibré
Résumé
Le partitionnement horizontal est l'une des techniques les plus per-
formantes pour améliorer l'exploitation de données sur les plateformes de trai-
tements parallèles comme Hadoop et Spark. Dans les entrepôts de données dis-
tribués (EDD), l'opération la plus coûteuse est la jointure en étoile qui nécessite
plusieurs cycles MapReduce lors de son exécution. Dans ce papier, nous propo-
sons une nouvelle stratégie de placement des données d'un entrepôt volumineux
dans Hadoop, en se basant sur l'algorithme K-means équilibré (K-means balan-
ced). Ce schéma de placement permet d'exécuter des opérations de certaines re-
quêtes OLAP, dont la jointure en étoile, en une seule étape de Spark. Dans notre
approche, nous prenons en compte les caractéristiques physiques du cluster et
le volume des données. Pour évaluer notre proposition, nous avons effectué des
expérimentations sur un cluster de 5 nœuds avec un entrepôt de données issu du
banc d'essai TPC-DS. Les résultats obtenus montrent un gain de temps d'exé-
cution, de certaines requêtes OLAP, allant jusqu'à 60% par rapport à d'autres
approches existantes.