Conception physique d'un entrepôt de données distribuées basée sur K-means équilibré

Yassine Ramdane, Omar Boussaid, Nadia Kabachi, Fadila Bentayeb

In EGC 2019, vol. RNTI-E-35, pp.177-188

Résumé

Le partitionnement horizontal est l'une des techniques les plus per- formantes pour améliorer l'exploitation de données sur les plateformes de trai- tements parallèles comme Hadoop et Spark. Dans les entrepôts de données dis- tribués (EDD), l'opération la plus coûteuse est la jointure en étoile qui nécessite plusieurs cycles MapReduce lors de son exécution. Dans ce papier, nous propo- sons une nouvelle stratégie de placement des données d'un entrepôt volumineux dans Hadoop, en se basant sur l'algorithme K-means équilibré (K-means balan- ced). Ce schéma de placement permet d'exécuter des opérations de certaines re- quêtes OLAP, dont la jointure en étoile, en une seule étape de Spark. Dans notre approche, nous prenons en compte les caractéristiques physiques du cluster et le volume des données. Pour évaluer notre proposition, nous avons effectué des expérimentations sur un cluster de 5 nœuds avec un entrepôt de données issu du banc d'essai TPC-DS. Les résultats obtenus montrent un gain de temps d'exé- cution, de certaines requêtes OLAP, allant jusqu'à 60% par rapport à d'autres approches existantes.

Aperçu Voir bibtex

Télécharger