RNTI

MODULAD
Une Plateforme ETL parallèle et distribuée pour l'intégration de données massives
In EGC 2015, vol. RNTI-E-28, pp.455-460
Résumé
Nous nous intéressons, dans ce papier, à l'impact des données massives dans un environnement décisionnel et plus particulièrement sur la phase d'intégration des données. Dans ce contexte, nous avons développé une plateforme, baptisée P-ETL (Parallel-ETL), destinée à l'entreposage de données massives selon le paradigme MapReduce. P-ETL permet le paramétrage de processus ETL (workflow) et un paramétrage avancé relatif à l'environnement parallèle et distribué. Ce papier décrit la plateforme P-ETL en vue d'une démonstration. Face à des jeux de données allant de 244 * 106 à 7, 317 * 109 tuples, les expérimentations menées ont montré l'amélioration significative des performances de P-ETL lorsque la taille du cluster et le nombre des tâches parallèles augmentent.