SGIA : Stratégie Intelligente de Groupement pour Améliorer le Traitement des Requêtes OLAP en MapReduce
Résumé
L'amélioration des performances d'une requête OLAP dans un système distribué tel que Hadoop ou Spark est une tâche ardue. Une requête OLAP
est composée de plusieurs opérations, tels que le filtrage, la jointure et le Group
By. Chaque opération peut être exécutée dans la phase map ou la phase reduce
avec un ou plusieurs cycles MapReduce. Étant donné qu'il est possible de collecter au préalable quelques connaissances sur le système distribué, certaines
opérations, comme la jointure en étoile et le filtrage, peuvent être optimisées en
utilisant une technique statique de partitionnement. Cependant, l'optimisation
du Group By nécessite généralement l'utilisation d'une technique dynamique de
partitionnement et de distribution qui permet d'équilibrer à la volée les charges
des reducers, car nous ne pouvons pas collecter les informations pertinentes qui
aident le système à établir le bon schéma qu'au moment de l'exécution de la requête. Dans cet article, nous proposons une méthode intelligente, appelée SGIA,
permettant d'équilibrer les données d'entrées des reducers. Nous avons utilisé
un système multi-agents qui permet d'équilibrer à la volée les charges des reducers. Les expérimentations révèlent que notre approche est plus performante
que celles existantes en termes de temps d'exécution des requêtes.