Approche préventive pour une gestion élastique du traitement parallèle et distribué de flux de données
Résumé
Dans un contexte de traitement de flux de données, il est important
de garantir à l'utilisateur des propriétés de performance, qualité des résultats et
passage à l'échelle. Mettre en adéquation ressources et besoins, pour n'allouer
que les ressources nécessaires au traitement efficace des flux, est un défi d'actualité
majeur au croisement des problématiques du Big Data et du Green IT.
L'approche que nous suggérons permet d'adapter dynamiquement et automatiquement
le degré de parallélisme des différents opérateurs composant une requête
continue selon l'évolution du débit des flux traités. Nous proposons i) une
métrique permettant d'estimer l'activité future des opérateurs selon l'évolution
des flux en entrée, ii) l'approche AUTOSCALE évaluant a priori l'intérêt d'une
modification du degré de parallélisme des opérateurs en prenant en compte l'impact
sur le traitement des données dans sa globalité iii) grâce à une intégration
de notre proposition à Apache Storm, nous exposons des tests de performance
comparant notre approche par rapport à la solution native de cet outil.