Optimisation d'architecture de lacs de données basée sur les chaînes d'approvisionnement
Résumé
Les lacs de données constituent une nouvelle génération de dépôts de
données. Dans cet article, nous nous appuyons sur une modélisation mathématique
de problèmes joints de “location-allocation" utilisés dans la conception de
réseau de chaîne d'approvisionnement afin d'améliorer l'architecture des lacs de
données et leur performance. Un lac de données est alors considéré comme étant
une chaîne d'approvisionnement et les données du lac sont considérées comme
des produits avec une durée de vie déterminée. Nous faisons l'hypothèse d'un
lac géré avec la paradigme MapReduce et nous résolvons le modèle mathématique
à l'aide d'algorithmes gloutons pour déterminer les optimaux de tâches à
exécuter pour optimiser les performances tout en minimisant les coûts totaux.