RNTI

MODULAD
Relations complexes au sein du système Hive
In EDA 2019, vol. RNTI-B-15, pp.1-14
Résumé
Dans cet article, nous abordons le problème de la modélisation de données pour les entrepôts au sein du système Hive. Ce moteur SQL sur Hadoop bien connu permet des relations avec des valeurs complexes, avec diffé- rents types d'attribut non nécessairement atomiques. A l'aide d'une étude empirique, nous analysons des dossiers de sources libres qui contiennent des dé- claration de schémas Hive. Nous examinons dans quelles limites les utilisateurs créent des relations à valeur complexe et par conséquent leurs requêtes sur les valeurs complexes. Comprendre comment les utilisateurs conçoivent leurs modèles de données Hive, en particulier quelles fonctionnalités ils utilisent, devrait nous aider à prendre de bonnes décisions de conception pour la création d'un banc d'essais réaliste pour les moteurs SQL sur Hadoop, et choisir quels opérateurs de requêtes utiliser pour une bonne optimisation.