Relations complexes au sein du système Hive
Résumé
Dans cet article, nous abordons le problème de la modélisation de
données pour les entrepôts au sein du système Hive. Ce moteur SQL sur Hadoop bien connu permet des relations avec des valeurs complexes, avec diffé-
rents types d'attribut non nécessairement atomiques. A l'aide d'une étude empirique, nous analysons des dossiers de sources libres qui contiennent des dé-
claration de schémas Hive. Nous examinons dans quelles limites les utilisateurs
créent des relations à valeur complexe et par conséquent leurs requêtes sur les
valeurs complexes. Comprendre comment les utilisateurs conçoivent leurs modèles de données Hive, en particulier quelles fonctionnalités ils utilisent, devrait
nous aider à prendre de bonnes décisions de conception pour la création d'un
banc d'essais réaliste pour les moteurs SQL sur Hadoop, et choisir quels opérateurs de requêtes utiliser pour une bonne optimisation.