Sélection de variables secondaires de données multi-tables pour la classification
Résumé
Les données multi-tables sont courantes dans les organisations et leur
analyse est cruciale pour des applications telles que la détection de fraudes,
l'amélioration des services ou la relation client. L'utilisation de ces données nécessite
une mise à plat, transformant la structure multi-tables en une table à plat,
en créant des agrégats à partir des variables originales. Des outils de propositionnalisation
proposent d'automatiser ce processus, mais l'augmentation de la
complexité des données par leur nombre et leurs relations réduit l'efficacité de
la mise à plat. Pour améliorer la qualité de la propositionnalisation, il est essentiel
de développer des systèmes de prétraitement automatique qui optimisent
la construction d'agrégats en se concentrant sur les variables qui contiennent le
plus d'information. L'objectif de cet article est de proposer une méthode de sélection
de variables secondaires et de démontrer que cette méthode permet de
trier et filtrer les variables non informatives par une approche univariée. Pour
finir nous montrerons sur un ensemble de bases de données académiques qu'en
réduisant le nombre de variables secondaires aux seules informatives, la qualité
de la classification peut s'améliorer.