RNTI

MODULAD
Sélection de variables secondaires de données multi-tables pour la classification
In EGC 2025, vol. RNTI-E-41, pp.195-206
Résumé
Les données multi-tables sont courantes dans les organisations et leur analyse est cruciale pour des applications telles que la détection de fraudes, l'amélioration des services ou la relation client. L'utilisation de ces données nécessite une mise à plat, transformant la structure multi-tables en une table à plat, en créant des agrégats à partir des variables originales. Des outils de propositionnalisation proposent d'automatiser ce processus, mais l'augmentation de la complexité des données par leur nombre et leurs relations réduit l'efficacité de la mise à plat. Pour améliorer la qualité de la propositionnalisation, il est essentiel de développer des systèmes de prétraitement automatique qui optimisent la construction d'agrégats en se concentrant sur les variables qui contiennent le plus d'information. L'objectif de cet article est de proposer une méthode de sélection de variables secondaires et de démontrer que cette méthode permet de trier et filtrer les variables non informatives par une approche univariée. Pour finir nous montrerons sur un ensemble de bases de données académiques qu'en réduisant le nombre de variables secondaires aux seules informatives, la qualité de la classification peut s'améliorer.